Eine Anleitung für Power BI-Einsteiger*innen unter Verwendung von Open Data
Rufe den Open Data Katalog der Stadt Zürich auf «https://data.stadt-zuerich.ch/». Wir müssen drei Datensätze herunterladen:
Schritt 1: Suche nach «Zürich Glasfasernetz Leistungsdaten». Gib dazu im Suchfeld beispielsweise den Begriff «Glasfasernetz» und «Leistungsdaten» ein. Während dem Eintippen des Suchbegriffs werden bereits passende Vorschläge angezeigt.
Schritt 2: Wähle das Dataset «Zürich Glasfasernetz Leistungsdaten» aus und lese die Metadaten dazu. Besonders wichtig sind dabei die Attributbeschreibungen, welche die Ausprägungen der Informationen im Datensatz beschreiben. Weiterführende wichtige Informationen sind auch unter Bemerkungen zu finden. Beachte, dass die Metadaten und Attributbeschreibungen am Ende der Liste sind und auf der Seite allenfalls heruntergescrollt werden muss, damit diese sichtbar werden.
!!! Der Datensatz enthält die gemessenen Leistungsdaten (Up- und Downstream) in Bit pro Sekunde (pro «Core Location») im Glasfasernetz der Stadt Zürich. Die Messdaten werden für jede Viertelstunde pro Knotenpunkt, aggregiert (Durchschnitt), ausgewiesen.
Schritt 1: Suche nach «Zürich Glasfasernetz Versorgungszonen». Gib dazu im Suchfeld beispielsweise die Begriffe «Glasfasernetz» und «Versorgungszonen» ein. Während dem Eintippen der Suchbegriffe werden bereits passende Vorschläge angezeigt.
Schritt 2: Wähle das Dataset «Zürich Glasfasernetz Versorgungszonen» aus und lies die Metadaten dazu. Besonders wichtig sind dabei die Attributbeschreibungen, welche die Ausprägungen der Informationen im Datensatz beschreiben.
Schritt 3: Power BI benötigt diese «GeoJSON-Datei» im «TopoJSON-Format». Für die Konvertierung in das TopoJSON Format können wir das Tool «MapShaper Portal» verwenden. Drücke nach dem Importieren den Button «Export» und wähle das Fileformat «TopoJSON» aus. Lade die Datei mit der Dateierweiterung “topojson” für zukünftige Referenzen herunter.
<img src=”https://user-images.githubusercontent.com/7482996/110363068-6247c680-8042-11eb-89a1-97c12bf99a8d.png”, width=400 alt=”MapShaper Export”/>
Schritt 1: Suche nach «Zürich Viertelstundenwerte zum Bruttolastgang elektrische Energie». Gebe dazu im Suchfeld beispielsweise den Begriff «Bruttolastgang» ein. Beim Eintippen des Suchbegriffs werden bereits passende Vorschläge angezeigt.
Schritt 2: Wähle das Dataset «Viertelstundenwerte zum Bruttolastgang elektrische Energie der Stadt Zürich» aus und lies die Metadaten dazu. Besonders wichtig sind dabei die Attributbeschreibungen, welche die Ausprägungen der Informationen im Datensatz beschreiben. Weiterführende wichtige Informationen sind auch unter Bemerkungen zu finden.
!!! Der Bruttolastgang wird basierend auf zahlreichen Messungen zur Einspeisung und zum Verbrauch berechnet. Einzelne Messungen können dabei fehlen und müssen nachträglich nochmals eingepflegt werden.
Eines der Grundprinzipien von Open Data ist, dass die Datensätze in nicht-proprietären Formaten veröffentlicht werden sollen. Sprich, für die Verwendung der Daten sollen die AnwenderInnen nicht auf kommerzielle Software angewiesen sein. Damit soll allen die gleiche Möglichkeit gegeben werden, mit den Daten arbeiten zu können. Das Excelformat (.xls oder .xlsx) ist ein Beispiel eines proprietären Datenformats, weil es zur Verwendung Excel erfordert.
Das Standardformat für tabellarische Daten ist daher CSV. CSV steht für Comma-separated values (komma-getrennte Werte).
CSV-Beispiel:
CSV-Dateien haben meistens auf der ersten Zeile eine Spaltenüberschrift und auf den nachfolgenden Zeilen dann die kommaseparierten Werte.
"zeitpunkt","bruttolastgang","status" "2020-01-01T00:15",66546.656045,"E" "2020-01-01T00:30",66018.362440,"E" "2020-01-01T00:45",65272.630020,"E" "2020-01-01T01:00",64385.925397,"E" "2020-01-01T01:15",63578.900426,"E" "2020-01-01T01:30",63105.155989,"E" "2020-01-01T01:45",62287.860786,"E" "2020-01-01T02:00",61283.998490,"E"
Werte zwischen Anführungszeichen sind entweder Texte oder Datumswerte. Wo keine Anführungszeichen stehen, handelt es sich um numerische Werte. Die Kodierung für Unicode-Zeichen ist dabei standardmässig UTF-8. Der angezeigte CSV-Auszug oben repräsentiert die folgende Tabelle in Excel:
Die folgende Abbbildung erklärt den Unterschied zwischen Zentralwert (Median) und Mittelwert (Mean).
Power BI ist eine Sammlung von Software-Services, Apps und Konnektoren, die zusammenarbeiten, um deine unzusammenhängenden Datenquellen in kohärente, visuell ansprechende und interaktive Einblicke zu verwandeln. Bei deinen Daten kann es sich um eine Excel-Tabelle oder um eine Sammlung von Cloud-basierten und lokalen hybriden Data Warehouses handeln. Mit Power BI kannst du dich ganz einfach mit deinen Datenquellen verbinden, visualisieren und entdecken, was wichtig ist, und dies mit jedem teilen, den du möchtest. «[Mehr Info.]»
Power BI besteht aus verschiedenen Elementen, die eng miteinander verzahnt sind. Dies sind die drei Grundkomponenten:
Diese drei Elemente - Power BI Desktop, der Service und die mobilen Apps - sind so entwickelt, dass du Geschäftseinblicke auf die Art und Weise erstellen, teilen und konsumieren kannst, die dir und deiner Rolle am effektivsten dient.
Hier ist eine sehr kurze Einführung in die Power BI-Schnittstelle. Für eine detaillierte Beschreibung schauen Sie bitte auf die Seite von «Microsoft».
Power BI Desktop verfügt über drei Ansichten:
Der Power Query-Editor kann aufgerufen werden, indem man auf der Registerkarte «Start» auf die Option «Abfragen bearbeiten» klickt.
Nach dem Herstellen einer Datenverbindung sieht der Power Query-Editor wie folgt aus:
Im Menüband sind jetzt viele Schaltflächen aktiv, über die man die Daten in der Abfrage interaktiv bearbeiten kann.
Im linken Bereich sind die Abfragen aufgelistet und können ausgewählt, angezeigt und strukturiert werden.
Im mittleren Bereich werden die Daten der ausgewählten Abfrage angezeigt und können dort strukturiert werden.
Der Bereich Abfrageeinstellungen wird angezeigt. Hier sind die Eigenschaften der Abfrage und die angewendeten Schritte aufgelistet.
Wenn du mit der Abfrage zufrieden bist, klicke im Dateimenü des Power Query-Editors auf Close & Apply (Schliessen und anwenden). Mit dieser Aktion werden die Änderungen angewendet und der Editor geschlossen.
Eine ausführliche Version kannst du auf dem Microsoft Portal finden: «Erstellen von Berichten»
In der Power BI Desktop-Ansicht Bericht kannst du Visualisierungen und Berichte erstellen. Die Ansicht «Bericht» besteht aus sechs Hauptbereichen:
Daten direkt aus dem csv-Weblink importieren
Nullwerte prüfen und entfernen
Prüfung auf doppelte Zeitstempel
Sortieren nach Zeitstempel, dann nach Status und anschliessend Duplikate entfernen
Ändern der Energiedimension nach GWh (für eine bessere Lesbarkeit)
Datumsspalte für schnelle Analyse hinzufügen
Heruntergeladene Dateien aus dem Ordner importieren
Nullwerte entfernen
Doppelte Werte anhand von Zeitstempel und CO entfernen
Ändern der Skala auf Gbps (für eine bessere Interpretation)
Ausreisser entfernen (>80 Gbps)
Datumsspalte für schnelle Analyse hinzufügen
Referenzieren einer Tabelle, um eine aggregierte Tabelle zu erstellen, die die Werte aus allen CO’s aggregiert. Benenne die neue Tabelle Zuerinet ZH
:
Kreieren einer groupby action mit den folgenden Einstellungen:
features.properties.name
und features.properties.CO
auswählenGebiet
und CO
umbenennenCALENDARAUTO()
für eine automatische Kalendertabellenerstellung Time Table =
ADDCOLUMNS(
CROSSJOIN(
CALENDARAUTO(),
SELECTCOLUMNS(
GENERATESERIES(
TIME(0,0,0),
TIME(23,45,0),
TIME(0,15,0)
),
"Time" , [Value]
)
),
"Year", YEAR([Date]),
"Quarter", QUARTER([Date]),
"YearQuarter", FORMAT([Date],"yyyy")&"-Q"&QUARTER([Date]),
"YearMonth", FORMAT([Date],"yyyy-mmm"),
"Month", FORMAT([Date],"mmm"),
"MonthID", MONTH([Date]),
"Day", DAY([Date]),
"WeekDay", FORMAT([Date],"ddd"),
"WeekDayID", WEEKDAY([Date],2),
"Weekend", IF(WEEKDAY([Date],2)>5,"Weekend","Workday"),
"WeekTime", WEEKDAY([Date],2)+(HOUR([Time])*60+MINUTE([Time]))/1440,
"StartofWeek", [Date] - WEEKDAY([Date],2) + 1,
"StartofMonth", DATE(YEAR([Date]),MONTH([Date]),1),
"StartofQuarter", DATE(YEAR([Date]),QUARTER([Date])*3-2,1),
"DateTime", [Date]+[Time]
)
Die Beziehung erscheint automatisch nach dem Anwenden und Schliessen des Dialogs. Andernfalls kann die Beziehung auch manuell durch Ziehen und Ablegen oder über die Schaltfläche «Beziehungen» in der Symbolleiste festgelegt werden.
Der Unterschied zwischen «berechneten Spalten» und «Measures» ist der Kontext der Auswertung. Eine «Measure» wird im Kontext der ausgewerteten Zelle in einem Bericht oder in einer DAX-Abfrage ausgewertet, während eine «berechnete Spalte» auf Zeilenebene innerhalb der Tabelle, zu der sie gehört, berechnet wird. Für eine detaillierte Beschreibung schauen Sie bitte auf die Seite von «sqlbi».
Beispiel für eine berechnete Spalte:
Up/Down Ratio CO % =
DIVIDE( 'Zuerinet CO'[UPSTREAM (Gb/s)] ,
'Zuerinet CO'[DOWNSTREAM (Gb/s)]
)
Beispiele für eine berechnete Measure:
Median Up/Down Ratio CO % =
CALCULATE(
DIVIDE( MEDIAN('Zuerinet CO'[UPSTREAM (Gb/s)]) ,
MEDIAN('Zuerinet CO'[DOWNSTREAM (Gb/s)])
)
)
ing. Download (PB) =
CALCULATE(
SUM('Zuerinet CO'[DOWNSTREAM (Gb/s)])
* 900
/ (8*1000000)
)
ing. Upload (PB) =
CALCULATE(
SUM('Zuerinet CO'[UPSTREAM (Gb/s)])
* 900
/ (8*1000000)
)
Die Vorlage enthält die folgenden Berichtsseiten:
Energieverbrauch über Datum
Internetverbrauch vs. Energieverbrauch über die Zeit
Daten als CSV exportieren
Visualisierung des Internetverbrauchs jedes Gebiets
I. Ribon Plot
II. Standortkarte
III. Tabelle
Untersuchung des Verbrauchs über die Zeit von Woche, Tageszeit, Jahr, Quartal, Monat (wie ändert sich das Energie- oder Internetverbrauchsmuster?)
Präsentation: «LINK»
Tutorial: Erstellen von ansprechenden Berichten aus Excel-Arbeitsmappen in Power BI Desktop «LINK»
Microsoft Dokumentation: Abfrageübersicht in Power BI Desktop «LINK»
Microsoft learn for Power BI: Drei Hauptsammlungen «LINK»