Open Data Zürich

Crashkurs für Datenanalysen mit Power BI

Eine Anleitung für Power BI-Einsteiger*innen unter Verwendung von Open Data

Project Status: Inactive – The project has reached a stable, usable state but is no longer being actively developed; support/maintenance will be provided as time allows.

Crashkurs Power BI

Teil 1: Daten finden

Rufe den Open Data Katalog der Stadt Zürich auf «https://data.stadt-zuerich.ch/». Wir müssen drei Datensätze herunterladen:

  1. Glasfasernetz Leistungsdaten der Stadt Zürich
  2. Glasfasernetz Gebiete der Stadt Zürich
  3. Bruttolastgang der Stadt Zürich

Glasfasernetz Leistungsdaten

Glasfasernetz Gebiete

Bruttolastgang

Teil 2: Power BI

Begriffe

CSV… what?

Eines der Grundprinzipien von Open Data ist, dass die Datensätze in nicht-proprietären Formaten veröffentlicht werden sollen. Sprich, für die Verwendung der Daten sollen die AnwenderInnen nicht auf kommerzielle Software angewiesen sein. Damit soll allen die gleiche Möglichkeit gegeben werden, mit den Daten arbeiten zu können. Das Excelformat (.xls oder .xlsx) ist ein Beispiel eines proprietären Datenformats, weil es zur Verwendung Excel erfordert.

Das Standardformat für tabellarische Daten ist daher CSV. CSV steht für Comma-separated values (komma-getrennte Werte).

CSV-Beispiel:

CSV-Dateien haben meistens auf der ersten Zeile eine Spaltenüberschrift und auf den nachfolgenden Zeilen dann die kommaseparierten Werte.

"zeitpunkt","bruttolastgang","status"
"2020-01-01T00:15",66546.656045,"E"
"2020-01-01T00:30",66018.362440,"E"
"2020-01-01T00:45",65272.630020,"E"
"2020-01-01T01:00",64385.925397,"E"
"2020-01-01T01:15",63578.900426,"E"
"2020-01-01T01:30",63105.155989,"E"
"2020-01-01T01:45",62287.860786,"E"
"2020-01-01T02:00",61283.998490,"E"

Werte zwischen Anführungszeichen sind entweder Texte oder Datumswerte. Wo keine Anführungszeichen stehen, handelt es sich um numerische Werte. Die Kodierung für Unicode-Zeichen ist dabei standardmässig UTF-8. Der angezeigte CSV-Auszug oben repräsentiert die folgende Tabelle in Excel:

Darstellung Excel

Median?

Die folgende Abbbildung erklärt den Unterschied zwischen Zentralwert (Median) und Mittelwert (Mean).

Was ist Power BI?

Power BI ist eine Sammlung von Software-Services, Apps und Konnektoren, die zusammenarbeiten, um deine unzusammenhängenden Datenquellen in kohärente, visuell ansprechende und interaktive Einblicke zu verwandeln. Bei deinen Daten kann es sich um eine Excel-Tabelle oder um eine Sammlung von Cloud-basierten und lokalen hybriden Data Warehouses handeln. Mit Power BI kannst du dich ganz einfach mit deinen Datenquellen verbinden, visualisieren und entdecken, was wichtig ist, und dies mit jedem teilen, den du möchtest. «[Mehr Info.]»

Power BI besteht aus verschiedenen Elementen, die eng miteinander verzahnt sind. Dies sind die drei Grundkomponenten:

Diese drei Elemente - Power BI Desktop, der Service und die mobilen Apps - sind so entwickelt, dass du Geschäftseinblicke auf die Art und Weise erstellen, teilen und konsumieren kannst, die dir und deiner Rolle am effektivsten dient.

Power BI Desktop - GUI Intro

Query Editor

Hier ist eine sehr kurze Einführung in die Power BI-Schnittstelle. Für eine detaillierte Beschreibung schauen Sie bitte auf die Seite von «Microsoft».

Report Builder

Eine ausführliche Version kannst du auf dem Microsoft Portal finden: «Erstellen von Berichten»

Datensätze importieren

Bruttolastgang-Datensätze importieren

  1. Daten direkt aus dem csv-Weblink importieren load

  2. Nullwerte prüfen und entfernen filter

  3. Prüfung auf doppelte Zeitstempel dupl

  4. Sortieren nach Zeitstempel, dann nach Status und anschliessend Duplikate entfernen remove_dupl

  5. Ändern der Energiedimension nach GWh (für eine bessere Lesbarkeit) scale

  6. Datumsspalte für schnelle Analyse hinzufügen date

Glasfasernetz-Datensätze importieren

  1. Heruntergeladene Dateien aus dem Ordner importieren loadfolder

  2. Prüfen der Datenqualität
  3. Nullwerte entfernen

  4. Doppelte Werte anhand von Zeitstempel und CO entfernen dup2

  5. Ändern der Skala auf Gbps (für eine bessere Interpretation) scale2

  6. Ausreisser entfernen (>80 Gbps) filter2

  7. Datumsspalte für schnelle Analyse hinzufügen

  8. Referenzieren einer Tabelle, um eine aggregierte Tabelle zu erstellen, die die Werte aus allen CO’s aggregiert. Benenne die neue Tabelle Zuerinet ZH:

  9. Kreieren einer groupby action mit den folgenden Einstellungen:

Glasfasernetz-Gebiete importieren

  1. GeoJSON Datei direkt aus dem geojson-Weblink importieren
  2. Nur Spalten features.properties.name und features.properties.CO auswählen
  3. Spalten in Gebiet und CO umbenennen

Kalendertabelle erstellen

  1. Verwende CALENDARAUTO() für eine automatische Kalendertabellenerstellung
  2. Verwende das folgende Code-Snippet, um eine detailliertere 15-Minuten-DatumZeit-Tabelle zu erstellen.
     Time Table = 
     ADDCOLUMNS(
         CROSSJOIN(
             CALENDARAUTO(),
             SELECTCOLUMNS(
                 GENERATESERIES(
                     TIME(0,0,0),   
                     TIME(23,45,0),
                     TIME(0,15,0)
                     ),
                     "Time" , [Value] 
             )
         ),
         "Year", YEAR([Date]),
         "Quarter", QUARTER([Date]),
         "YearQuarter", FORMAT([Date],"yyyy")&"-Q"&QUARTER([Date]),
         "YearMonth", FORMAT([Date],"yyyy-mmm"),
         "Month", FORMAT([Date],"mmm"),
         "MonthID", MONTH([Date]),
         "Day", DAY([Date]),
         "WeekDay", FORMAT([Date],"ddd"),
         "WeekDayID", WEEKDAY([Date],2),
         "Weekend", IF(WEEKDAY([Date],2)>5,"Weekend","Workday"),
         "WeekTime", WEEKDAY([Date],2)+(HOUR([Time])*60+MINUTE([Time]))/1440,
         "StartofWeek", [Date] - WEEKDAY([Date],2) + 1,
         "StartofMonth", DATE(YEAR([Date]),MONTH([Date]),1),
         "StartofQuarter", DATE(YEAR([Date]),QUARTER([Date])*3-2,1),
         "DateTime", [Date]+[Time]
     )
    

Beziehungen einstellen

  1. Die Beziehung erscheint automatisch nach dem Anwenden und Schliessen des Dialogs. Andernfalls kann die Beziehung auch manuell durch Ziehen und Ablegen oder über die Schaltfläche «Beziehungen» in der Symbolleiste festgelegt werden.

    Verbindungen zwischen Tabellen

Berechnete Spalten & Measures

Der Unterschied zwischen «berechneten Spalten» und «Measures» ist der Kontext der Auswertung. Eine «Measure» wird im Kontext der ausgewerteten Zelle in einem Bericht oder in einer DAX-Abfrage ausgewertet, während eine «berechnete Spalte» auf Zeilenebene innerhalb der Tabelle, zu der sie gehört, berechnet wird. Für eine detaillierte Beschreibung schauen Sie bitte auf die Seite von «sqlbi».

Berichte erstellen und Untersuchungen durchführen



Weitere Tutorials

Power BI selbst lernen