Exploratory Data Analysis (EDA) mit Pandas-Profiling

Seit geraumer Zeit nutze ich extrem gern die Pandas Data Analysis Library um Daten zu importieren/exportieren und aufzubereiten. Einen ganz guten Überblick über die Grundfunktionen erhält man z.B. mit diesem Pandas Cheat Sheet (PDF).

Was mir dort bisher noch gefehlt hat war ein gutes Modul, um einen schnellen Überblick über die Daten eines Datasets zu erhalten. Besonders Unikate, Duplikate, Korrelationen und Anomalien möchte man in der Regel möglichst schnell identifizieren, bevor man sich tiefgehender mit einem Datensatz auseinandersetzt.

Für die sogenannte Exploratory Data Analysis (EDA) gibt es mit Pandas-Profiling ein großartiges Modul, um sich einen detaillierten Report über ein DataFrame ausgeben zu lassen.

Hier mal ein Pandas-Profiling Report als Beispiel vom DataSet des NPGEO Corona - RKI Corona Bundesländer

Feature Service mit den aktuellen Covid-19 Infektionen pro 100.000 Einwohner auf die deutschen Bundesländer. Der Service wird täglich mit den aktuellen Fallzahlen des Robert Koch-Instituts aktualisiert.

Ausschnitt aus dem Pandas-Profiling Report für die Spalte cases7_bl_per_100k


29.12.2020 12:15