Statistik-Auswertung

Nachdem wir die 4 Grundkonzepte der Statistik erklärt haben, wollen wir Dir zeigen, wie Du mit Python eine Statistik-Auswertung durchführst. Wir verwenden dafür die bekannte Library „pandas„. Diese Library enthält eine ganze Reihe von Tools zur Statistik-Auswertung. Zudem kann pandas Tabellendaten aus sehr vielen verschiedenen Quellen einlesen. pandas kann tabellarische Daten aus SQL-Datenbanken, Excel-Sheets, Word-Dokumenten, HTML-Seiten und sogar Message Queues herunterladen und in einen „DataFrame“ übertragen. Sind die Daten erst einmal im DataFrame gespeichert, können sie dann mit von pandas vordefinierten Funktionen statistisch analysiert und ausgewertet werden.

Schritt 1: Installiere die Software für die Statistik-Auswertung

Python ist zwar eine sehr mächtige Programmiersprache, es enthält aber kein Programm, um eine Statistik-Auswertung zu machen. Zu diesem Zweck benötigen wir die pandas-Bibliothek. Diese muss mit dem „Package Installer for Python“ („pip„) installiert werden.

Stelle sicher, dass Pandas auf deinem System installiert ist. Falls nicht, kannst du es mit dem folgenden Befehl installieren:

pip install pandas

Der Installationsprozess für die pandas-Library benötigt normalerweise sehr lange, weil hier sehr viele Softwarepakete zum Einsatz kommen.

Schritt 2: Importiere Pandas und Lese den Datensatz ein

Um nun die Pandas-Bibliothek in einem Python-Programm nutzen zu können, muss man sie zunächst importieren. Schreibe deshalb folgenden Befehl in Dein Python-Script.

import pandas as pd

Dies lädt die pandas-Bibliothek in Dein Python-Programm, so dass Du sie benutzen kannst. pandas enthält sehr viele Funktionen, um Daten einzulesen. Das können z. B. Textdateien sein oder Excel-Files. Wir benutzen zunächst einmal nur ein Excel-File, das die Daten aus der Bundesliga-Tabelle beinhaltet. Du kennst diese Tabelle aus dem Artikel über deskriptive Statistik.

Statistik der Bundesliga
Deskriptive Statistik der Bundesliga: die „Bundesliga-Tabelle“.

Lade das Excel-File zunächst mal von hier herunter.

Mit dem folgenden Code kannst Du die Excel-Datei in einen „Dataframe“ laden.

# Passe den Dateipfad entsprechend an 
dateipfad = 'dein_dateiname.xlsx' 

# Lese den Datensatz in einen Pandas DataFrame ein
df = pd.read_excel(dateipfad) 

# Gib die ersten paar Zeilen des DataFrames aus, um sicherzustellen, dass die Daten korrekt eingelesen wurden 
print(df.head())

3. Statistische Auswertungen:

a. Deskriptive Statistik:

Die wichtigsten Kennzahlen der deskriptiven Statistik sind Lagemasse und Streuungsmasse. In pandas kannst Du einen einfachen Befehl ausführen, welcher die wichtigsten Streuungs- und Lagemasse in einer Zusammenfassung ausgibt. Führe einfach den folgenden Code aus:

# Gib eine Zusammenfassung der deskriptiven Statistik aus 
print(df.describe())

Als Ausgabe siehst Du jetzt eine komplette Statistik-Auswertung.

b. Mittelwerte und Median:

Nun wollen wir den arithmetischen

# Berechne den Mittelwert aller Spalten 
print("Mittelwerte:") print(df.mean()) 
# Berechne den Median aller Spalten 
print("\nMedian:")print(df.median())

c. Korrelationen:

pythonCopy code

# Berechne die Korrelationen zwischen den Spalten print("\nKorrelationen:") print(df.corr())

import pandas as pd 
# Passe den Dateipfad entsprechend an 
dateipfad = 'dein_dateiname.xlsx' 
# Lese den Datensatz in einen Pandas DataFrame ein
df = pd.read_excel(dateipfad) 

# Gib die ersten paar Zeilen des DataFrames aus, um sicherzustellen, dass die Daten korrekt eingelesen wurden 
print(df.head())

import pandas as pd # Passe den Dateipfad entsprechend an dateipfad = ‚dein_dateiname.xlsx‘ # Lese den Datensatz in einen Pandas DataFrame ein df = pd.read_excel(dateipfad) # Gib die ersten paar Zeilen des DataFrames aus, um sicherzustellen, dass die Daten korrekt eingelesen wurden print(df.head())

4. Visualisierung (Optional):

Um die Daten besser zu verstehen, kannst du Diagramme erstellen. Dafür kannst du Bibliotheken wie Matplotlib oder Seaborn verwenden.

pythonCopy code

import matplotlib.pyplot as plt import seaborn as sns # Beispiel: Histogramm einer bestimmten Spalte sns.histplot(df['Spaltenname'], bins=10, kde=True) plt.title('Histogramm') plt.show()

Hinweis:

  • Ersetze 'dein_dateiname.xlsx' durch den tatsächlichen Dateipfad deiner Excel-Datei.
  • Achte darauf, dass die Excel-Datei im gleichen Verzeichnis wie dein Python-Skript liegt oder du den korrekten Pfad angibst.
  • Passe die Auswertungen entsprechend deinem Datensatz an.

Diese Anleitung sollte dir einen guten Einstieg bieten, um mit Pandas in Python zu arbeiten und Daten aus Excel-Dateien zu analysieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert