Statistik_Auswertung_mit_R

Statistik Auswertung mit R

Statistik Auswertung mit R – Statistik für Anfänger

Die Statistik Auswertung mir R stellt für viele Studenten im Rahmen Ihrer Abschlussarbeit (Bachelorarbeit, Masterarbeit, Doktorarbeit) eine Hürde dar. In diesem Artikel möchten wir Ihnen die wichtigsten Grundlagen der Datenanalyse mit R vermitteln. So erhalten Sie einen Einblick in die Abläufe einer statistischen Auswertung – von der Datenaufbereitung bis zu den Ergebnissen. Wir bieten Ihnen hier eine Anleitung für Statistik Anfänger ohne Grundkenntnisse. Es werden statistische Grundbegriffe wie Signifikanz, Hypothesentest und die grundlegende Systematik einer statistischen Auswertung veranschaulicht.

Weitere Hilfe und Infos finden Sie auch auf unserer Seite Statistik Beratung.

Die statistische Auswertung mit R

Die Analyse erfolgt anhand eines Beispieldatensatzes. Grundsätzlich lässt sich die Durchführung einer statistischen Auswertung in zwei Abschnitte aufteilen: Die deskriptive Statistik und die Inferenzstatistik. In Abhängigkeit vom Skalenniveau werden im Rahmen der deskriptiven Statistik die sogenannten statistischen Momente zur Charakterisierung der Stichprobe dargestellt. Hierzu gehören die Standardabweichung, der Median, Mittelwert, Minimum und Maximum sowie Häufigkeiten. Diese Kennzahlen werden in der Praxis mithilfe von Tabellen und Grafiken anschaulich dargestellt. R beinhaltet hierzu einer Reihe nützlicher Funktionen. Die Inferenzstatistik schließt sich gewöhnlich an die deskriptive Statistik an. Hier erfolgt die eigentliche Hypothesentestung – oder im Falle explorativer Fragestellungen – die explorative (erkundende) Analyse der Daten.

Deskriptive Statistik Auswertung mit R

In diesem Abschnitt führen wir die deskriptive Statistik mit R durch. Um einen möglichst hohen Praxisbezug herzustellen, nutzen wir zur Auswertung die Daten nhtemp aus dem R-Paket datasets. Wie Sie Pakete zu R hinzufügen, erfahren Sie in unserem Beitrag Pakete zu R hinzufügen. Sie können die hier gezeigten Berechnungen am eigenen PC nachvollziehen. Beginnen Sie damit, das Programm R zu starten. Um die verwendeten Daten direkt zu verwenden, laden Sie das zugehörige Paket mit dem Befehl

library(datasets)

Wir können uns die Daten nun mit Eingabe des Befehls

nhtemp

anschauen. Es handelt sich um eine Zeitreihe. Die enthaltenen Daten haben metrisches Skalenniveau. Enthalten sind die durchschnittlichen Temperaturen in New Haven, Connecticut im Zeitraum von 1912 bis 1971 (Einheit Fahrenheit) der Jahre 1912 bis 1972. Der Analyse von Zeitreihen werden wir uns in einem späteren Beitrag widmen. Hier sollen zunächst die Grundlagen der statistischen Auswertung dargestellt werden. Zu diesem Zweck überführen wir die Zeitreihe zunächst in einen Vektor vom Typ numeric:

Temperatur <- as.numeric(nhtemp)

Im weiteren Verlauf dieses Beitrags soll die Hypothese getestet werden, dass die durchschnittliche Temperatur in der zweiten Hälfte der Aufzeichnungen höher liegt als in der ersten Hälfte der Aufzeichnungen. Hierzu wird ein Vektor vom Typ factor angelegt. Dieser teilt die aufgezeichneten Daten in zwei Gruppen:

Zeitraum <- c(rep("Gruppe 1", 30), rep("Gruppe 2", 30))

Diese Aufgabe lässt sich durchaus weiter vereinfachen, für Einsteiger ist der oben gezeigte Befehl jedoch aufgrund seiner einfachen Struktur gut geeignet. Das Ergebnis ist ein Faktor, der die Messdaten in zwei Gruppen aufteilt.

Die Basis einer vollständigen Statistik Auswertung bildet die Bestimmung der sogenannten statistischen Momente (oder Parameter). Hierzu gehören das Minimum, das Maximum, der Mittelwert, der Modus, die Mediane und die Standardabweichung. Die Bedeutung dieser Parameter finden Sie in unserem Beitrag Erste Hilfe in Statistik.

Im Folgenden werden die statistischen Kennzahlen der erste Gruppe berechnet. Mit dem Befehl subset lässt sich die Gruppe 1 ausgwählen.

min(subset(Temperatur, Zeitraum=="Gruppe 1"))
max(subset(Temperatur, Zeitraum=="Gruppe 1"))
mean(subset(Temperatur, Zeitraum=="Gruppe 1"))
sd(subset(Temperatur, Zeitraum=="Gruppe 1"))

Der folgende Output enthält einige dieser Werte. In vielen Fällen kann es sinnvoll sein, zusätzlich zur Standardabweichung den Variationskoeffizienten zu bestimmen. Dies geschieht durch Normierung der Standardabweichung am Mittelwert generiert. Er ermöglicht beispielsweise einen Vergleich der Streuungen über Gruppen mit unterschiedlichen (physikalischen) Dimensionen hinweg.

Statistik Auswertung Summary

Statistik Auswertung Summary

Der Hypothesentest mit R

Das Herzstück einer hypothesengeleiteten Statistik Auswertung stellt die Inferenzstatistik dar. Hier erfolgt die statistische Testung des formulierten Hypothesenpaars. Das Hypothesenpaar besteht aus einer H0 und einer H1. Auf der Grundlagen der gemachten Beobachtungen (Beobachtungen bedeuten häufig Messungen), werden die Hypothesen auf Ihre Gültigkeit getestet. Genauer gesagt gilt es zu prüfen, ob die H0 auf der Grundlage der gemachten Beobachtungen abgelehnt werden kann. Ist dies der Fall, so wird die H1 angenommen. Hierbei kann es sowohl vorkommen, dass die H0 fälschlicherweise angenommen, als auch das die H0 fälschlicherweise abgelehnt wird. Neben der Signifikanz spielt aus diesem Grunde auch die Güte (englisch Power) eine wichtige Rolle bei der Hypothesentestung. Die Angaben einer Signifikanz ohne Güte gilt als unvollständig.

Der richtige Test für die Statistik Auswertung mit R

Ein wesentlicher Faktor für die Qualität und Belastbarkeit einer Statistik Auswertung ist die Auswahl des richtigen Tests. Nahezu alle statistischen Tests setzen bestimmte Bedingungen und Annahmen voraus. Dies gilt auch für nichtparametrische Tests. Die Aussage, ein nichtparametrischer Test setze keine Annahmen voraus, ist ein weit verbreiteter Irrtum.

In unserem Fall sollen die Jahresdurchschnittstemperaturen zwischen zwei Gruppen verglichen werden. Der Einfachheit halber nehmen wir an, dass es sich um unabhängige Messungen handelt. In diesem Fall wäre der t-Test ein möglicher Weg, die Hypothesentestung durchzuführen. Der t-Test hat jedoch verschiedene Voraussetzungen, die zu seiner Anwendung erfüllt sein müssen. Hierzu gehören die Normalverteilung sowie Varianzhomogenität (auch Homoskedastizität).

Die folgenden Histogramme zeigen die Verteilung der Daten innerhalb der jeweiligen Gruppen. Eine ideale Normalverteilung würde in etwa der sogenannten Gauß-Glocke entsprechen. Dies ist hier nicht der Fall. Die Verteilungen sind dem Anschein nach asymmertrisch. Aufgrund des zentralen Grenzwertsatzes kann jedoch ab einer Gruppengröße von n = 25 das Normalverteilungsmerkmal häufig nachrangig betrachtet werden, sofern keine groben Verletzungen vorliegen.

Histogramme

Histogramme

Weiteren Aufschluss hierüber liefert beispielsweise der Shapiro-Wilk-Test. Die Gruppengröße beträgt jeweils n = 30. Das Vorliegen von Normalverteilung kann damit als unkritisch angesehen werden.

Statistik Auswertung Shapiro

Statistik Auswertung Shapiro-Wilk-Test Gruppe 1


Statistik Auswertung Normalverteilung

Statistik Auswertung Shapiro-Wilk-Test Gruppe 2

Zudem wäre als nichtparametrische Alternative ein Mann-Whitney-U-Test möglich. Dieser ist jedoch nicht vollständig frei von Annahmen, zum Beispiel würde hier eine Gleichverteilung vorausgesetzt.

Das Vorliegen von Varianzhomogenität bedeutet ähnlich große Streuungen in den zu vergleichenden Gruppen. Diese Annahmen stellt eine wichtige Voraussetzung zur Anwendung des t-Tests dar. Ein Vergleich der Standardabweichungen der Gruppen gibt einen ersten Anhaltspunkt dafür, ob Varianzhomogenität vorliegt. Eine Möglichkeit der statistischen Testung auf Varianzhomogenität bietet der Levene-Test. Für die hier geprüften Daten liegt Varianzhomogenität vor.

Levene-Test

Levene-Test

Die Statistik Auswertung mit dem t-Test

Im Rahmen des t-Test werden die Mittelwerte beider Gruppen miteinander verglichen und auf einen signifikanten Unterschied hin betrachtet. Die Statistik Auswertung in R bietet eine Vielzahl an Anpassungsmöglichkeiten. Hierzu gehört auch die Anpassung des t-Tests an das Fehlen von Varianzhomogenität (der Welch-Test). Auch lässt sich eine Testung für gepaarte Stichproben (mit Messwiederholung) umsetzten. Die folgenden Befehle führen den t-Test mit unterschiedlichen Modifikationen aus.

t.test(Temperatur~Zeitraum)
t.test(Temperatur~Zeitraum, var.qual=FALSE)
t.test(Temperatur~Zeitraum, paired=TRUE)

In unserem Beispiel wählen wir die einfache Variante, ohne Anpassung an fehlende Varianzhomogenität. Nach Ausführen des Befehls meldet R den unten zu sehende Output zurück. Wie hier dargestellt, liegt der p-Werte unter 0.05. Auf einem Signifikanzniveau von alpha = 0.05 spräche dies für ein signifikantes Ergebnis.

Statistik Auswertung t-Test

Statistik Auswertung t-Test

Wie bereits weiter oben geschildert, ist die Statistik Auswertung mit der Durchführung des Signifikanztests nicht vollständig abgeschlossen. Da ein signifikantes Ergebnis vorliegt, ist zusätzlich ein Maß der Güte zu bestimmen. In diesem Fall bietet sich Cohens d an. Dieser Parameter kann in R mit dem folgenden Befehl errechnet werden.

cohens.d(Temperatur~Zeitraum)

Der Wert für Cohens d beträgt 1.198. Dies spricht für einen starken Effekt. Die H0 kann also zugunsten der formulierten H1 abgelehnt werden. Die durchschnittlichen Jahrestemperaturen liegen in der zweiten Gruppe signifikant über den Temperaturen der ersten Gruppe. Der Gruppenunterschied ließe sich abschließend noch grafisch darstellen, beispielsweise mit einem Boxplot. Zum Erstellen von Grafiken in R wird es einen separaten Blog-Artikel geben.

Mit dem dargestellten Beispiel konnten Sie sich einen ersten Überblick über die Statistik Auswertung in R verschaffen. Zusätzliche Artikel mit weiteren Hilfestellungen auch zu anderen Themen rund um die Statistiksprache R finden Sie in unserem Blog.

Zusammenfassung

In diesem Blog-Artikel haben wir Ihnen einen Überblick über die Möglichkeiten der Statistik Auswertung für Ihre Abschlussarbeit (Bachelorarbeit, Masterarbeit, Doktorarbeit) in R gegeben. Die flexible Sprache ermöglicht die Anwendung über ein breites Feld der Statistik. Mit fortschreitendem Wissen werden Sie immer komplexere Probleme und Aufgaben in R lösen können. Für weitere Fragen wenden Sie sich gerne an unser Expertenteam.

Weiterführende Links:

Die Funktion t.test in R

Grundlegendes zum t-Test

Kontakt zu Runge Statistik

Statistik Hilfe Masterarbeit, Bachelorarbeit, Doktorarbeit

2 Kommentare

Dein Kommentar

Want to join the discussion?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.