Statistische Signifikanz erklärt

7 min read

Statistische Signifikanz

Was bedeutet, etwas mit Daten zu beweisen?

Als Dekan an einer großen Universität erhalten Sie einen Bericht, der zeigt, dass Ihre Studierenden durchschnittlich 6.80 Stunden Schlaf pro Nacht im Vergleich zum nationalen Hochschuldurchschnitt von 7.02 Stunden erhalten. Der Vorsitzende der Studentenschaft sorgt sich um die Gesundheit der Studierenden und verweist auf diese Studie als Beweis dafür, dass Hausaufgaben reduziert werden müssen. Der Universitätspräsident hingegen weist die Studie als Unsinn zurück: “Damals haben wir vier Stunden Schlaf pro Nacht bekommen und waren  glücklich”. Sie müssen entscheiden, ob es sich um ein ernstes Thema handelt. Zum Glück kennen Sie sich mit Statistiken gut aus und sehen endlich eine Chance, Ihre Ausbildung zu nutzen!

Statistische Signifikanz  ist einer der Begriffe, die wir oft hören, ohne sie wirklich zu verstehen. Wenn jemand behauptet, dass Daten ihren Standpunkt beweisen, nicken wir und akzeptieren sie, vorausgesetzt, die Statistiker haben komplexe Operationen durchgeführt, die zu einem Ergebnis geführt haben, das nicht infrage gestellt werden kann. Tatsächlich ist die statistische Signifikanz  kein kompliziertes Phänomen, das jahrelanges Studium erfordert, sondern eine einfache Vorstellung, die jeder verstehen kann und verstehen sollte. Wie bei den meisten technischen Konzepten beruht die statistische Bedeutung auf einigen einfachen Ideen: Hypothese-Tests, Normalverteilung und p-Werte. In diesem Artikel werden wir kurz auf all diese Konzepte eingehen (weitere Ressourcen werden zur Verfügung gestellt werden), um oben vorgestellte Rätsel zu lösen.


Die erste Idee, die wir diskutieren müssen, ist das Testen von Hypothesen, eine Methode zur Bewertung einer Theorie mit Daten. Die “Hypothese” bezieht sich auf die anfängliche Annahme  der Forscher über die Situation vor der Studie. Diese ursprüngliche Theorie ist als alternative Hypothese bekannt  und das Gegenteil ist als die Nullhypothese bekannt. In unserem Beispiel sind dies:

  • Alternative Hypothese: Die durchschnittliche Schlafdauer der Studierenden an unserer Universität liegt unter dem nationalen Durchschnitt für Hochschulstudenten.
  • Null-Hypothese: Die durchschnittliche Schlafdauer der Studierenden an unserer Universität liegt nicht unter dem nationalen Durchschnitt für Hochschulstudenten.

Beachten Sie, wie vorsichtig wir bei der Formulierung sein müssen: Wir suchen nach einem ganz bestimmten Effekt, der in den Hypothesen formalisiert werden muss, so dass wir nach der Tatsache nicht behaupten können, etwas anderes getestet zu haben! (Dies ist ein Beispiel für einen einseitigen Hypothesentest, weil es uns um eine Änderung in nur eine Richtung geht.) Hypothesemn-Tests sind eine der Grundlagen der Statistik und werden verwendet, um die Ergebnisse der meisten Studien zu bewerten. Diese Studien können alles, von einer medizinischen Studie zur Beurteilung der Wirksamkeit von Medikamenten bis hin zu einer Beobachtungsstudie, die einen Übungsplan bewertet, sein. Was alle Studien gemeinsam haben, ist, dass es darum geht, Vergleiche anzustellen, entweder zwischen zwei Gruppen oder zwischen einer Gruppe und der gesamten Bevölkerung. Im medizinischen Beispiel vergleichen wir vielleicht die durchschnittliche Erholungszeit zwischen den Gruppen, die zwei verschiedene Medikamente einnehmen, oder wir wollen, wie in unserem Problem der Dekan, den Schlaf zwischen unseren Studenten und allen Studenten im Land vergleichen.

Der Testteil von Hypothesen-Tests erlaubt es uns zu bestimmen, welche Theorie, die Null oder Alternative, durch die Beweise besser gestützt wird. Es gibt viele Hypothesen-Tests und wir werden einen verwenden, der z-Test genannt wird. Bevor wir jedoch unsere Daten testen können, müssen wir über zwei weitere entscheidende Ideen sprechen.


Der zweite Baustein von statistischer Signifikanz  ist die Normalverteilung, auch Gauß- oder Glockenkurve genannt. Die normale Verteilung wird verwendet, um zu repräsentieren, wie Daten aus einem Prozess verteilt werden und wird durch den Mittelwert mit dem griechischen Buchstaben μ (mu) und der Standardabweichung mit dem Buchstaben σ (Sigma)definiert. Der Mittelwert zeigt die Position der Datenmitte an und die Standardabweichung ist die Verbreitung in den Daten.

Die Anwendung der Normalverteilung erfolgt durch die Beurteilung von Datenpunkten im Hinblick auf die Standardabweichung. Wir können feststellen, wie anormal ein Datenpunkt ist, basierend auf der Standardabweichung vom Mittelwert. Die Normalverteilung hat folgende nützliche Eigenschaften:

  • 68% der Daten sind innerhalb von ± 1 Standardabweichungen vom Mittelwert
  • 95% der Daten sind innerhalb von ± 2 Standardabweichungen vom Mittelwert
  • 99,7% der Daten sind innerhalb von ± 3 Standardabweichungen vom Mittelwert

Wenn wir eine normale Verteilung für eine Statistik haben, können wir jeden Punkt in Bezug auf Standardabweichungen vom Mittelwert charakterisieren. Zum Beispiel beträgt die durchschnittliche weibliche Größein den USA 65 Zoll (5′ 5 “) mit einer Standardabweichung von 4 Zoll. Wenn wir eine neue Bekannte treffen, die 73 Zoll groß ist, können wir behaupten, dass sie zwei Standardabweichungen über dem Mittelwert liegt und unter den größten von 2,5% der Frauen liegt. (2,5% der Frauen sind kleiner als μ – 2σ (57 Zoll) und 2,5% sind größer als μ + 2σ).

In der Statistik, anstatt zu sagen, dass unsere Daten zwei Standardabweichungen vom Mittelwert sind, bewerten wir sie in einem z-Score, der nur die Anzahl der Standardabweichungen darstellt, die ein Punkt vom Mittelwert ist. Die Umstellung auf einen z-Score erfolgt durch Abzug des Mittels der Verteilung vom Datenpunkt und Teilung durch die Standardabweichung. Im Größenbeispiel können Sie überprüfen, ob unser Freund eine z-Score  von 2 hätte. Wenn wir dies an allen Datenpunkten tun, wird die neue Verteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1, wie nachfolgend gezeigt, als Standard-Normalverteilung bezeichnet.

Jedes Mal, wenn wir einen Hypothesen-Test machen, müssen wir eine Verteilung für die Teststatistik annehmen, was in unserem Fall die durchschnittlichen (mittleren) Schlafstunden für unsere Studenten  sind. Für einen z-Test wird die Normalkurve als Näherungskurve für die Verteilung der Teststatistik verwendet. In der Regel werden die Durchschnittswerte nach dem zentralen Grenzwertsatz zu einer normalen Verteilung neigen, da wir mehr Durchschnittswerte aus einer Datenverteilung nehmen. Das wird aber immer eine Schätzung sein, weil die Daten aus der realen Welt nie perfekt einer normalen Verteilung folgen. Wenn wir eine normale Verteilung betrachten, können wir feststellen, wie aussagekräftig das Ergebnis ist, das wir in einer Studie beobachten. Je höher oder niedriger der z-Score, desto unwahrscheinlicher ist das Ergebnis durch Zufall und desto wahrscheinlicher ist das Ergebnis aussagekräftig. Um zu quantifizieren, wie aussagekräftig die Ergebnisse sind, verwenden wir ein weiteres Konzept.


Die letzte Grundidee ist die der p-Werte. Ein p-Wert ist die Wahrscheinlichkeit, Ergebnisse mindestens so extrem zu beobachten wie die, die gemessen werden, wenn die Nullhypothese stimmt. Das könnte ein wenig verworren erscheinen, also schauen wir uns ein Beispiel an.

Nehmen wir an, wir messen den durchschnittlichen IQ in den US-Bundesstaaten Florida und Washington. Unsere Nullhypothese ist, dass die durchschnittlichen IQs in Washington nicht höher sind als die durchschnittlichen IQs in Florida. Wir führen die Studie durch und stellen fest, dass IQs in Washington um 2.2 Punkte mit einem p-Wert von 0.346 höher sind. Das bedeutet, dass in einer Welt, in der die Nullhypothese — durchschnittlichen IQs in Washington nicht höher als die durchschnittlichen IQs in Florida sind — wahr ist, dass es eine Wahrscheinlichkeit von 34.6% gibt, dass wir IQs mindestens um 2.2 Punkte höher in Washington messen würden. Wenn also die IQs in Washington nicht höher sind, würden wir sie immer noch messen, wenn sie aufgrund zufälliger Geräusche um mindestens 2.2 Punkte über ein Drittel der Zeit höher sind. Je niedriger der p-Wert, desto sinnvoller ist das Ergebnis, weil es seltener durch Lärm verursacht wird.

Ob das Ergebnis statistisch signifikant genannt werden kann, hängt vom p-Wert (Alpha) ab, den wir vor Beginn des Experiments für die Signifikanz festlegen.  Wenn der beobachtete p-Wert kleiner ist als Alpha, dann sind die Ergebnisse statistisch signifikant. Wir müssen Alpha vor dem Experiment wählen, denn wenn wir bis danach warten würden, könnten wir nur eine Zahl auswählen, die beweist, dass unsere Ergebnisse signifikant sind, egal was die Daten zeigen!

Die Wahl von Alpha hängt von der Situation und dem Studienfeld ab, aber der am häufigsten verwendete Wert ist 0.05, was einer 5%-Chance entspricht, dass die Ergebnisse zufällig auftraten. In dem Labor sehen wir Werte von 0.1 bis 0.001, die allgemein verwendet werden. Als extremes Beispiel benutzten die Physiker, die Higgs Boson Teilchen entdeckt haben, einen p-Wert von 0.0000003 oder eine Chance von 3.5 Millionen, dass die Entdeckung aufgrund von Lärm erfolgte. (Statistiker geben nur ungern zu, dass ein p-Wert von 0.05 willkürlich ist. R.A. Fischer, der Vater der modernen Statistik, wählt aus unbestimmten Gründen einen p-Wert von 0,05 und es blieb dabei)!

Um von einem z-Score auf der normalen Verteilung zu einem p-Wert zu gelangen, können wir eine Tabelle oder statistische Software wie R. verwenden. Das Ergebnis zeigt uns die Wahrscheinlichkeit eines z-Score, der unter dem berechneten Wert liegt. Bei einem z-Score von 2 beträgt der p-Wert beispielsweise 0.977, was bedeutet, dass es nur eine Wahrscheinlichkeit von 2.3% gibt, dass wir einen z-Score, der höher als 2 ist, zufällig beobachten.

Als Zusammenfassung haben wir bisher drei Ideen behandelt:

  1. Hypothesen-Test: Eine Methode, mit der eine Theorie getestet wird
  2. Normale Verteilung: Eine ungefähre Darstellung der Daten in einem Hypothesen-Test.
  3. p-Wert: Die Wahrscheinlichkeit, dass ein mindestens ebenso extremes Ergebnis eingetreten wäre, wenn die Nullhypothese stimmt.

Lassen Sie uns alles in unserem Beispiel zusammensetzen. Hier die Grundlagen:

  • Studierende im ganzen Land haben durchschnittlich 7.02 Stunden Schlaf pro Nacht nach Angaben der National Sleep Foundation
  • In einer Umfrage unter 202 Studenten an unserer Universität lagen die durchschnittlichen Schlafstunden pro Nacht bei 6.90 Stunden mit einer Standardabweichung von 0.84 Stunden.
  • Unsere alternative Hypothese ist, dass der durchschnittliche Schlaf der Studenten an unserer Universität unter dem nationalen Durchschnitt der Studenten liegt.
  • Wir werden einen Alpha-Wert von 0.05 verwenden, was bedeutet, dass die Ergebnisse signifikant sind, wenn der p-Wert unter 0.05 liegt.

Zunächst müssen wir unsere Messung in einen z-Score umwandeln oder die Anzahl der Standardabweichungen, die vom Mittelwert entfernt ist. Wir tun dies, indem wir den Bevölkerungswert (den Landesdurchschnitt) von unserem gemessenen Wert abziehen und durch die Standardabweichung über die Quadratwurzel der Stichprobenzahl aufteilen. (Mit zunehmender Stichprobenzahl nimmt die Standardabweichung und damit die Variation ab. Wir erklären dies, indem wir die Standardabweichung durch die Quadratwurzel der Stichprobenzahl teilen.)

Die z-Score nennt sich unsere Teststatistik. Sobald wir eine Teststatistik haben, können wir eine Tabelle oder eine Programmiersprache wie R verwenden, um den p-Wert zu berechnen. Wir benutzen hier Code nicht zum Einschüchtern, sondern um zu zeigen, wie einfach es ist, unsere Lösung mit kostenlosen Tools zu implementieren! (# sind Kommentare und Fettgedrucktes ist die Ausgabe):

# Calculate the results
z_score = (6.90 - 7.02) / (0.84 / sqrt(202)) 
p_value = pnorm(z_score)

# Print our results
sprintf('The p-value is %0:5f for a z-score of %0.5f.', p_value, z_score)

"The p-value is 0.02116 for a z-score of -2.03038."

Basierend auf dem p-Wert von 0.02116 können wir die Nullhypothese ablehnen. Es gibt statistisch signifikante Belege dafür, dass unsere Studenten im Durchschnitt weniger Schlaf bekommen als Studenten in den USA mit einem Signifikanzniveau von 0.05. Der p-Wert zeigt, dass eine Wahrscheinlichkeit von 2.12% besteht, dass unsere Ergebnisse aufgrund zufälliger Geräusche aufgetreten sind. In diesem Präsidenten-Kampf hatte der Student recht.

Bevor wir alle Hausaufgaben verbieten, müssen wir aufpassen, dass wir diesem Ergebnis nicht zu viel beimessen. Beachten Sie, dass unser p-Wert, 0.02116, nicht signifikant wäre, wenn wir einen Schwellenwert  von 0.01 verwendet hätten. Wer den gegenteiligen Standpunkt in unserer Studie beweisen will, kann den p-Wert einfach manipulieren. Jedes Mal, wenn wir eine Studie untersuchen, sollten wir zusätzlich zum Abschluss über den p-Wert und die Stichprobengröße nachdenken. Mit einer relativ geringen Stichprobengröße von 202 könnte unsere Studie statistische Bedeutung haben, aber das bedeutet, dass sie praktisch aussagekräftig ist. Darüber hinaus handelte es sich um eine Beobachtungsstudie, was bedeutet, dass es nur Hinweise auf Korrelation und nicht für Kausalität gibt. Wir haben gezeigt, dass es eine Korrelation zwischen den Studenten an unserer Universität und weniger durchschnittlichen Schlaf gibt, aber nicht, dass der Besuch unserer Universität einen Rückgang des Schlafes verursacht. Es könnten andere Faktoren im Spiel sein, die den Schlaf beeinflussen, und nur eine randomisierte kontrollierte Studie ist in der Lage, Kausalität nachzuweisen.


Wie bei den meisten technischen Konzepten ist auch die statistischen Signifikanz nicht so komplex und ist nur eine Kombination aus vielen kleinen Ideen. Die meisten Schwierigkeiten ergeben sich bei dem Erlernen des Vokabulars! Sobald Sie die Teile zusammenfügen, können Sie mit der Anwendung dieser statistischen Konzepte beginnen. Wenn Sie die Grundlagen derStatistik lernen, werden Sie besser darauf vorbereitet, Studien und Nachrichten mit einer gesunden Skepsis zu betrachten. Sie können erkennen, was die Daten eigentlich sagen, und nicht, was Ihnen jemand, dass es bedeutet. Die beste Taktik gegen unehrliche Politiker und Konzerne ist eine skeptische, gut informierte Öffentlichkeit!

Was ist Ihre Meinung zumBeweis mithilfe von Daten? Ist es überhaupt nützlich?

Nutzen Sie Daten of als Beweis für Ihre Aktivitäten?

Welche Vorteile und Nachteile hat diese Methode? Gern beantwortet Ihnen das Team von AI United alle möglichen Fragen per Email oder in dem Q&A Bereich.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.