AI-United » Allgemein » Descriptive Statistik verstehen

Descriptive Statistik verstehen

Statistik ist ein Zweig der Mathematik, der sich mit dem Sammeln, Organisieren und Interpretieren von Daten befasst. Wenn wir die Daten erhalten, versuchen wir zunächst, sie mithilfe statistischer Verfahren zu lesen und zu verstehen. Auf diese Weise können wir die Art der Verteilung verstehen.

Wir betrachten folgende Fragen:

  1. Was ist Descriptive Statistik?
  2. Arten von Descriptiver Statistik?
  3. Measure of Central Tendency (Mean, Median, Mode)
  4. Measure of Spread / Dispersion (Standard Deviation, Mean Deviation, Variance, Percentile, Quartiles, Interquartile Range)
  5. Was ist eine Schiefe?
  6. Was ist ein Kurtosis?
  7. Was bedeutet Korrelation?
Versuchen wir, Descriptive Statistik ein für allemal zu verstehen.

Was ist Descriptive Statistik?

Descriptive Statistik umfasst das Zusammenfassen und Organisieren der Daten. Descriptive Statistik versucht im Gegensatz zu Inferential Statistik, die Daten zu beschreiben. Wir beschreiben die Daten in einer Stichprobe. Dies bedeutet im Allgemeinen, dass Descriptive Statistik im Gegensatz zur Inferential Statistik nicht auf der Grundlage der Wahrscheinlichkeitstheorie entwickelt wird.

Arten Descriptiver Statistik

Deskriptive Statistik wird in zwei Kategorien unterteilt. Das sind measures of central tendency und measures of variability (spread).

Measure of Central Tendency

Central Tendency bezieht sich auf die Idee, dass es eine Zahl gibt, die die gesamte Menge von Messungen am besten zusammenfasst, eine Zahl, die in gewisser Weise „central“ für die Menge ist.

Mean / Average

Mean oder Average ist eine zentrale Tendenz der Daten, d. h. eine Zahl, um die sich ganze Daten ausbreiten. In gewisser Weise handelt es sich um eine einzelne Zahl, die den Wert des gesamten Datenbatches schätzen kann.

Mean bzw. Average
Median

Median ist der Wert, der die Daten in zwei gleiche Teile aufteilt, d. h. die Anzahl der Ausdrücke auf der rechten Seite ist gleich der Anzahl der Ausdrücke auf der linken Seite, wenn die Daten in aufsteigender oder absteigender Reihenfolge angeordnet sind. Wenn Sie die Daten in absteigender Reihenfolge sortieren, haben diese keinen Einfluss auf den Median. Der Medianwert wird mittel sein, wenn die Anzahl der Terme ungerade ist.

Median
Mode

Mode ist ein Begriff, der im Datensatz maximal erscheint, d. h. der Begriff mit der höchsten Häufigkeit.

Wenn zwei Werte gleichzeitig und mehr als die restlichen Werte erschienen, ist der Datenbatch bimodal. Wenn drei Werte gleichzeitig und mehr als die übrigen Werte erschienen, ist der Datenbatch trimodal und für n Modi ist dieser Datenbatch multimodal.

12, 24, 41, 51, 67, 67, 85, 99
Standardabweichung

Die Standardabweichung ist die Messung der durchschnittlichen Entfernung zwischen jeder Größe und dem Mittelwert. Eine niedrige Standardabweichung zeigt an, dass die Datenpunkte tendenziell nahe am Mittelwert des Datensatzes liegen, während eine hohe Standardabweichung darauf hinweist, dass die Datenpunkte über einen größeren Wertebereich verteilt sind.

Standardabweichung

In der deskriptiven Statistik sind Daten nicht in einer Grundgesamtheit sondern in einer Stichprobe verfügbar.

Mean Deviation / Mean Absolute Deviation

Es ist ein Durchschnitt der absoluten Unterschiede zwischen jedem Wert in einer Gruppe von Werten und dem Durchschnitt aller Werte von dieser Gruppe.

Variance

Variance ist ein Quadrat der durchschnittlichen Entfernung zwischen jeder Größe und dem Mittelwert. Das ist ein Quadrat der Standardabweichung.

Range

Range ist eine der einfachsten Techniken der deskriptiven Statistik. Es ist eine Differenz zwischen dem niedrigsten und höchsten Wert.

Percentile

Percentile ist eine Möglichkeit, die Position eines Werts im Datenbatch darzustellen. Um Percentile zu berechnen, sollen die Werte im Datenbatch immer aufsteigend sein.

Quartiles

In der Statistik und in der Wahrscheinlichkeit sind Quartiles Werte, die Ihre Daten in Quartales unterteilen, wo die Daten in aufsteigender Reihenfolge sortiert werden.

Es gibt drei Viertelwerte. Der Wert des ersten Quartiles liegt bei 25 Perzentile. Das zweite Quartile ist 50 Perzentile und das dritte Quartile ist 75 Perzentil. Das zweite Quartile (Q2) ist ein Median der gesamten Daten. Das erste Quartile (Q1) ist ein Median der oberen Hälfte der Daten. Das dritte Quartile (Q3) ist ein Median der unteren Hälfte der Daten.

Schiefe

Die Schiefe ist ein Maß für die Asymmetrie der Wahrscheinlichkeitsverteilung einer wirklichen Zufallsvariablen ihres Mittelwerts. Der Wert für die Schiefe kann positiv, negativ oder undefiniert sein.

Bei einer perfekten Normalverteilung ist das Ende auf beiden Seiten der Kurve  exakte Spiegelbilder voneinander.

Wenn eine Verteilung nach links verdreht ist, ist das Ende auf der linken Seite der Kurve länger als das Ende auf der rechten Seite, und der Mittelwert liegt unter dem Modus. Diese Situation wird auch als negative Schiefe bezeichnet.

Wenn eine Verteilung nach rechts verdreht ist, ist das Ende auf der rechten Seite der Kurve länger als das Ende auf der linken Seite, und der Mittelwert ist größer als der Modus. Diese Situation wird auch als positive Schiefe bezeichnet.

Schiefe-Koeffizient

Um Schiefe-Koeffizienten zu berechnen, gibt es zwei Methoden:
1] Pearson First Coefficient of Skewness (Mode skewness)


2] Pearson Second Coefficient of Skewness (Median skewness)

Interpretationen

Die Richtung der Schiefe wird durch das Zeichen angegeben. Null bedeutet überhaupt keine Schiefe.

Ein negativer Wert bedeutet, dass die Verteilung negativ ist. Ein positiver Wert bedeutet, dass die Verteilung positiv verzerrt ist.

Der Koeffizient vergleicht die Stichprobenverteilung mit einer Normalverteilung. Je größer der Wert ist, desto größer ist die Verteilung von einer Normalverteilung.

Sie verwenden den Pearson-Koeffizienten # 1 und # 2, um die Schiefe für Daten mit den folgenden Eigenschaften zu ermitteln:

Mittelwert = 50.
Median = 56.
Modus = 60.
Standardabweichung = 8,5.
Pearson’s First Coefficient of Skewness: -1,17.

Pearson’s Second Coefficient of Skewness:: -2.117.

Hinweis: Der erste Koeffizient von Pearson verwendet den Modus. Wenn daher die Häufigkeit der Werte sehr niedrig ist, wird die zentrale Tendenz nicht stabil gemessen. Zum Beispiel ist der Modus in diesen beiden Datensätzen 9:

1, 2, 3, 4, 4, 5, 6, 7, 8, 9.

Im ersten Datensatz erscheint der Modus nur zweimal. Es ist daher keine gute Idee, den ersten Koeffizienten der Neigung von Pearson zu verwenden. Aber im zweiten Satz

1, 2, 3, 4, 4, 4, 4, 4, 4, 4, 5, 6, 7, 8, 9, 10, 12, 12, 13.

Der Modus 4 erscheint achtmal. Aus diesem Grund wird Ihnen der zweite Skewness-Koeffizient von Pearson wahrscheinlich ein vernünftiges Ergebnis liefern.

Kurtosis

Die genaue Interpretation des Maßes der Kurtosis war früher umstritten, heute ist aber geklärt. Es geht um das Vorhandensein von Ausreißern. Kurtosis ist ein Maß, wo die Daten im Vergleich zu einer Normalverteilung stark oder schwach sind.

Es gibt drei Arten von Kurtosis:

Mesokurtic

Mesokurtic ist eine Verteilung, die eine ähnliche Kurtosis hat wie die Normalverteilung bei einer Kurtosis, die gleich Null ist.

Leptokurtic

Die Verteilung ist eine Verteilung, bei der die Kurtosis größer als bei einer mesokurtischen Verteilung ist. Das Ende solcher Verteilungen ist dick und schwer. Wenn die Kurve einer Verteilung größer als die mesokurtische Kurve ist, wird sie als eine leptokurtische Kurve bezeichnet.

Platykurtic
Die Verteilung ist eine Verteilung, bei der die Kurtosis geringer als bei einer mesokurtischen Verteilung ist. Das Ende solcher Verteilungen ist dünner. Wenn eine Kurve einer Verteilung weniger stark als eine mesokurtische Kurve ist, wird sie als eine platykurtische Kurve bezeichnet.

Der Hauptunterschied zwischen Schiefe und Kurtosis besteht darin, dass die Schiefe sich auf den Symmetriegrad bezieht, während sich die Kurtosis auf den Grad der Anwesenheit von Ausreißern in der Verteilung bezieht.

Korrelation

Korrelation ist eine statistische Technik, die zeigt, wie stark Paare von Variablen zusammenhängen.

Das Hauptergebnis einer Korrelation wird als Korrelationskoeffizient (oder „r“) bezeichnet. Sie reicht von -1,0 bis +1,0. Je näher r an +1 oder -1 liegt, desto enger hängen die beiden Variablen zusammen.

Welche Fragen bekommen Sie meistens im Bereich der Descriptiver Statistik gestellt?

Wie nutzen Sie Descriptive Statistic in Ihrem Unternehmen?

Diese und weitere Fragen beantwortet gerne das AI United Team per Email oder in dem Q&A Bereich.

AI-United

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.