Wahrscheinlichkeitskonzepte erklärt: Maximalwahrscheinlichkeitsschätzung

6 min read

Wahrscheinlichkeitskonzepte

Einführung

In diesem Beitrag werde ich erklären, was die Methode mit der höchsten Wahrscheinlichkeit für die Parameterschätzung ist und sie an einem einfachen Beispiel demonstrieren. Einige der Inhalte erfordern Kenntnisse über grundlegende Wahrscheinlichkeitskonzepte wie die Definition der gemeinsamen Wahrscheinlichkeit und die Unabhängigkeit von Ereignissen. Ich habe einen Blog-Post mit diesen Voraussetzungen geschrieben, den Sie gerne lesen können wenn Sie  glauben eine Auffrischung zu brauchen.

Was sind Parameter?

Beim maschinellen Lernen verwenden wir häufig ein Modell, um den Prozess zu beschreiben, der zu den beobachteten Daten führt. Zum Beispiel können wir ein zufälliges Gesamtstrukturmodell verwenden, um zu klassifizieren, ob Kunden ein Abonnement von einem Dienst kündigen können (bekannt als Abwanderungsmodellierung ), oder wir können ein lineares Modell verwenden, um den Umsatz zu prognostizieren, der für ein Unternehmen generiert wird (dies wäre ein Beispiel für lineare Regression). Jedes Modell enthält einen eigenen Parametersatz, der letztendlich bestimmt, wie das Modell aussieht.

Für ein lineares Modell können wir dies als y = mx + c schreiben. In diesem Beispiel könnte x die Werbeausgaben darstellen und y könnte der erzielte Umsatz sein. m und c sind Parameter für dieses Modell. Unterschiedliche Werte für diese Parameter ergeben unterschiedliche Zeilen (siehe Abbildung unten).

Drei lineare Modelle mit unterschiedlichen Parameterwerten.

Parameter definieren also einen Bauplan für das Modell. Nur wenn bestimmte Werte für die Parameter ausgewählt werden, erhalten wir eine Instantiierung für das Modell, die ein bestimmtes Phänomen beschreibt.

Intuitive Erklärung der Maximalwahrscheinlichkeitsschätzung

Die Maximum-Likelihood-Schätzung ist eine Methode, die Werte für die Parameter eines Modells bestimmt. Die Parameterwerte werden so ermittelt, dass sie die Wahrscheinlichkeit maximieren, dass der durch das Modell beschriebene Prozess die tatsächlich beobachteten Daten erzeugt.

Die obige Definition mag immer noch etwas kryptisch klingen, also sehen wir uns ein Beispiel an, um dies zu verdeutlichen.

Nehmen wir an, wir haben 10 Datenpunkte aus einem Prozess beobachtet. Beispielsweise könnte jeder Datenpunkt die Zeitdauer in Sekunden darstellen, die ein Schüler benötigt, um eine bestimmte Prüfungsfrage zu beantworten. Diese 10 Datenpunkte sind in der folgenden Abbildung dargestellt:

Die 10 (hypothetischen) Datenpunkte, die wir beobachtet haben

Wir müssen zunächst entscheiden, welches Modell den Prozess der Datenerstellung am besten beschreibt. Dieser Teil ist sehr wichtig. Zumindest sollten wir eine gute Vorstellung davon haben, welches Modell verwendet werden soll. Dies setzt in der Regel voraus, dass Sie über einige Domänenkenntnisse verfügen, aber wir werden hier nicht darauf eingehen.

Für diese Daten gehen wir davon aus, dass der Datenerzeugungsprozess durch eine Gaußsche (normale) Verteilung angemessen beschrieben werden kann. Eine visuelle Betrachtung der obigen Abbildung legt nahe, dass eine Gaußsche Verteilung plausibel ist, da die meisten der 10 Punkte in der Mitte gebündelt sind und nur wenige Punkte nach links und nach rechts verstreut sind. (Diese Art von Entscheidung mit nur 10 Datenpunkten im laufenden Betrieb zu treffen, ist nicht ratsam, aber da ich diese Datenpunkte generiert habe, werden wir das tun).

Es sei daran erinnert, dass die Gaußsche Verteilung 2 Parameter hat. Der Mittelwert & mgr; und die Standardabweichung & sgr; Unterschiedliche Werte dieser Parameter führen zu unterschiedlichen Kurven (genau wie bei den geraden Linien oben). Wir möchten wissen, welche Kurve am wahrscheinlichsten für die Erstellung der beobachteten Datenpunkte verantwortlich war. (Siehe Abbildung unten). Die Maximum-Likelihood-Schätzung ist eine Methode, mit der die Werte von μ und σ ermittelt werden, die zu der Kurve führen, die am besten zu den Daten passt.

Die 10 Datenpunkte und möglichen Gaußschen Verteilungen, aus denen die Daten stammen. f1 ist normalerweise mit dem Mittelwert 10 und der Varianz 2,25 verteilt (die Varianz entspricht dem Quadrat der Standardabweichung), dies wird auch als f1 ∼ N (10, 2.25) bezeichnet. f2 ∼ N (10, 9), f3 ∼ N (10, 0,25) und f4 ∼ N (8, 2,25). Das Ziel der maximalen Wahrscheinlichkeit besteht darin, die Parameterwerte zu finden, die die Verteilung angeben und die Wahrscheinlichkeit der Beobachtung der Daten maximieren.

Die tatsächliche Verteilung, aus der die Daten generiert wurden, war f1 ~ N (10, 2.25). Dies ist die blaue Kurve in der obigen Abbildung.

Berechnung der maximalen Wahrscheinlichkeitsschätzungen

Nun, da wir ein intuitives Verständnis der maximalen Wahrscheinlichkeitsschätzung haben, können wir lernen, wie die Parameterwerte berechnet werden. Die gefundenen Werte werden als Maximum-Likelihood-Schätzungen (MLE) bezeichnet.

Wir werden dies noch einmal an einem Beispiel demonstrieren. Nehmen wir an, wir haben diesmal drei Datenpunkte, und wir nehmen an, dass sie aus einem Prozess generiert wurden, der von einer Gaußschen Verteilung ausreichend beschrieben wird. Diese Punkte sind 9, 9,5 und 11. Wie berechnen wir die Schätzungen der maximalen Wahrscheinlichkeit der Parameterwerte der Gaußschen Verteilung μ und σ?

Was wir berechnen möchten, ist die Gesamtwahrscheinlichkeit aller Daten, d.h. die gemeinsame Wahrscheinlichkeitsverteilung aller beobachteten Datenpunkte. Dazu müssen wir einige bedingte Wahrscheinlichkeiten berechnen, die sehr schwierig werden können. Deshalb werden wir hier unsere erste Annahme treffen. Die Annahme ist, dass jeder Datenpunkt unabhängig von den anderen erzeugt wird. Diese Annahme macht die Mathematik viel einfacher. Wenn die Ereignisse (d.h. der Prozess, der die Daten erzeugt) unabhängig sind, dann ist die Gesamtwahrscheinlichkeit der Beobachtung aller Daten das Produkt, wenn jeder Datenpunkt einzeln betrachtet wird (d.h. das Produkt der Randwahrscheinlichkeiten).

Die Wahrscheinlichkeitsdichte der Beobachtung eines einzelnen Datenpunkts x, die aus einer Gaußschen Verteilung erzeugt wird, ist gegeben durch:

Der in der Schreibweise P (x; μ, σ) verwendete Semikolon betont, dass die danach erscheinenden Symbole Parameter der Wahrscheinlichkeitsverteilung sind. Es sollte also nicht mit einer bedingten Wahrscheinlichkeit verwechselt werden (die typischerweise durch eine vertikale Linie dargestellt wird, z. B. P (A | B)).

In unserem Beispiel ergibt sich die gemeinsame Wahrscheinlichkeitsdichte der Beobachtung der drei Datenpunkte durch:

Wir müssen nur die Werte von μ und σ ermitteln , die dazu führen, dass der Maximalwert des obigen Ausdrucks angegeben wird.

Wenn Sie in Ihren Mathematikkursen Kalkül besprochen haben, wissen Sie wahrscheinlich, dass es eine Technik gibt, die uns dabei helfen kann, Maxima (und Minima) von Funktionen zu finden. Es heißt Differenzierung. Wir müssen nur die Ableitung der Funktion zu finden, die Ableitungsfunktion auf Null setzen und die Gleichung neu ordnen, um den Parameter von Interesse zum Gegenstand der Gleichung zu machen. Und voilà, wir haben unsere MLE-Werte für unsere Parameter. Ich werde diese Schritte jetzt durchgehen, aber ich gehe davon aus, dass der Leser weiß, wie er allgemeine Funktionen unterscheidet. Wenn Sie eine ausführlichere Erklärung wünschen, lassen Sie es mich einfach in den Kommentaren wissen.

Die log-Wahrscheinlichkeit

Der obige Ausdruck für die Gesamtwahrscheinlichkeit ist in der Tat ziemlich schwierig zu unterscheiden, daher wird er fast immer vereinfacht, wenn der natürliche Logarithmus des Ausdrucks verwendet wird. Dies ist absolut in Ordnung, da der natürliche Logarithmus eine monoton steigende Funktion hat. Das heißt, wenn der Wert auf der X-Achse zunimmt, steigt auch der Wert auf der Y-Achse (siehe Abbildung unten). Dies ist wichtig, weil dadurch sichergestellt wird, dass der Maximalwert des Protokolls der Wahrscheinlichkeit an demselben Punkt wie die ursprüngliche Wahrscheinlichkeitsfunktion auftritt. Daher können wir mit der einfacheren log-Wahrscheinlichkeit anstelle der ursprünglichen Wahrscheinlichkeit arbeiten.

Monotones Verhalten der ursprünglichen Funktion, y = x links und die (natürliche) Logarithmusfunktion y = ln (x). Diese Funktionen sind beide monoton, da der y-Wert von links nach rechts auf der x-Achse immer größer wird.
Beispiel für eine nicht monotone Funktion: Wenn Sie im Diagramm von links nach rechts gehen, steigt der Wert von f(x) an, fällt dann ab und steigt wieder an.

Wenn Sie Protokolle des ursprünglichen Ausdrucks erstellen, erhalten Sie:

Dieser Ausdruck kann mit den Gesetzen der Logarithmen erneut vereinfacht werden, um Folgendes zu erhalten:

Dieser Ausdruck kann differenziert werden, um das Maximum zu ermitteln. In diesem Beispiel finden wir die MLE des Mittelwerts μ. Dazu nehmen wir die partielle Ableitung der Funktion in Bezug auf μ:

Wenn Sie die linke Seite der Gleichung auf Null setzen und dann für µ umordnen, erhalten Sie:

Und dort haben wir unsere maximale Wahrscheinlichkeitsschätzung für μ. Wir können dasselbe auch mit σ machen.

Abschließende Bemerkungen

Kann die Schätzung der maximalen Wahrscheinlichkeit immer genau gelöst werden?

Nein ist die kurze Antwort. Es ist wahrscheinlicher, dass in einem realen Szenario die Ableitung der Log-Likelihood-Funktion immer noch analytisch unlösbar ist (dh es ist zu schwierig / unmöglich, die Funktion von Hand zu unterscheiden). Daher werden iterative Methoden wie Expectation-Maximization-Algorithmen verwendet, um numerische Lösungen für die Parameterschätzungen zu finden. Die Gesamtidee ist jedoch immer noch dieselbe.

Warum also maximale Wahrscheinlichkeit und nicht maximale Wahrscheinlichkeit?

Nun, das sind nur Statistiker, die pedantisch sind (aber aus gutem Grund). Die meisten Menschen neigen dazu, Wahrscheinlichkeit und Wahrscheinlichkeit austauschbar zu verwenden, aber Statistiker und Wahrscheinlichkeitstheoretiker unterscheiden zwischen den beiden. Der Grund für die Verwirrung wird am besten durch die Betrachtung der Gleichung hervorgehoben.

Diese Ausdrücke sind gleich! Was bedeutet das? Definieren wir zuerst P (Daten; μ, σ)? Es bedeutet “die Wahrscheinlichkeitsdichte der Beobachtung der Daten mit den Modellparametern μ und σ” . Es ist erwähnenswert, dass wir dies auf eine beliebige Anzahl von Parametern und jede Verteilung verallgemeinern können.

Die obige Gleichung besagt, dass die Wahrscheinlichkeitsdichte der Daten, die den Parametern gegeben werden, gleich der Wahrscheinlichkeit der Parameter ist, die die Daten erhalten. Obwohl diese beiden Dinge gleich sind, stellen die Wahrscheinlichkeit und die Wahrscheinlichkeitsdichte grundsätzlich verschiedene Fragen – das eine fragt nach den Daten und das andere fragt nach den Parameterwerten.

Wann ist die Minimierung der kleinsten Quadrate dieselbe wie die Schätzung der maximalen Wahrscheinlichkeit?

Die Minimierung der kleinsten Quadrate ist eine andere übliche Methode zum Schätzen von Parameterwerten für ein Modell beim maschinellen Lernen. Es stellt sich heraus, dass, wenn angenommen wird, dass das Modell wie in den obigen Beispielen Gaussian ist, die MLE-Abschätzung der Methode der kleinsten Quadrate entspricht. Für eine detailliertere mathematische Herleitung schauen Sie sich diese Folien an.

Intuitiv können wir die Verbindung zwischen den beiden Methoden interpretieren, indem wir ihre Ziele verstehen. Für die Parameterschätzung der kleinsten Quadrate möchten wir die Linie finden, die den gesamten quadratischen Abstand zwischen den Datenpunkten und der Regressionslinie minimiert (siehe folgende Abbildung). Bei der Schätzung der maximalen Wahrscheinlichkeit wollen wir die Gesamtwahrscheinlichkeit der Daten maximieren. Wenn eine Gaußsche Verteilung angenommen wird, wird die maximale Wahrscheinlichkeit gefunden, wenn sich die Datenpunkte dem Mittelwert nähern. Da die Gaußsche Verteilung symmetrisch ist, entspricht dies der Minimierung des Abstandes zwischen den Datenpunkten und dem Mittelwert.

Quellen: https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.