Eine null-mathematische Einführung in die Monte-Carlo-Methoden der Markov-Kette

8 min read

Monte-Carlo-Methoden der Markov-Kette

Für viele von uns ist die Bayes’sche Statistik bestenfalls Voodoo-Magie oder im schlimmsten Fall völlig subjektiver Unsinn. Unter den Markenzeichen des Bayes’schen Ansatzes sind die Monte-Carlo-Methoden der Markov-Kette besonders mysteriös. Sie sind zwar mathematisch schwer und rechenintensiv, aber die grundlegenden Gründe dafür, wie so viele andere in der Datenwissenschaft, können intuitiv gemacht werden. Das ist mein Ziel hier.

Was sind also die Markov-Ketten-Monte-Carlo-Methoden (MCMC)? Die kurze Antwort lautet:

MCMC-Verfahren werden verwendet, um die posteriore Verteilung eines interessierenden Parameters durch Zufallsstichproben in einem probabilistischen Raum zu approximieren.

In diesem Artikel werde ich diese kurze Antwort ohne Berechnung erklären.

Zuerst einige Fachbegriffe. Ein Parameter von Interesse ist nur eine Zahl, die ein Phänomen zusammenfasst, an dem wir interessiert sind. Im Allgemeinen verwenden wir Statistiken, um Parameter zu schätzen. Wenn wir beispielsweise etwas über die Körpergröße von Erwachsenen erfahren möchten, könnte unser interessierender Parameter die durchschnittliche Größe in Zoll sein. Eine Verteilung ist eine mathematische Darstellung jedes möglichen Wertes unseres Parameters und der Wahrscheinlichkeit, dass wir jeden einzelnen beobachten. Das bekannteste Beispiel ist eine Glockenkurve:

Mit freundlicher Genehmigung MW Toews

Bei der Bayes’schen Statistik haben Verteilungen eine zusätzliche Interpretation. Anstatt nur die Werte eines Parameters darzustellen und wie wahrscheinlich jeder davon der wahre Wert ist, denkt ein Bayesianer an eine Verteilung, die er unsere Überzeugungen über einen Parameter beschreibt. Daher zeigt die Glockenkurve oben, dass wir ziemlich sicher sind, dass der Wert des Parameters ziemlich nahe bei Null liegt. Wir glauben jedoch, dass die Wahrscheinlichkeit, dass der wahre Wert über oder unter diesem Wert liegt, bis zu einem gewissen Punkt gleich ist.

Wie auch immer, menschliche Größen folgen einer normalen Kurve, also nehmen wir an, der wahre Wert der durchschnittlichen menschlichen Größe folgt einer Glockenkurve wie folgt:

Es ist klar, dass die Person mit den durch diesen Graphen dargestellten Überzeugungen seit Jahren unter Riesen lebt, denn soweit sie wissen, liegt die wahrscheinlichste durchschnittliche Körpergröße für Erwachsene bei 6’2″(aber sie sind auf die eine oder andere Weise nicht sehr zuversichtlich).

Stellen wir uns vor, dass diese Person einige Daten sammelte und eine Reihe von Personen zwischen 5’und 6′ beobachtete. Wir können diese Daten unten darstellen, zusammen mit einer anderen normalen Kurve, die zeigt, welche Werte der durchschnittlichen Körpergröße die Daten am besten erklären:

In der Bayes’schen Statistik wird die Verteilung, die unsere Überzeugungen über einen Parameter darstellt, als vorherige Verteilung bezeichnet, da sie unsere Überzeugungen erfasst, bevor Daten angezeigt werden. Die Wahrscheinlichkeitsverteilung fasst zusammen, was uns die beobachteten Daten mitteilen, indem sie einen Bereich von Parameterwerten darstellt, der von der Wahrscheinlichkeit begleitet wird, dass jeder Parameter die beobachteten Daten erklärt. Die Schätzung des Parameterwertes, der die Wahrscheinlichkeitsverteilung maximiert, ist nur die Antwort auf die Frage: Welcher Parameterwert würde es am wahrscheinlichsten machen, die beobachteten Daten zu beobachten? Ohne vorherige Überzeugungen könnten wir dort aufhören.

Der Schlüssel zur Bayes’schen Analyse besteht jedoch darin, die vorherige und die Wahrscheinlichkeitsverteilung zu kombinieren, um die posteriore Verteilung zu bestimmen . Dies sagt uns, welche Parameterwerte die Chance, die von uns gemachten Daten zu beobachten, unter Berücksichtigung unserer früheren Überzeugungen maximieren. In unserem Fall sieht die hintere Verteilung so aus:

Oben repräsentiert die rote Linie die hintere Verteilung. Sie können es sich als eine Art Durchschnitt der vorherigen und der Wahrscheinlichkeitsverteilung vorstellen. Da die vorherige Verteilung kürzer und stärker verteilt ist, stellt sie eine Reihe von Überzeugungen dar, die den wahren Wert der durchschnittlichen menschlichen Körpergröße “weniger sicher” repräsentiert. In der Zwischenzeit fasst die Wahrscheinlichkeit die Daten in einem relativ engen Bereich zusammen, sodass sie eine “sicherere” Schätzung des wahren Parameterwerts darstellt.

Wenn die Vorauszahl der Wahrscheinlichkeit kombiniert wird, dominieren die Daten (dargestellt durch die Wahrscheinlichkeit) die schwachen früheren Überzeugungen des hypothetischen Individuums, das unter den Riesen aufgewachsen war. Obwohl diese Person immer noch der Meinung ist, dass die durchschnittliche Körpergröße des Menschen etwas höher ist als das, was die Daten ihm sagen, ist er vor allem von den Daten überzeugt.

Bei zwei Glockenkurven ist das Auflösen für die hintere Verteilung sehr einfach. Es gibt eine einfache Gleichung zum Kombinieren der beiden. Aber was wäre, wenn unsere früheren und Wahrscheinlichkeitsverteilungen nicht so gefällig wären? Manchmal ist es am genauesten, unsere Daten oder unsere früheren Annahmen mit Verteilungen zu modellieren, die keine geeigneten Formen haben. Was wäre, wenn unsere Wahrscheinlichkeit am besten durch eine Verteilung mit zwei Peaks repräsentiert würde, und aus irgendeinem Grund wollten wir einige wirklich verrückte vorherige Verteilungen erklären? Dieses Szenario habe ich unten visualisiert, indem Sie eine hässliche vorherige Distribution zeichnen:

In Matplotlib gerenderte Visualisierungen, erweitert mit MS Paint

Wie zuvor gibt es eine hintere Verteilung, die die Wahrscheinlichkeit für jeden Parameterwert angibt. Aber es ist ein bisschen schwer zu sehen, wie es aussehen könnte, und es ist unmöglich, es analytisch zu lösen. Geben Sie MCMC-Methoden ein.

MCMC-Methoden erlauben uns, die Form einer posterioren Verteilung abzuschätzen, falls wir sie nicht direkt berechnen können. Es sei daran erinnert, dass MCMC für Monte-Carlo-Methoden der Markov-Kette steht. Um zu verstehen, wie sie funktionieren, werde ich zuerst Monte-Carlo-Simulationen vorstellen und dann Markov-Ketten diskutieren.


Monte-Carlo-Simulationen sind nur eine Möglichkeit, einen festen Parameter durch wiederholtes Erzeugen von Zufallszahlen zu schätzen. Durch die Verwendung der erzeugten Zufallszahlen und die Durchführung einiger Berechnungen liefern Monte-Carlo-Simulationen eine Annäherung an einen Parameter, bei der eine direkte Berechnung nicht möglich oder zu teuer ist.

Nehmen wir an, wir möchten die Fläche des Folgekreises einschätzen:

Da sich der Kreis innerhalb eines Quadrats mit 10-Zoll-Seiten befindet, kann die Fläche leicht als 78,5 Quadratzoll berechnet werden. Stattdessen können wir jedoch 20 Punkte zufällig in das Quadrat fallen lassen. Dann zählen wir den Anteil der Punkte, die innerhalb des Kreises gefallen sind, und multiplizieren diesen mit der Fläche des Quadrats. Diese Zahl ist eine ziemlich gute Annäherung an die Fläche des Kreises.

Da 15 der 20 Punkte innerhalb des Kreises liegen, sieht es so aus, als ob der Kreis ungefähr 75 Quadratzoll beträgt. Nicht schlecht für eine Monte-Carlo-Simulation mit nur 20 zufälligen Punkten.

Stellen Sie sich vor, wir möchten die Fläche der Form berechnen, die von der Batman-Gleichung dargestellt wird:

Hier ist eine Form, für die wir nie eine Gleichung gelernt haben! Daher ist das Finden des Bereichs des Fledermaussignals sehr schwierig. Durch das zufällige Ablegen von Punkten in ein Rechteck, das die Form enthält, können Monte-Carlo-Simulationen den Bereich ziemlich leicht approximieren!

Monte-Carlo-Simulationen werden nicht nur zur Abschätzung des Bereichs schwieriger Formen verwendet. Durch die Erzeugung vieler Zufallszahlen können mit ihnen sehr komplizierte Prozesse modelliert werden. In der Praxis werden sie verwendet, um das Wetter vorherzusagen oder die Wahrscheinlichkeit eines Wahlsiegs abzuschätzen.


Das zweite Element zum Verständnis von MCMC-Methoden sind Markov-Ketten. Dies sind einfach Sequenzen von Ereignissen, die wahrscheinlich zueinander stehen. Jedes Ereignis stammt aus einer Reihe von Ergebnissen, und jedes Ergebnis bestimmt anhand einer festgelegten Menge von Wahrscheinlichkeiten, welches Ergebnis als nächstes auftritt.

Ein wichtiges Merkmal von Markov-Ketten ist, dass sie ohne Erinnerung sind: Alles, was Sie möglicherweise benötigen, um das nächste Ereignis vorherzusagen, ist im aktuellen Status verfügbar. Ein Spiel wie Chutes and Ladders weist diese Erinnerungslosigkeit oder Markov-Eigenschaft auf, aber in der realen Welt funktionieren nur wenige Dinge auf diese Weise. Trotzdem sind Markov-Ketten kraftvolle Prozesse, um die Welt zu verstehen.

Im 19. Jahrhundert wurde die Glockenkurve als ein übliches Muster in der Natur beobachtet. (Wir haben zum Beispiel festgestellt, dass menschliche Größen einer Glockenkurve folgen.) Galton Boards, die die Durchschnittswerte wiederholter zufälliger Ereignisse simulieren, indem sie Murmeln durch ein mit Stiften bestücktes Board fallen lassen, reproduzieren die normale Kurve in ihrer Verteilung von Murmeln:

Pavel Nekrasov, ein russischer Mathematiker und Theologe, argumentierte, dass die Glockenkurve und allgemein das Gesetz einer hohenAnzahl einfach Artefakte von Kinderspielen und Kleinigkeiten sind, bei denen jede Veranstaltung völlig unabhängig war. Er glaubte, dass interdependente Ereignisse in der realen Welt, wie z. B. menschliche Handlungen, nicht schönen mathematischen Mustern oder Verteilungen entsprachen.

Andrey Markov, nach dem Markov-Ketten benannt wurden, versuchte zu beweisen, dass nicht unabhängige Ereignisse auch Mustern entsprechen können. Eines seiner bekanntesten Beispiele erforderte die Zählung von Tausenden von zwei Zeichenpaaren aus einem Werk russischer Poesie. Mit diesen Paaren berechnete er die bedingte Wahrscheinlichkeit jedes Zeichens. Das heißt, bei einem bestimmten vorhergehenden Buchstaben oder Leerzeichen gab es eine gewisse Chance, dass der nächste Buchstabe ein A, ein T oder ein Leerzeichen sein würde. Mit diesen Wahrscheinlichkeiten konnte Markov eine beliebig lange Zeichenfolge simulieren, die sogenannte Markov-Kette. Obwohl die ersten Zeichen weitgehend von der Wahl des Startzeichens bestimmt werden, zeigte Markov, dass sich die Verteilung der Zeichen auf lange Sicht in einem Muster festlegte. So können auch voneinander abhängige Ereignisse, wenn sie festen Wahrscheinlichkeiten unterliegen.

Für ein nützlicheres Beispiel stellen Sie sich vor, Sie wohnen in einem Haus mit fünf Zimmern. Sie haben ein Schlafzimmer, ein Badezimmer, ein Wohnzimmer, ein Esszimmer und eine Küche. Nehmen wir an, wir sammeln einige Daten Je nachdem, in welchem ​​Raum Sie sich zu einem bestimmten Zeitpunkt gerade befinden, müssen wir nur noch angeben, in welchen ​​Raum Sie wahrscheinlich als nächstes gehen. Wenn Sie sich beispielsweise in der Küche befinden, haben Sie eine 30-prozentige Chance, in der Küche zu bleiben, eine 30-prozentige Chance, ins Esszimmer zu gehen, eine 20-prozentige Chance, ins Wohnzimmer zu gehen, eine 10prozentige Chance ins Badezimmer zu gehen und eine Chance von 10%, ins Schlafzimmer zu gehen. Mit einer Reihe von Wahrscheinlichkeiten für jeden Raum können wir eine Kette von Vorhersagen aufstellen, welche Räume Sie wahrscheinlich als nächstes belegen werden.

Vorhersagen ein paar Zustände heraus zu machen, kann nützlich sein, wenn wir vorhersagen wollen, wo sich jemand im Haus befindet, nachdem er in der Küche war. Aber da unsere Vorhersagen nur auf einer Beobachtung basieren, wo sich eine Person im Haus befindet, ist es vernünftig zu glauben, dass sie nicht sehr gut sein wird. Wenn zum Beispiel jemand vom Schlafzimmer ins Badezimmer ging, ist es wahrscheinlicher, dass er direkt ins Schlafzimmer geht, als wenn er aus der Küche gekommen wäre. Daher gilt die Markov-Kette normalerweise nicht für die reale Welt.

Wenn Sie die Markov-Kette für Tausende von Iterationen ausführen, erhalten Sie jedoch auf lange Sicht die Vorhersage, in welchem ​​Raum Sie sich wahrscheinlich befinden werden. Noch wichtiger ist, dass diese Vorhersage in keiner Weise von dem Raum beeinflusst wird, in dem die Person begann. Intuitiv macht das Sinn: Es spielt keine Rolle, wo sich jemand zu einem bestimmten Zeitpunkt im Haus befindet, um zu simulieren und zu beschreiben, wo er sich wahrscheinlich langfristig oder allgemein befindet. Markov-Ketten, die als unrealistische Methode zum Modellieren einer Zufallsvariablen über einige Perioden erscheinen, können daher zur Berechnung der langfristigen Tendenz dieser Variablen verwendet werden, wenn wir die Wahrscheinlichkeiten verstehen, die ihr Verhalten bestimmen.


Mit einigen Kenntnissen der Monte-Carlo-Simulationen und Markov-Ketten hoffe ich, dass die mathematikfreie Erklärung, wie MCMC-Methoden funktionieren, ziemlich intuitiv ist.

Denken Sie daran, dass wir versuchen, die posteriore Verteilung für den Parameter, an dem wir interessiert sind, zu schätzen, die durchschnittliche menschliche Körpergröße:


Ich bin kein Visualisierungsexperte, und anscheinend bin ich auch nicht gut darin, mein Beispiel im Rahmen des gesunden Menschenverstandes zu halten: Mein Beispiel der hinteren Verteilung überschätzt die durchschnittliche menschliche Körpergröße erheblic.

Wir wissen, dass die hintere Verteilung irgendwo im Bereich unserer vorherigen Verteilung und unserer Wahrscheinlichkeitsverteilung liegt, aber aus irgendeinem Grund können wir sie nicht direkt berechnen. Mit MCMC-Methoden ziehen wir effektiv Proben aus der posterioren Verteilung und berechnen dann Statistiken wie den Durchschnitt der gezogenen Proben.

Zu Beginn wählen MCMC-Methoden einen zu berücksichtigenden zufälligen Parameterwert aus. Die Simulation generiert weiterhin Zufallswerte (dies ist der Monte-Carlo-Teil), unterliegt jedoch einer Regel zur Bestimmung, was einen guten Parameterwert ausmacht. Der Trick ist, dass es für ein Paar von Parameterwerten möglich ist zu berechnen, welcher ein besserer Parameterwert ist, indem berechnet wird, wie wahrscheinlich jeder Wert die Daten aufgrund unserer früheren Überzeugungen erklärt. Wenn ein zufällig generierter Parameterwert besser als der letzte ist, wird er mit einer bestimmten Wahrscheinlichkeit zu der Kette der Parameterwerte addiert, die dadurch bestimmt wird, wie viel besser er ist (dies ist der Markov-Kettenabschnitt).

Um dies visuell zu erläutern, erinnern wir uns daran, dass die Höhe einer Verteilung bei einem bestimmten Wert die Wahrscheinlichkeit darstellt, diesen Wert zu beobachten. Daher können wir uns vorstellen, dass unsere Parameterwerte (die x-Achse) Bereiche mit hoher und niedriger Wahrscheinlichkeit aufweisen, die auf der y-Achse dargestellt sind. Für einen einzelnen Parameter beginnen MCMC-Methoden mit zufälligen Stichproben entlang der x-Achse:

Rote Punkte sind Stichprobenparameter

Da die Zufallsstichproben festen Wahrscheinlichkeiten unterliegen, konvergieren sie nach einer gewissen Zeit im Bereich der höchsten Wahrscheinlichkeit für den Parameter, an dem wir interessiert sind:

Blaue Punkte stehen nur für zufällige Stichproben nach einem beliebigen Zeitpunkt, zu dem mit Konvergenz gerechnet werden muss. Hinweis: Ich stelle den Punkt vertikal nur zur Veranschaulichung.

Nachdem die Konvergenz stattgefunden hat, ergibt die MCMC-Abtastung eine Reihe von Punkten, die Stichproben aus der hinteren Verteilung sind. Zeichnen Sie ein Histogramm um diese Punkte und berechnen Sie die gewünschten Statistiken:

Jede Statistik, die anhand der durch MCMC-Simulationen erzeugten Stichproben berechnet wurde, ist unsere beste Vermutung für diese Statistik der wahren posterioren Verteilung.

MCMC-Methoden können auch verwendet werden, um die posteriore Verteilung von mehr als einem Parameter (z. B. Größe und Gewicht des Menschen) abzuschätzen . Für n Parameter gibt es Bereiche mit hoher Wahrscheinlichkeit im n-dimensionalen Raum, in denen bestimmte Sätze von Parameterwerten die beobachteten Daten besser erklären. Daher halte ich MCMC-Methoden für das zufällige Abtasten in einem probabilistischen Raum, um die posteriore Verteilung anzunähern.


Erinnern wir uns an die kurze Antwort auf die Frage “Was sind Markov-Ketten-Monte-Carlo-Methoden?” Hier ist es wieder als TL; DR:

MCMC-Verfahren werden verwendet, um die posteriore Verteilung eines interessierenden Parameters durch Zufallsstichproben in einem probabilistischen Raum zu approximieren.

Ich hoffe, ich habe mit dieser kurzen Antwort erklärt, warum Sie MCMC-Methoden verwenden und wie sie funktionieren. Die Inspiration für diesen Beitrag war ein Vortrag, den ich im Rahmen des Data Science Immersive-Kurses der General Assembly in Washington, DC, gehalten hatte. Ziel dieses Vortrags war es, die Monte-Carlo-Methoden der Markov-Kette einem nicht-technischen Publikum zu erklären, und ich habe hier versucht, dasselbe zu tun. Hinterlassen Sie einen Kommentar, wenn Sie der Meinung sind, dass diese Erklärung nicht stimmt, oder wenn Sie sie intuitiver machen könnten.

Quelle: https://towardsdatascience.com/a-zero-math-introduction-to-markov-chain-monte-carlo-methods-dcba889e0c50

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.