Einführung in die Bayesian Networks

2 min read

Einführung in die Bayesian Networks

Bayes-Netzwerke sind eine Art probabilistisches grafisches Modell, das Bayes-Inferenz für Wahrscheinlichkeitsberechnungen verwendet. Bayes-Netzwerke zielen darauf ab, die bedingte Abhängigkeit und damit die Ursache zu modellieren, indem sie die bedingte Abhängigkeit durch Kanten in einem gerichteten Graphen darstellen. Durch diese Beziehungen kann auf die Zufallsvariablen im Graphen effizient durch die Verwendung von Faktoren geschlossen werden.

Wahrscheinlichkeit

Bevor man sich genau mit einem Bayes-Netzwerk befasst, sollte man zunächst die Wahrscheinlichkeitstheorie betrachten.

Denken Sie zunächst daran, dass die gemeinsame Wahrscheinlichkeitsverteilung der Zufallsvariablen A_0, A_1, …, A_n, die als P (A_0, A_1, …, A_n) bezeichnet wird, P (A_1 | A_2, …, A_n) * P (A_2 | A_3, …, A_n) * … * P (A_n) durch die Kettenregel der Wahrscheinlichkeit. Wir können dies als eine faktorisierte Darstellung der Verteilung betrachten, da es sich um ein Produkt von N-Faktoren handelt, bei denen es sich um lokalisierte Wahrscheinlichkeiten handelt.

Als nächstes sei daran erinnert, dass die bedingte Unabhängigkeit zwischen zwei Zufallsvariablen A und B bei einer anderen Zufallsvariablen C der Erfüllung der folgenden Eigenschaft entspricht: P (A, B | C) = P (A | C) * P (B | C). Mit anderen Worten, solange der Wert von C bekannt und fest ist, sind A und B unabhängig.  Anders gesagt und dies werden wir später verwenden, ist P (A | B, C) = P (A | C).

Das Bayesianische Netzwerk

Durch die Verwendung der Beziehungen unseres Bayes-Netzwerks können wir eine kompakte, faktorisierte Darstellung der gemeinsamen Wahrscheinlichkeitsverteilung erhalten, indem wir die bedingte Unabhängigkeit ausnutzen.

Ein Bayes-Netzwerk ist ein gerichteter azyklischer Graph, in dem jede Kante einer bedingten Abhängigkeit entspricht und jeder Knoten einer eindeutigen Zufallsvariablen entspricht. Wenn eine Kante (A, B) in dem Graphen existiert, der die Zufallsvariablen A und B verbindet, bedeutet dies formal, dass P (B | A) ein Faktor in der gemeinsamen Wahrscheinlichkeitsverteilung ist, also müssen wir P (B | A) kennen alle Werte von B und A, um die Inferenz durchzuführen. Im obigen Beispiel bedeutet Rain, da Rain eine Kante hat, die in WetGrass geht, dass P (WetGrass | Rain) ein Faktor ist, dessen Wahrscheinlichkeitswerte neben dem WetGrass-Knoten in einer bedingten Wahrscheinlichkeitstabelle angegeben werden.

Bayes-Netzwerke erfüllen die lokale Markov-Eigenschaft, die besagt, dass ein Knoten von seinen Nicht-Nachkommen abhängig von seinen Eltern unabhängig ist. Im obigen Beispiel bedeutet dies, dass P (Sprinkler | Bewölkt, Regen) = P (Sprinkler | Bewölkt) ist, da Sprinkler bei Bewölkung bedingt von seinem nicht nachkommenden Regen unabhängig ist. Diese Eigenschaft ermöglicht uns, die im vorherigen Abschnitt unter Verwendung der Kettenregel erhaltene gemeinsame Verteilung zu einer kleineren Form zu vereinfachen. Nach der Vereinfachung ist die gemeinsame Verteilung für ein Bayesianisches Netzwerk gleich dem Produkt von P (Knoten | Eltern (Knoten)) für alle Knoten, wie nachstehend angegeben:

In größeren Netzwerken können wir mit dieser Eigenschaft den erforderlichen Rechenaufwand erheblich reduzieren, da die meisten Knoten im Verhältnis zur Gesamtgröße des Netzwerks nur wenige übergeordnete Elemente haben.

Inferenz

Inferenz über ein Bayesianisches Netzwerk kann in zwei Formen erfolgen.

Die erste besteht darin, einfach die gemeinsame Wahrscheinlichkeit einer bestimmten Zuweisung von Werten für jede Variable (oder eine Teilmenge) im Netzwerk zu bewerten. Dafür haben wir bereits eine faktorisierte Form der gemeinsamen Verteilung, so dass wir dieses Produkt einfach anhand der bereitgestellten bedingten Wahrscheinlichkeiten bewerten. Wenn wir uns nur für eine Teilmenge von Variablen interessieren, müssen wir diejenigen herausgreifen, an denen wir nicht interessiert sind. In vielen Fällen kann dies zu einem Unterlauf führen. Daher ist es üblich, den Logarithmus dieses Produkts zu verwenden, der dem entspricht Addieren der einzelnen Logarithmen jedes Begriffs im Produkt.

Die zweite, interessantere Inferenzaufgabe besteht darin, P (x | e) zu finden oder die Wahrscheinlichkeit einer Zuweisung einer Teilmenge der Variablen (x) zu bestimmen, wenn andere Variablen zugewiesen werden (unsere Beweise, e). Im obigen Beispiel könnte dies ein Beispiel sein, um P (Sprinkler, WetGrass | Cloudy) zu finden, wobei {Sprinkler, WetGrass} unser x und {Cloudy} unser e ist. Um dies zu berechnen, verwenden wir die Tatsache, dass P (x | e) = P (x, e) / P (e) = αP (x, e) ist, wobei α eine Normalisierungskonstante ist, die wir am Ende berechnen werden so dass P (x | e) + P (¬x | e) = 1. Um P (x, e) zu berechnen, müssen wir die gemeinsame Wahrscheinlichkeitsverteilung über die Variablen marginalisieren, die nicht in x oder e erscheinen wir werden sie als Y bezeichnen.

Für das gegebene Beispiel können wir P (Sprinkler, WetGrass | Cloudy) wie folgt berechnen:

Quellen: https://towardsdatascience.com/introduction-to-bayesian-networks-81031eeed94e

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.