AI-United » Allgemein » AI-Serie: Data Scientists, die modernen Alchemisten.

AI-Serie: Data Scientists, die modernen Alchemisten.

AI-Serie: Data Scientists

„… Die schmale Wendeltreppe führte in einen größeren Raum, der kaum von wenigen Fackeln beleuchtet wurde, die an der Backsteinmauer hingen. Zwei Tische in der Mitte des Raums waren vollständig von den seltsamsten Formen alchemistischer Stills bedeckt. Ein Glasalembic atmete stinkende und faule Dämpfe ein, die von einer sprudelnden Flüssigkeit in einem erhitzten Kürbis in der Nähe eines Mörsers und seines Stößels erzeugt wurden. Auf alten Holzregalen wurden Kupferröhrchen unterschiedlicher Größe, kleine Flaschen mit weißem Blei, Schwefel und Quecksilber sowie andere Destilliergefäße aufgestellt. Seltsame Lichteffekte wurden durch eine Flasche Spiritus Vini erzeugt, die das Licht reflektierte, das aus einem beheizten Topf kam. Der verdampfte Schwefel verwandelte das flüssige Quecksilber in einen gelben Feststoff, der Gold sehr ähnlich ist…“

Keine Rücksicht zu nehmen, dass viele Jahrhunderte vergangen sind, seit sie versuchten, unedles Metall in Gold umzuwandeln, ist unser aktuelles wissenschaftliches Wissen auf allen Gebieten so tief und umfassend entwickelt hat. Diese Sachen faszinieren, wenn man an die Verwandlung der Daten in Gold denkt.

Von einer Seite müssen die Datenwissenschaftler die Natur des Problems verstehen, um sie zu lösen. Beim maschinellen Lernen gibt es drei Arten von Problemen: Klassifizierung, Regression und Clustering. Die Klassifizierungsaufgaben geben die Möglichkeit, die Eingabedaten Kategorienbezeichnungen wie „Ja“ oder „Nein“, „Richtig“ oder „Falsch“ zuzuordnen. Die Regressionsaufgaben sind den Klassifizierungsaufgaben ähnlich, aber die Vorhersage bezieht sich auf eine Objektkategorie. Das Lehren eines Algorithmus ist ein Regressionsproblem. Die Clustering-Probleme liegen näher an den traditionellen Data Mining-Aufgaben, bei denen unbenannte Daten analysiert werden müssen, um spezifische und verborgene Muster zu ermitteln, die die Ermittlung von Erkenntnissen ermöglichen.

Wenn das Problem klar ist, muss der Datenwissenschaftler definieren, welche Lernstrategie der Ursache am besten entspricht. Die Auswahl hängt von vielen verschiedenen Elementen ab, darunter: Wie viele Daten sind verfügbar? Sind sie beschriftet oder nicht? Gibt es Algorithmen oder neuronale Netzwerke, die zuvor an ähnlichen Datensätzen trainiert wurden?

Ist die beste Wahl ist ein beaufsichtigter Lernansatz (Supervised Learning)? Wenn man sich mit Klassifizierungs- und Regressionsproblemen beschäftigt, so bilden sich viele andere Lernstrategien während der Zeit heraus, wie z.B. Transfer-Learning. Das Netzwerk verwendet neue Features, die aus überwachten Trainingszyklen erkannt und gelernt wurden, die für eine andere Aufgabe angewendet wurden.

Ein anderer Ansatz wird von Deep Belief Networks oder DBNs angeboten. Wir sehen die Verwendung von den standardmäßigen neuronalen Netzwerken. Aber! Anstatt mit zufälligen Werten zu beginnen, wird das Netzwerk durch eine unbeaufsichtigte Vorbereitungsphase mit unbeschrifteten Datensätzen initialisiert, aus denen mehrere Schichten von Merkmalen trainiert werden. Wenn die Phase vor dem Training abgeschlossen ist, befinden sich alle Gewichte und Vorspannungen des Netzes sehr nahe an den optimalen Werten. Die letzte Phase besteht aus einer kurzen, überwachten Feinabstimmungs mit Rückwärtsausbreitung (Backpropagation) und an relativ wenigen gelabelten Beispielen.

Sowohl Transfer Learning als auch BMNs ermöglichen es, die Trainingszeit und den Bedarf an großen beschrifteten Datensätzen zu reduzieren.

Zu guter Letzt muss der Datenwissenschaftler entscheiden, welcher Algorithmus aus einer Vielzahl von Algorithmen die besten Ergebnisse liefert.

Neuronale Netze und Deep Learning sind jedoch nur Elemente eines viel umfassenderen Batches von Machine Learning-Algorithmen, der alle möglichen Probleme abdecken kann. Die Familie der Regressionsalgorithmen ist eindeutig gut geeignet, um Probleme des Regressionstyps zu lösen, und bietet Algorithmen, die sich schnell modellieren lassen. Dies ist besonders nützlich, wenn die zu modellierende Beziehung nicht sehr komplex ist und Sie nicht viele Daten haben. Lineare und logistische Regressionsalgorithmen sind die einfachsten Algorithmen dieser Familie. Clustering-Algorithmen sind, wie der Name vermuten lässt, besonders effizient bei unbeaufsichtigten Lernaufgaben, wenn Objektgruppen so gruppiert werden, dass Objekte in derselben Gruppe (Cluster genannt) einander ähnlicher sind als in anderen Gruppen. Es ist eine Hauptaufgabe des explorativen Data Mining und eine gängige Technik für die statistische Datenanalyse, die vom maschinellen Lernen übernommen wird. K-Means und Hierarchical Clustering sind beliebte Algorithmen, die zu dieser Familie gehören. Entscheidungsbäume sind für beaufsichtigtes Lernen in Regressions- und Klassifikationsaufgaben oft eine gute, einfache und leistungsfähige Methode.

Code in Python

Dies sind nur einige Beispiele unter den vielen verfügbaren Machine Algorithmen, mit denen Datenwissenschaftler ihre Herausforderungen lösen können.

Zwar können Datenwissenschaftler bestehende Best Practices und Richtlinien nutzen, um zu ermitteln, welche Kombination von Problemen, Datensätzen, Lernstrategien und Algorithmen verwendet werden sollte. Es ist jedoch auch wahr, dass Machine Learning keine exakte Wissenschaft ist. Es entwickelt sich schnell und ist relativ neu.

Der Datenwissenschaftler ist nicht “nur“ ein Physiker oder Mathematiker, der weiß, wie er Code in Python implementiert, sondern entwickelt seine Anwendungsmöglichkeiten anhand von Anwendungsbeispielen, nutzt Best Practices, sucht jedoch nach neuen Wegen, um alte Probleme anzugehen. Er kombiniert verschiedene Lerntechniken oder verkettet verschiedene Klassen von Algorithmen, um Daten zu optimieren, zu verbessern oder zu überwinden.

Die Alchemisten legen unsere modernen Datenwissenschaftler in ihren Bemühungen, Gold aus Daten zu gewinnen, die Grundlage für zukünftige Generationen von KI.

Welches KI System kommt nun bei Ihnen in Frage?

Wie setzt man KI in Ihrem Umfeld ein?

Auf diese und weitere Fragen wird das AI_United Team gern antworten per Email oder in dem Q&A Bereich.

AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.