AI-United » Allgemein » Eine einfache Erklärung des Aufbaus eines KI-Systems

Eine einfache Erklärung des Aufbaus eines KI-Systems

In diesem Artikel versuchen wir, auf eine einfache Weise den Aufbau eines KI-Systems darzustellen. Die technischen Details lassen wir außer Acht, da das Ziel dieses Artikels ist, nur Grundkenntnisse zu vermitteln.

In Vergleich zur traditionellen Computerprogrammierung, bei der sich die Software nicht automatisch verbessert, wird ein KI-System wesentlich anders aufgebaut.

Das nachfolgende Bild stellt die Idee hinter einem guten KI-Engine dar:

Es sollte darauf hingewiesen werden, dass im Laufe der Zeit der Aufbau der KI-Systeme nicht nur viel weniger komplex, sondern auch viel kostengünstiger geworden ist. Eines der anschaulichen Beispiele ist Amazon Machine Learning, mit dessen Hilfe Produkte im Katalog unter Verwendung der Produktbeschreibungsdaten als Trainingssatz automatisch klassifiziert werden können.

Stellen Sie sich beispielsweise vor, dass Sie 20 Stunden Rechenzeit damit verbracht hätten, Ihre Modelle zu generieren, und 89.000.000 Echtzeitvorhersagen über einen Monat erhalten hätten. Ihre Kosten hätten bei 100 Dollar gelegen.

Um dieses Beispiel zu erfassen, sollte man sich auf das maschinelle Lernen konzentrieren, da eben dieser Bereich die meisten Anwendungen umfasst. Ein wichtiger Hinweis: Um in KI erfolgreich einsteigen zu können, benötigt man ein gutes Verständnis der Statistik.

Schritte zur Entwicklung eines KI-Systems:

  1. Identifizieren des Problems.
  2. Vorbereitung der Daten.
  3. Auswahl der Algorithmen.
  4. Training der Algorithmen.
  5. Auswahl der am besten geeigneten Programmiersprache.
  6. Auswahl der Plattform.

1. Identifizieren des Problems

In erster Linie sollten folgende wichtige Fragen beantwortet werden: (1) Was versucht man zu lösen? (2) Welches Ergebnis wird erwünscht?

Man muss immer daran denken, dass KI nicht das Allheilmittel an sich sein kann. Es handelt sich um ein Tool und nicht um die gesamte Lösung. Es gibt mehrere Methoden und viele verschiedene Probleme, die anhand der KI gelöst werden müssen.

Folgende Analogie soll helfen, das Obige zu verstehen: Um ein leckeres Gericht zuzubereiten, muss man genau wissen, welches Gericht zubereitet wird und welche Zutaten dazu benötigt werden.

2. Vorbereitung der Daten

Quelle: IT Chronicles.com

Als allererstes müssen die Daten betrachtet werden. Sie sind in strukturierte und unstrukturierte Daten unterteilt.

Der Begriff strukturierte Daten bezieht sich im Allgemeinen auf alle Arten von Daten, die in irgendeiner Form strukturiert oder organisiert sind, um die Konsistenz in der Verarbeitung sowie eine einfache Analyse zu gewährleisten. Als ein einfaches Beispiel strukturierter Daten kann ein Kundendatensatz mit dem Vor- und Nachnamen, Geburtsdatum, Adresse und anderen Daten angeführt werden

Unstrukturierte Daten dagegen liegen in einer nicht formalisierten Struktur vor. Sie können Audio, Bilder, Symbolik, Wörter und Infografiken umfassen. Einfache Beispiele dazu sind E-Mails, ein Telefongespräch, eine WhatsApp- oder WeChat-Nachricht.

Der Durchbruch und einer der größten Nutzen der KI bestand darin, es Computern zu ermöglichen, unstrukturierte Daten zu analysieren und auf ein viel größeres Universum von Daten zu zugreifen als die Welt der strukturierten Daten.

Es ist ein Irrtum zu denken, dass die wichtigsten Bestandteile der KI komplexe Algorithmen sind. Tatsächlich ist der wichtigste Teil der KI-Toolkits die Datenbereinigung. In der Regel investieren Datenwissenschaftler 80% ihrer Zeit in Bereinigung, Verschiebung, Überprüfen und Organisieren der Daten, bevor sie überhaupt verwendet werden oder ein einzelner Algorithmus geschrieben wird. 

Betriebe und große Unternehmen haben massive gesetzlich geschützte Datenbanken, deren Daten möglicherweise nicht bereit für KI sind, und es kommt sehr oft vor, dass Daten in Silos gespeichert werden. Dadurch können Informationen verdoppelt werden, wobei einige davon übereinstimmen und andere widersprechen können. Schließlich könnten die Unternehmen von diesen Datensilos eingeschränkt werden, um schnelle Einblicke in ihre internen Daten zu gewinnen. 

Bevor die Modelle ausgeführt werden, ist es notwendig, sicherzustellen, dass die Daten ordnungsgemäß organisiert und bereinigt wurden. Dies bedeutet, dass die Konsistenz überprüft, eine chronologische Reihenfolge bestimmt, die Daten nach Bedarf beschriftet werden müssen und so weiter.

Im Allgemeinen gilt eine Regel, dass je mehr die Daten massiert werden, desto größer ist die Wahrscheinlichkeit, dass das Ergebnis zur Lösung des festgelegten Problems ermittelt wird.

3. Auswahl der Algorithmen

Wie bereits erwähnt werden in diesem Artikel technische Details nicht behandelt, aber trotzdem es ist notwendig, einen kurzen Überblick über die verschiedenen gebräuchlichen Arten von Algorithmen zu verschaffen, die auch von der ausgewählten Art von Lernen abhängig sind.

Quelle: IBM Government Industry Blog

1. Überwachtes Lernen

Grundsätzlich wird es bei der Klassifizierung ein Label und bei der Regression eine Menge vorhergesagt.

Ein anschauliches Beispiel für den Einsatz eines Klassifizierungsalgorithmus könnte ein Szenario sein, bei dem festgestellt werden sollte, ob ein Darlehen ausfallen würde oder nicht.

Ein anschauliches Beispiel für den Einsatz eines Regressionsalgorithmus könnte ein Szenario sein, bei dem die Höhe des erwarteten Verlusts für diese ausgefallenen Darlehen quantifiziert werden sollte. In dieser Hinsicht wird ein Wert gesucht: Wie hoch ist der Eurobetrag, der voraussichtlich im Falle des Darlehensausfalls verloren geht?

Sobald das Problem identifiziert worden ist, kann der nächste Schritt gemacht werden – Auswahl des Algorithmus.

Diese Szenarien sind vereinfachend und in der Praxis wenig realistisch. Im überwachten Lernen kann man aus anderen Algorithmen auswählen wie beispielsweise logistische Regression, Random Forest, Support Vector Machine und naive Bayes-Klassifizierung.

Dennoch sind diese Beispiele notwendig, um die Arten von Algorithmen in KI gut zu verstehen.

2. Unüberwachtes Lernen & Verstärkendes Lernen

Hier wären Arten von Algorithmen sehr unterschiedlich und könnten in verschiedene Kategorien eingeteilt werden wie z. B. Clustering, bei dem der Algorithmus ähnliche Objekte finden soll, Assoziierung, bei der er Verbindungen zwischen Objekten finden soll, Dimensionsreduzierung, bei der er die Anzahl der Variablen zur Verringerung des Rauschens reduzieren soll.

4. Training der Algorithmen

Quelle: The Verge

Nachdem die Auswahl der Algorithmen abgeschlossen worden ist, muss das Modell trainiert werden, wobei die Daten in das Modell eingegeben werden. Die Modellgenauigkeit ist hier von entscheidender Bedeutung. Obwohl es keine internationalisierten oder allgemein anerkannten Schwellenwerte gibt, ist es äußerst wichtig, dass die Modellgenauigkeit innerhalb des ausgewählten Frameworks festgelegt wird. Eine entscheidende Rolle spielen die Ermittlung eines annehmbaren Mindestschwellenwerts und der Einsatz einer großen statistischen Disziplin. Das Modell muss erneut trainiert werden, da es eine Selbstverständlichkeit ist, dass für die Modelle eine Feinabstimmung benötigt werden kann. Beispielsweise bei dem Ergebnis mit einer reduzierten Vorhersagbarkeit des Modells muss es überarbeitet werden und alle oben genannten Schritte überprüft werden.

5. Auswahl der am besten geeigneten Programmiersprache für KI

Dies ist von Bedürfnissen und vielen Faktoren abhängig. Heutzutage stehen den Datenwissenschaftlern und einfachen Benutzern sehr viele Programmiersprachen zur Verfügung, angefangen mit klassischer C ++ und Java bis hin zu Python. Python und R sind beides aktuell die beliebtesten und am meisten verwendeten Programmiersprachen der Datenwissenschaft. Beides sind sehr mächtige Programmiersprachen (für Datenanalyse), insbesondere durch die vielen Packages und umfangreiche Bibliotheken für maschinelles Lernen. Eine der sehr leistungsstarken Bibliotheken der Computerlinguistik ist NLTK (das Natural Language Toolkit). Sie ist eine Zusammenstellung von Bibliotheken und Programmen der Programmiersprache Python.

6. Auswahl der Plattform

Man muss nicht unbedingt den eigenen Dienst, die eigene Datenbank usw. kaufen. Es gibt die Möglichkeit, eine vorgefertigte Plattform auszuwählen, die alle Dienste bietet.

Diese vorgefertigten Plattformen (es handelt sich um das maschinelle Lernen als Dienstleistung) waren einer der nützlichsten Bestandteile der Infrastruktur, dank dessen sich das maschinelle Lernen verbreitet hat. Das Ziel der Entwicklung dieser Plattformen bestand darin, das maschinelle Lernen zu erleichtern und zu vereinfachen. Oft liefern sie cloudbasierte fortgeschrittene Analysen, die mit mehreren Algorithmen und Sprachen eingesetzt werden und sie integrieren können.

Ein schneller Einsatz ist ausschlaggebend für den Erfolg des maschinellen Lernens als Dienstleistung. In der Regel tragen Plattformen zur Lösung der Probleme wie die Datenvorverarbeitung, das Modelltraining und die Bewertungsvorhersage bei. Da sie sich unterscheiden, ist eine bestimmte Vorbewertung von entscheidender Bedeutung.

Die beliebtesten Plattformen sind Microsoft Azure Machine Learning, die Google Cloud Prediction API, TensorFlow, Ayasdi und andere mehr. 

Sollten Sie Fragen zum Aufbau eines KI-Systems haben, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.