AI-United » Allgemein » Daten für Deep Learning

Daten für Deep Learning

Daten für Deep Learning

Die minimalen Anforderungen an die erfolgreiche Verwendung von Deep Learning hängen vom Problem ab, das man löst. Im Vergleich zu den statistischen, Bezugs-Datensätzen wie MNIST und CIFAR-10, sind die Realdaten verworren, nicht gleichartig und sie entwickeln sich. Und mit solchen Daten soll Deep Learning umgehen.

Typen von Daten

Deep Learning kann auf jeden Datentyp angewendet werden. Die Datentype, mit denen man arbeitet, die Daten, die man sammelt, hängen  vom Problem ab.

  1. Ton (Spracherkennung)
  2. Text (die Einordnung von Resümees)
  3. Bilder (die Computersicht)
  4. Zeitreihen (sensorbasierte Daten, Webaktivität)
  5. Video (Bewegungserkennung)

Anwendungsbeispiele

Deep Learning kann praktisch jedes Problem der Computer-Wahrnehmung lösen, einschließlich der Einteilung von Daten, der Clusterbildung oder den Vorhersagen.

  • Einteilung: Dieses Bild stellt ein Pferd dar. Dieses E-Mail sieht wie Spam aus
  • Clusterbildung: Diese zwei Töne sind ähnlich. Dieses Dokument ist, was der Nutzer X sucht
  • Vorhersagen: Der Kunde A will wahrscheinlich den Service nicht mehr verwenden

Deep Learning eignet sich am besten für nicht strukturierte Daten wie Bilder, Video, Töne oder Texte. Ein Bild stellt einen Fleck von Pixeln, eine Mitteilung – einen Fleck vom Text dar. Diese Daten haben nicht die Form der typischen, relationalen Datenbank mit Zeilen und Spalten. Dadurch ist es schwierig, die Eigenschaften manuell zu bestimmen.

Verbreitete Anwendungsbeispiele für Deep Learning schließen die Analyse des Gefühlswertes der Mitteilungen, die Einteilung von Bildern, die prädiktive Analytik, Empfehlungssysteme, die Erkennung von Anomalien usw. ein.

Datenattribute

Um erfolgreiches Deep Learning zu erhalten, sollten die Daten bestimmte Eigenschaften aufweisen.

Relevanz

Die Daten, die man zum Trainieren des Neuronennetzes benutzt, sollten einen direkten Bezug auf das Problem haben. Sie sollten den Realdaten, die man verarbeiten will, maximal ähnlich sein. Am Anfang sind Neuronennetze wie ein unbeschriebenes Blatt, sie lernen nur, was man sie lehrt. Wenn man will, dass sie das Problem lösen, das mit bestimmten Arten von Daten wie CCTV Videos verbunden ist, dann sollte man sie auf CCTV Videos oder etwas Ähnliches trainieren. Die trainierenden Daten sollten den Realdaten ähnlich sein, die sie im Betriebsmedium einteilen werden. 

Geeignete Klassifikation

Wenn man ein Deep-Learning Modell aufbauen will, das die Daten klassifiziert, muss man die markierten Datensatz haben. Man sollte die Rohdaten markieren: Dieses Bild ist eine Blume, jenes Bild ist ein Panda.” Die Zeit und die Abstimmung helfen dem trainierenden Datensatz das Neuronennetz zu lehren neue Bilder zu klassifizieren, die es nicht gesehen hat.

Formatierung

Neuronennetze zerstören die Vektoren von Daten und geben die Entscheidungen über diese Vektoren aus. Alle Daten sollten vektorisiert werden. Beim Eintritt ins Neuronennetz sollten die Vektoren die gleiche Länge haben. Um die Vektoren derselben Länge zu bekommen, sollte man die Bilder derselben Größe (die gleiche Höhe und Breite) haben. Manchmal sollte man die Größe von Bildern ändern. Das nennt sich Vorbearbeitung von Daten.

Verfügbarkeit

Die Daten müssen an einem Ort aufbewahrt werden, mit dem man leicht arbeiten kann. Zum Beispiel, das lokale Dateisystem oder HDFS (das Dateisystem von Hadoop) oder das S3-Bucket in AWS. Wenn die Daten in verschiedenen Datenbanken aufbewahrt werden, die nicht verbunden sind, sollte man eine Datenleitung aufbauen. Der Aufbau der Datenleitung und die Vorverarbeitung können mindestens die Hälfte der Zeit in Anspruch nehmen, die man für das Aufbauen des Deep-Learning Modells benötigt.

Mindestdatenanforderungen

Die Mindestanforderungen hängen von der Komplexität des Problems ab. Aber 100,000 Beispiele in allen Kategorien insgesamt sind ein guter Ausgangspunkt.

Wenn man markierte Daten (Kategorien A, B, C und D) hat, ist es wünschenswert, eine ausgewogene Datenbasis mit 25.000 Beispielen jeder Marke zu haben: 25,000 Beispiele von A, 25,000 Beispiele von B usw.

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410