Ein Anfängerleitfaden für überwachtes Lernen

1 min read

Ein Anfängerleitfaden für überwachtes Lernen

Möglicherweise haben Sie den Begriff “überwachtes Lernen” schon einmal gehört. Es ist eine Möglichkeit, einen Algorithmus dazu zu bringen, etwas zu lernen, aber es ist nicht genau der Algorithmus.

In einem überwachten Lernprozess haben Sie Eingabedaten, die beschriftet sind, wie z.B. einen Namen auf die Rückseite eines Fotos zu schreiben, damit zukünftige Generationen Ihre Großtante identifizieren können.

Stellen Sie sich vor, Ihr Algorithmus macht einen Test. Die Bezeichnungen sind die richtigen Antworten auf den Test (der Name der Person), und die Eingabedaten (die Fotos) sind der Satz von Fragen.

Ihr Algorithmus wird jedes Mal eine Schätzung vornehmen, wenn er eine Dateninstanz (ein Foto) sieht, und diese Schätzung wird mit der richtigen Antwort, dem Label oder dem Namen verglichen. Der Akt der Aufsicht ist also diese Überprüfung der Vermutungen auf korrekte Antworten. Wenn der Algorithmus eine falsche Schätzung vornimmt, kann dies erkannt werden, und der Algorithmus selbst kann angepasst werden, um die Schätzung zu verbessern. Dies ist der Lernteil des Machine Learning.

(Wir haben nicht immer einen beschrifteten Datensatz, noch kennen wir die Antworten auf unsere Fragen, so dass nicht jedes Lernen überwacht werden kann. Unbeaufsichtigtes Lernen ist ein weiteres Thema an andererStelle.)

Die Eingabedaten sind die, über die Sie Vorhersagen machen möchten, und die Bezeichnungen sind diese genauen Vorhersagen, die jeder relevanten Instanz der Eingabe zugeordnet sind.

Hier sind einige Beispiele für Input-Label-Paare und das, was wir diesen Anwendungsfall nennen würden:

  • Foto – Name des Objekts im Foto (z.B. Gesicht – Name) – Objekterkennung
  • Transaktion – “Betrug” oder “kein_Betrug” – Betrugserkennung
  • Text – “wütend” oder “Inhalt” – Stimmungsanalyse
  • Audiodatei – Name der sprechenden Person – Spracherkennung
Was Sie für das überwachte Lernen benötigen

Um überwachtes Lernen durchzuführen, benötigen Sie einen markierten Datensatz und bekannte Antworten auf die von Ihnen gestellten Fragen.

Diese Bedingungen sind nicht immer erfüllt. Wir besitzen nicht immer einen beschrifteten Datensatz für die Vorhersagen, die wir machen wollen. Schlimmer noch, wir kennen nicht immer die Antworten. So sind beispielsweise Betrug und Cybersicherheit zwei sich schnell entwickelnde Bereiche, in denen Angreifer ständig nach neuen Angriffen suchen. Die Institutionen, auf die sich diese neuen Angriffe richten, könnten unmöglich über einen Datensatz verfügen, in dem sie als Angriffe bezeichnet werden, da sie noch nie zuvor gesehen wurden. Aber es sind trotzdem Angriffe.

Das einfacher zu lösende Problem ist die Kennzeichnung von Daten, bei denen die Antworten bekannt sind. Manchmal erfordern diese Datenbeschriftungsaufgaben Fachwissen (z. B.: Kreuzen Sie bitte die Pixel im Röntgenbild ein, die auf einen krebsartigen Tumor hinweisen können); manchmal können sie von fast jedem durchgeführt werden (z. B.: Denken Sie an Captcha).

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.