Welche Art von Daten hat Ihr Unternehmen: numerische oder kategoriale?

7 min read

Welche Art von Daten hat Ihr Unternehmen

Sie wundern sich, wie viele Daten Ihr Unternehmen täglich bearbeitet? Aber haben Sie sich irgendwann gefragt, was man daraus lernen kann? Sind Ihre Daten numerisch oder kategorisch? Haben sie eine hohe Dimensionalität oder Kardinalität?

Daten umgeben uns überall. Es sollte aber darauf hingewiesen werden, dass nicht alle Daten gleich sind. Kommt Ihnen der Begriff Datenbereinigung bekannt vor? Wenn nicht, dann sollten Sie wissen, dass sie sich von der regelmäßigen Reinigung nicht unterscheidet.

Wie sieht es im Alltag aus? Sie entscheiden sich, Ihr Haus in Ordnung zu bringen: Herumliegende Kleidungsstücke legen Sie ordentlich in den Schrank und bringen alle Sachen vom Tisch dorthin zurück, wo sie sein sollten. Anders gesagt, bringen Sie Ordnung in eine chaotische Umgebung zurück.

Das Gleiche trifft auf die Daten zu. Wenn ein Ingenieur, der im Bereich des maschinellen Lernens tätig ist, einen Datensatz zu erforschen beginnt, fühlt er sich zunächst verwirrt: “Wo soll dies hin?”, “Was soll dies eigentlich sein?” So wie Sie Ihre Kleider in den Schrank zurücklegen, beginnen sie, auch Daten zu verschieben, wobei Werte einer Spalte geändert und die Werte einer anderen normalisiert werden.

Aber Moment mal. Wissen Sie genau, wie Sie einzelne Daten bearbeiten sollten?

Kehren wir zur Analogie zur Hausreinigung zurück. Wenn Ihr Küchentisch unordentlich ist, woher wissen Sie dann, wo sich die einzelnen Sachen befinden sollten?

Alle Sachen kehren auf ihre Plätze zurück: Gewürze in die Speisekammer, weil sie trocken aufbewahrt werden müssen. Die Milch wird in den Kühlschrank zurückgestellt, weil sie Kälte braucht. Ein Stapel ungeöffneter Briefumschläge sollte sich wahrscheinlich im Büro befinden.

Nun stellen Sie sich vor, dass Sie einen unordentlichen Tisch mit Daten haben. In einer Spalte stehen Zahlen, in der anderen Wörter. Was sollte man mit diesen tun?

Eine bequeme Methode, dieses Rätsel zu lösen, besteht in der Teilung der Daten in numerische und kategoriale.

Bevor wir fortfahren, lernen wir einige Freunde kennen, die uns beim Erlernen dieser zwei Arten von Werten helfen.

Das Schwein namens Jörg mag Zahlen. Es zählt jeden Tag seine Körner.

Das Pferd Zoltan beobachtet gerne, wie die Autos am Feld vorbeifahren. Inzwischen kennt es bereits alle Automarken, die es überhaupt gibt.

Unser letzter Freund ist der Fisch Alex. Er liebt beides. Er weiß, dass die Zahlen sicher sind, und mag alle Arten von Meeresleben unter Wasser.

Jörg, das Schwein, mag numerische Daten, Zoltan, das Pferd, bevorzugt kategoriale Daten und Alex, der Fisch, mag beides.

1. Art von Daten: Numerische Daten

Wie Jörg lieben Computer Zahlen.

Das Ziel jedes Datensatzes besteht häufig darin, alle Werte in einen numerischen Zustand umzuwandeln. Auf diese Weise können Computer durch Durchführung umfangreicher Berechnungen Muster in Zahlen transformieren.

In Jörgs Fall befinden sich seine Daten bereits  in einem numerischen Zustand. Es kann genau sagen, wie viele Körner es in den letzten drei Jahren täglich gegessen hat.

Da es samstags etwas mehr bekommt, nutzt es diese Möglichkeit, eine Kleinigkeit für Montage zu sparen, wenn der Vorrat geringer ist.

Ein Computer ist nicht unbedingt erforderlich, um diese Art von Muster zu erstellen. Aber was wäre, wenn Sie etwas Komplexeres erlernen würden?

Dies ist mit einer Vorhersage vergleichbar, wie der Aktienkurs des Unternehmens A morgen sein würde, der auf Basis des Wertes anderer ähnlicher Unternehmen und der neuesten Nachrichten über den Unternehmen A berechnet würde?

Ok, nun stehen Ihnen die Aktienkurse des Unternehmens A und vier anderen ähnlichen Unternehmen zur Verfügung. All diese Werte sind Zahlen. Jetzt können Sie mit Hilfe eines Computers alle Daten sehr leicht modellieren.

Aber was würde passieren, wenn Sie der Aufgabe die Überschrift “Unternehmen A bricht neue Rekorde, eine Rekordhöhe!” hinzufügen würden?

Jörg zählt ausgezeichnet, interessiert sich aber nicht dafür, welche Getreidesorten es gegessen hat. Was wäre, wenn die Anzahl der erhaltenen Körner von der Getreidesorte abhängen würde? Genauso ist es mit einer Nachrichtenüberschrift, die den Aktienpreis beeinflussen kann.

Die Art von Daten, die nicht in einer einfachen numerischen Form dargestellt wird, wird als kategoriale Daten bezeichnet.


2. Art von Daten: Kategoriale Daten

Kategoriale Daten sind beliebige Daten, die in numerischer Form nicht sofort verfügbar sind. Dies ist ein typischer Fall, wenn Sie sich mit den Begriffen Dimensionalität und Kardinalität auseinandersetzen.

Erinnern Sie sich noch an unser Pferd Zoltan? Sie wissen bereits, dass es die Autos beobachtet, die jeden Tag am Feld  vorbeifahren, und sich in allen Marken und Modellen gut auskennt.

Können Sie sich vorstellen, dass diese Informationen bei der Vorhersage des Preises eines Autos nützlich sein können?

Sie wissen, dass die Marke und das Modell den Preis beeinflussen können. Aber wie geschieht es genau?

Wie kann man einem Computer beibringen, dass sich ein BMW von einem Toyota unterscheidet?

Mit Zahlen.

Es handelt sich um das Konzept der Objektkodierung, wenn eine Kategorie in eine Zahl umgewandelt wird, so dass ein Computer lernen kann, wie die einzelnen Zahlen zusammenwirken.

Zum Beispiel war heute ein ruhiger Tag. Und Zoltan sah nur drei Autos.

Ein BMW X5, ein Toyota Camry und ein Toyota Corolla. Kann man diese Autos in Zahlen umwandeln, die eine Maschine verstehen könnte, während ihre eigenen Unterschiede erhalten bleiben?

Aus einer Vielzahl von Methoden sehen wir uns zwei der beliebtesten an: Ordinal Encoding und One-Hot Encoding.

Ordinal Encoding

Dem Auto und seiner Marke wird in der Reihenfolge ihres Erscheinens eine Nummer zugewiesen.

Nehmen wir an, dass zuerst der BMW fuhr, dann der Camry und zum Schluss der Corolla.

Tabelle 1: Beispiel für die Ordinal Encoding nach verschiedenen Automarken.

Aber macht dies überhaupt Sinn?

Nach dieser Logik sollte ein BMW + Toyota einem Toyota (1 + 2 = 3) gleich sein. Nicht wirklich.

Ordinal Encodings kann man für bestimmte Situationen wie beispielsweise Zeitintervalle verwenden. Für unseren Fall passt diese Methode wahrscheinlich nicht.

One-Hot Encoding

Die Besonderheit der One-Hot Encoding besteht darin, dass dabei jedem Wert, der für jedes einzelne Auto verwendet wird, eine 1 und jedem Wert, der nicht verwendet wird, eine 0 zugewiesen wird.

Tabelle 2: Beispiel für One-Hot Encoding verschiedener Automarken und -typen.

Nun sieht das Ergebnis der One-Hot Encoding in unserem Fall wie folgt aus: Unsere zwei Toyotas sind einander ähnlich, weil Einsen für beide Toyotas stehen, unterscheiden sich aber in ihrer Marke.

One-Hot Encoding wird in Fällen verwendet, wenn Kategoriewerte in Zahlen codiert werden. Sie hat jedoch einen Nachteil: In unserem Fall ist die Anzahl der zur Beschreibung des Autos verwendeten Werte von 2 auf 5 gestiegen.

Hier kommt der Begriff “hohe Dimensionalität” ins Spiel. Sie bedeutet, dass es jetzt mehr Parameter gibt, die jedes einzelne Auto beschreiben, als die Anzahl der Autos.

Wenn ein Computer lernt, aussagekräftige Ergebnisse zu erzielen, ist es erforderlich, dass das Verhältnis auf der Gegenseite hoch ist.

Anders gesagt, hätten Sie lieber 6.000 Beispiele für Autos und nur 6 Möglichkeiten, wie sie beschrieben werden als umgekehrt.

Beachten Sie, dass diese Methode nicht immer gut funktioniert. In unserem Fall hat Zoltan 500 verschiedene Automarken und -modelle gesehen und dementsprechend können Sie 6.000 Autos und 1.000 verschiedene Beschreibungsmöglichkeiten erhalten.

Um dieses Problem zu lösen, wird der Begriff „hohe Kardinalität“ verwendet. Es handelt sich darum, dass es viele Möglichkeiten gibt, etwas zu beschreiben, aber nicht viele Beispiele zur Verfügung stehen.

Um ein ideales Preisvorhersagesystem zu erstellen, benötigen Sie etwa 1.000 Toyota Corollas, 1.000 BMW X5s und 1.000 Toyota Camrys.

Ok, Schluss mit Autos.

Wie sieht es mit unserem Aktienkursproblem aus? Wie kann man eine Überschrift in ein Modell aufnehmen?

Es gibt verschiedene Weisen, wie Sie dies tun können. Beginnen wir mit einer binären Darstellung!

Binäre Kodierung

Wir behaupten, dass Sie vor 2000 geboren wurden. Richtig oder falsch?

Jeder, der mit “Ja, richtig” geantwortet hat, erhält eine 1. Denjenigen, die die Antwort “Nein, falsch” gegeben haben, wird eine 0 zugewiesen. Dies ist eine kurze Darstellung einer binären Kodierung.

Im Beispiel mit unserer Aktienkursvorhersage werden die Nachrichtenüberschriften in zwei Kategorien eingeteilt: gut und schlecht. Guten Überschriften wird eine 1 und schlechten Überschriften eine 0 zugewiesen.

Diese Informationen geben uns die Möglichkeit, ein Web zu scannen, Überschriften in der Reihenfolge ihres Erscheinens zu sammeln und diese an unser Modell weiterzuleiten. Wenn man schon am Ende genügend Beispiele hat, spürt man allmählich die Änderungen des Aktienkurses, der auf dem für die Überschrift erhaltenen Wert basiert.

Und mit Hilfe Ihres Modells bemerken Sie eine allgemeine Tendenz: Nach Erscheinen einer schlechten Überschrift sinkt immer der Aktienkurs. Keine Überraschungen.

Selbstverständliche haben wir hier ein sehr einfaches Beispiel angeführt. Binäre Kodierungen sind unfähig, die Intensität einer guten oder schlechten Überschrift widerzuspiegeln. Und wie wäre es mit neutral, sehr gut oder sehr schlecht? Dies ist der Anwendungsbereich der oben beschriebenen Ordinal Encoding.

Den sehr schlechten Schlagzeilen wird eine -2, den schlechten eine -1, den neutralen eine 0, den guten eine 1 und den sehr guten eine 2 zugewiesen. Jetzt ist es sinnvoll, da sehr schlecht + sehr gut = neutral ist.

In diesem Artikel beschrieben wir eine einfache Methode, Wörter in ein Modell des maschinellen Lernens einzugeben. Komplexere Methoden lassen wir dieses Mal außer Acht.

Es sollte noch darauf hingewiesen werden, dass wir heutzutage viele verschiedene Möglichkeiten der Umwandlung der scheinbar nicht numerischen Informationen in etwas, was ein Computer verstehen kann, haben.


Was kann man machen?

Ingenieure, die im Bereich des maschinellen Lernens tätig sind, und Datenwissenschaftler verbringen sehr viel Zeit, indem sie versuchen, wie unser Fisch Alex zu denken.

Alex weiß genau, dass er sicher ist, wenn er bei einer anderen Fischschule bleibt. Er weiß aber auch, dass man viel lernen kann, indem man das Unbekannte untersucht.

Zweifellos ist es sehr leicht, sich nur auf numerische Daten zu verlassen und daraus Erkenntnisse zu gewinnen. Sehr viele Informationen werden jedoch auf verschiedene Weise verborgen.     

Wenn man eine Kombination von numerischen und kategorialen Daten verwenden, wachsen die Chancen, realistischere und hilfreichere Modelle der Welt zu erstellen.

Es ist eine Sache, den Aktienmarkt anhand von Preisinformationen zu modellieren. Es ist jedoch eine ganz andere Sache, wenn man dem Mix noch Nachrichtenüberschriften hinzufügt.

Möchten Sie die gesamte Leistungsfähigkeit Ihrer Daten mit Hilfe von Techniken wie maschinelles Lernen und Datenwissenschaft nutzen, stehen Ihnen mehrere Methoden zur Verfügung, wie Sie dies am optimalsten tun können.

Normalisieren Sie Ihre Daten

In welchem Format speichern Sie Ihre gesammelten Daten?

Viel wichtiger als das Format selbst ist die Einheitlichkeit. Beim Sammeln von Daten ist es wichtig sicherzustellen, dass sie auf dieselbe Weise gespeichert werden.

Dies betrifft sowohl numerische als auch kategoriale Daten, ganz besonders jedoch kategoriale Daten.

Je mehr, desto besser

Ein idealer Datensatz charakterisiert sich durch ein gutes Gleichgewicht zwischen der Kardinalität und Dimensionalität.

Dies bedeutet das Vorhandensein vieler Beispiele für jede einzelne Probe.

Wenn es ums Lernen geht, sind Maschinen nicht so gut wie Menschen. Wenn wir uns Jörg einmal ansehen, erinnern wir uns sofort, wie ein Schwein aussieht. Ein Computer benötigt dagegen Tausende von Beispielen eines Bildes eines Schweins, um sich an das Aussehen eines Schweins zu erinnern.

Im maschinellen Lernen gibt es eine allgemeine Faustregel, die für uns auch sehr aktuell ist: Je mehr (Qualitäts-) Daten es gibt, desto besser sind die Modelle.

Vergessen Sie nicht zu dokumentieren, worauf sich jeder Informationsteil bezieht.

Heutzutage werden immer mehr Daten gesammelt, deshalb ist es für uns sehr wichtig zu verstehen, was die einzelnen Informationen betreffen.

Vor dem Start eines Modells des maschinellen Lernens halten beispielsweise Ingenieure von Max Kelsen enge Kontakte mit Experten, die sich mit den Datensätzen beschäftigen.

Fazit: Ist es wichtig?

Selbstverständlich ist dies sehr wichtig! Was würde es uns bringen, wenn ein Ingenieur im Bereich des maschinellen Lernens ein Modell erstellt, das zu 99% genau ist, aber unbrauchbar ist, da es falsche Vorhersagen erstellt. Oder noch schlimmer: 99%-ige Genauigkeit bei falschen Daten.

Ein gutes Dokumentieren Ihrer Daten kann solches Misslingen verhindern.

Es spielt keine Rolle, ob Sie in Ihrem Unternehmen über numerische Daten, kategoriale Daten oder ihre Kombination verfügen. Möchten Sie das Beste daraus machen, hilft Ihnen gerne das Team von AI-United.de per Email oder in dem Q&A-Bereich.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.