AI-United » Allgemein » Verwendung der explorativen Datenanalyse im E-Commerce

Verwendung der explorativen Datenanalyse im E-Commerce

Untersuchung interessanter Transaktionsmuster verschiedener Kunden und Länder

Im Allgemeinen ist die Datenwissenschaft die Verwendung fortgeschrittener statistischer und maschineller Lernmethoden zur Lösung verschiedener Probleme anhand von Daten. Dabei ist es weitaus einfacher, in den Einsatz einiger ausgefallener Algorithmen des maschinellen Lernens einzutauchen – und fertig! Die Vorhersage ist bereitgestellt – ohne anfängliches Verständnis der Daten zu haben.

Genau hier setzt die Bedeutung der explorativen Datenanalyse (EDA) an, die leider ein häufig unterbewerteter Schritt im Rahmen des datenwissenschaftlichen Prozesses ist. 

Betrachten wir kurz drei Hauptgründe (zumindest), warum EDA heutzutage sehr wichtig ist:

  1. Sicherstellung, dass die Interessengruppen des Unternehmens die richtigen Fragen stellen, indem Daten untersucht und visualisiert werden, sowie Validierung ihrer Geschäftsannahmen, indem sie gründlich untersucht werden.
  2. Erkennen möglicher Anomalien in den Daten, um zu vermeiden, dass falsche Daten einem Modell des maschinellen Lernens bereitgestellt werden. 
  3. Interpretieren der Modellausgabe und Testen seiner Annahmen.

Nun haben wir uns bereit einen kurzen Überblick über die „WAS“- und „WARUM“-Aspekte von EDA verschafft.  Beim nächsten Schritt lassen Sie uns gemeinsam einen Datensatz untersuchen und den „WIE“-Aspekt durchgehen, der uns schließlich dazu führt, einige interessante Muster zu entdecken. Nachfolgend wird dies im Detail betrachtet. 

Das Ziel dieses Artikels ist, einen Überblick über den gesamten Arbeitsablauf von EDA, die Visualisierung und die Ergebnisse zu geben. Um dies zu erreichen, wurde dieser Artikel in folgende 5 Abschnitte eingegliedert:

  1. Kontext der Daten
  2. Datenbereinigung (auch als Datenvorverarbeitung bekannt)
  3. Explorative Datenanalyse
  4. Ergebnisse
  5. Zusammenfassung

Also fangen wir an!

Kontext der Daten

In diesem Artikel wird der von Kaggle erhaltene E-Commerce-Datensatz untersucht. Bevor man sich mit dem Datensatz befasst, sollte man als allererstes verstehen, worum es überhaupt geht. Dies erleichtert uns, ein besseres Verständnis seines Kontextes zu verschaffen. 

Kurzbeschreibung des Datensatzes: Er besteht aus Transaktionsdaten, die Kunden in verschiedenen Ländern umfassen, die bei einem in Großbritannien ansässigen Online-Einzelhandelsunternehmen einkaufen, das seinen Kunden ausgefallene Geschenke für jede Gelegenheit anbietet. Hier ist die Zusammenfassung der Informationen:

  • Unternehmen: In Großbritannien ansässig und als Non-Store-Online-Einzelhandel eingetragen
  • Produktpalette: Überwiegend ausgefallene Geschenke für jede Gelegenheit
  • Kunden: Hauptsächlich Großhändler (lokal oder international)
  • Transaktionszeitraum: Ein Jahr (vom 1. Dezember 2010 bis zum 9. Dezember 2011).

Datenbereinigung 

Wie bekannt sind Daten in der realen Welt chaotisch (Kaggle ist keine Ausnahme!). Deshalb sollte man einige Zeit damit verbringen, die Daten in dem notwendigen Format zu bereinigen. Nachfolgend finden Sie eine Momentaufnahme, wie die Originaldaten nach dem Laden des Datensatzes in einen Datenrahmen aussehen.

Originaldaten

So intuitiv die Variablen (Spaltennamen) auch lauten mögen, macht es Sinn, einen Schritt weiterzugehen und zu erläutern, was mit jeder Variable gemeint ist: 

InvoiceNo (invoice_num): Eine Nummer, die jeder Transaktion zugeordnet ist
StockCode (stock_code): Artikelnummer
Description (description): Produktbezeichung
Quantity (quantity): Anzahl der für jede Transaktion gekauften Produkte
InvoiceDate (invoice_date): Zeitstempel für jede Transaktion
UnitPrice (unit_price): Produktpreis pro Stück
CustomerID (cust_id): Eindeutige Kennung für jeden Kunden
Country (country): Ländername. 

ACHTUNG Es wird angenommen, dass der Produktpreis pro Stück während der gesamten Analyse in der gleichen Währung ist.

Überprüfung fehlender Werte für jede Spalte

So weit, so gut. Man sieht, dass es einige fehlende Werte für Kundennummer (CustomerID) und Beschreibung (Description) gibt. Daher werden diese Zeilen mit jedem der fehlenden Werte entfernt

Beschreibende Statistik der Daten

Beim Verstehen der Daten auf eine anschaulichere Weise sollte man zwei Aspekte beachten:

  1. Menge charakterisiert sich durch negative Werte
  2. Stückpreis charakterisiert sich durch Nullwerte (GRATIS-Artikel?)

Interessant, nicht wahr?

In dieser Phase wird nur die Menge mit negativen Werten entfernt, und der Stückpreis mit Nullwerten wird in einem späteren Abschnitt behandelt.

Der Gesamtbetrag für jeden Einkauf wird durch das Multiplizieren der Menge mit dem Stückpreis berechnet:

amount_spent = quantity * unit_price

Anschließend werden einige Spalten hinzugefügt, die aus Year_Month, Month, Day und Hour für jede Transaktion bestehen, um sie später zu analysieren. Der endgültige Datenrahmen sieht wie folgt aus: 

Endgültiger Datenrahmen

Explorative Datenanalyse

Höchstzahl von Bestellungen und Ausgaben für Einkäufe

Top 5 Kunden mit der größten Anzahl von Bestellungen
Top 5 Kunden mit den höchsten Geldausgaben

Für E-Commerce-Unternehmen ist es sehr wichtig zu wissen, welche Kunden (d.h. woher sie kommen) die Höchstzahl von Bestellungen aufgeben und das meiste Geld für ihre Einkäufe ausgeben, da sie den Umsatz von Unternehmen vorantreiben.

Aus den oben angeführten Datenrahmen lässt sich schließen, dass die meisten Bestellungen in Großbritannien erfolgen und das meiste Geld für die Einkäufe von Kunden aus den Niederlanden ausgegeben wird. 

Anzahl der Bestellungen pro Monat

Anzahl der Bestellungen für verschiedene Monate der erforschenden Periode

Wie man sieht hat das Unternehmen die meisten Bestellungen im November 2011 erhalten, da keine vollständigen Daten für Dezember 2011 zur Verfügung stehen.

Anzahl der Bestellungen pro Tag

Anzahl der Bestellungen für verschiedene Wochentage während des Untersuchungszeitraumes

Es ist sehr erstaunlich, dass keine Transaktionen am Samstag während der gesamten Forschungsperiode (vom 1. Dezember 2010 bis 9. Dezember 2011) getätigt werden. Gründe dafür werden zur Diskussion gestellt, da der Datensatz und sein Kontext sehr begrenzt sind. 

Darüber hinaus lässt sich eine Tendenz erkennen, bei der die Anzahl der Bestellungen, die das Unternehmen erhält, von Montag bis Donnerstag steigt und danach sinkt. 

Anzahl der Bestellungen pro Stunde

Anzahl der Bestellungen für verschiedene Stunden während des Untersuchungszeitraumes

Hinsichtlich der Stunden werden keine Transaktionen zwischen 20:00 Uhr und 06:00 Uhr des nächsten Tages getätigt.

Darüber hinaus stellt das Histogramm dar, dass das Unternehmen um 12:00 Uhr die höchste Anzahl von Bestellungen erhält. Dies lässt sich dadurch erklären, dass die meisten Kunden ihre Einkäufe in der Mittagspause zwischen 12:00 und 14:00 Uhr tätigen. 

Transaktionsmuster für den Stückpreis

Beschreibende Statistik des Stückpreises
Boxplot zum Stückpreis

Bevor man eine besondere Aufmerksamkeit auf die Nullwerte (GRATIS-Artikel) des Stückpreises richtet, wird ein Boxplot erstellt, um die Verteilung des Stückpreises für alle Produkte zu überprüfen. 

Es lässt sich feststellen, dass 75% der Daten einen Stückpreis von weniger als 3,75 US-Dollar haben. Dies weist darauf hin, dass die meisten Artikel relativ günstig sind. Nur sehr wenige von ihnen haben hohe Stückpreise (Auch hier geht man davon aus, dass jeder Preis pro Stück in der gleichen Währung ist). 

Nun… GRATIS-Artikel zum Kaufen? Kann das sein? JA, vielleicht…

Häufigkeit der Verteilung von GRATIS-Artikeln für verschiedene Monate

Das Plot stellt dar, dass das Unternehmen dazu tendiert, gelegentlich monatlich (außer Juni 2011) GRATIS-Artikel für Einkäufe auszugeben

Hier ist allerdings nicht klar, welche Faktoren zur Verteilung von GRATIS-Artikeln an bestimmte Kunden beitragen. Um sich darüber etwas Klarheit zu verschaffen, sollte eine tiefergehende Analyse durchgeführt werden. Oder haben Sie bereits die Gründe dafür herausgefunden?

Transaktionsmuster für jedes Land

Top 5 Länder mit der höchsten Anzahl von Bestellungen

Anzahl der Bestellungen in jedem Land (mit Vereinigtem Königreich)
Anzahl der Bestellungen in jedem Land (ohne Vereinigtes Königreich)

Erwartungsgemäß erfolgen die meisten Bestellungen im Vereinigten Königreich, da das Unternehmen dort ansässig ist. 

Um diese Tendenz besser zu erkennen, wird Vereinigtes Königreich zwischen anderen Ländern entfernt, was einen klareren Vergleich erleichtert. Dementsprechend sind die TOP 5 Länder (einschließlich Vereinigtes Königreich), die die höchste Anzahl von Bestellungen vergeben, wie folgt: 

  • Vereinigtes Königreich
  • Deutschland
  • Frankreich
  • Irland 
  • Spanien.

Top 5 Länder mit den höchsten Geldausgaben

Gesamtausgaben der einzelnen Länder (mit Vereinigtem Königreich)
Gesamtausgaben der einzelnen Länder (ohne Vereinigtes Königreich)

Da die meisten Bestellungen von Kunden im Vereinigten Königreich getätigt werden, ist es natürlich, dass Kunden aus Großbritannien das meiste Geld für ihre Einkäufe ausgeben. 

Wie zuvor wird Vereinigtes Königreich zwischen anderen Ländern entfernt, um einen klareren Vergleich zu bekommen. Die Liste der TOP 5 Länder (einschließlich Vereinigtes Königreich), die das meiste Geld für ihre Einkäufe ausgeben, sieht wie folgt aus: 

  • Vereinigtes Königreich
  • Niederlande
  • Irland 
  • Deutschland
  • Frankreich

Ergebnisse der explorativen Datenanalyse

  1. Der Kunde mit der Höchstzahl von Bestellungen kommt aus Vereinigtem Königreich (UK)
  2. Der Kunde mit den höchsten Geldausgaben für Einkäufe kommt aus den Niederlanden
  3. Da das Unternehmen im Vereinigten Königreich ansässig ist, erhält es die meisten Bestellungen von Kunden im Vereinigten Königreich. Die Liste von TOP 5 Ländern (einschließlich Vereinigtes Königreich) mit der höchsten Anzahl von Bestellungen sieht daher wie folgt aus: Vereinigtes Königreich, Deutschland, Frankreich, Irland, Spanien 
  4. Da das Unternehmen im Vereinigten Königreich ansässig ist und folglich die meisten Bestellungen von britischen Kunden getätigt werden, geben gerade Kunden im Vereinigten Königreich das meiste Geld für ihre Einkäufe aus. Daher sieht die Liste von TOP 5 Ländern (einschließlich Vereinigtes Königreich), die das meiste Geld für ihre Einkäufe ausgeben, wie folgt aus: Vereinigtes Königreich, Niederlande, Irland, Deutschland, Frankreich 
  5. November 2011 ist der umsatzstärkste Monat. Der umsatzärmste Monat kann nicht bestimmt werden, da der Datensatz nur Transaktionen bis zum 9. Dezember 2011 umfasst
  6. Im Untersuchungszeitraum werden samstags keine Transaktionen getätigt
  7. Man stellt eine deutliche Tendenz fest, bei der die Anzahl der vom Unternehmen erhaltenen Bestellungen von Montag bis Donnerstag steigt und danach allmählich sinkt
  8. Die meisten Bestellungen gehen um 12:00 Uhr ein. Möglicherweise tätigen die meisten Kunden ihre Einkäufe in der Mittagspause zwischen 12:00 und 14:00 Uhr 
  9. Es lässt sich eine weitere Tendenz feststellen, bei der das Unternehmen gelegentlich monatlich (außer im Juni 2011) GRATIS-Artikel für Einkäufe ausgibt. Es sollte jedoch erforscht werden, aus welchen Gründen die GRATIS-Artikel an bestimmte Kunden verteilt werden

Zusammenfassung

Unglaublich!

Allein durch die Durchführung der explorativen Datenanalyse (EDA) am Datensatz wurden einige interessante Ergebnisse ermittelt. Natürlich sollten sie nicht hier aufhören. Diese Ergebnisse finden ihre weitere Anwendung bei der Validierung der Geschäftsannahmen (falls vorhanden), beim Interpretieren der Ergebnisse eines maschinellen Lernmodells und in vielen anderen Fällen!

Denken Sie daran, dass Kreativität Ihre Grenze bei der Durchführung von EDA ist. Und dies ist von vielen Faktoren abhängig wie beispielsweise Ihrem Geschäftsverständnis, Ihrer Neugierde, spannende Fragen zu stellen, um Annahmen zu hinterfragen und zu validieren, oder Ihrer Intuition. 

Hoffentlich wird die EDA durch die Darstellung des gesamten Arbeitsablaufs von EDA, der Visualisierung und Ergebnisse für Sie weniger einschüchternd und Sie werden zukünftig mehr daran interessiert sein, sich beim nächsten Mal die Hände schmutzig zu machen.

Möchten Sie mehr über die Anwendung der explorativen Datenanalyse im E-Commerce erfahren, können sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.