AI-United » Allgemein » Interview-Fragen zu Data Science and Machine Learning

Interview-Fragen zu Data Science and Machine Learning

Interview-Fragen zu Data Science and Machine Learning

Sind Sie der Meinung, dass Sie alles über Data Science und Machine Learning wissen? Sie haben kein Recht. In den letzten Monaten habe ich mit vielen Unternehmen für Einstiegsaufgaben in den Bereichen von Data Science und Machine Learning interviewt. Es gibt aber weitere wichtige Fragen, die wir jetzt in unserem Interview betrachten werden. Ich glaube, dass die Antworten helfen werden, Ihren Traumberuf zu finden.

Was ist Datennormalisierung und warum brauchen wir sie?

Datennormalisierung ist ein sehr wichtiger Vorverarbeitungsschritt, der zur Neuskalierung von Werten verwendet wird, um eine bessere Konvergenz während der Backpropagation sicherzustellen. Im Allgemeinen läuft es darauf hinaus, den Mittelwert jedes Datenpunkts zu subtrahieren und durch seine Standardabweichung zu dividieren. Wenn wir das nicht machen, werden einige Funktionen in der Kostenfunktion stärker gewichtet. Wenn sich eine Funktion mit einer höheren Stärke um 1% ändert, ist diese Änderung ziemlich groß, bei kleineren Merkmalen jedoch ziemlich unbedeutend. Durch die Datennormierung werden alle Merkmale gleich gewichtet.

Was versteht man unter Dimensionsreduktion?

Die Dimensionsreduktion ist ein Prozess, bei dem die Anzahl der betrachteten Merkmalsvariablen reduziert wird.  Die Wichtigkeit eines Features hängt davon ab, inwieweit die Feature-Variable zur Informationsdarstellung der Daten beiträgt, und hängt davon ab, welche Technik Sie verwenden möchten. Die Entscheidung für die zu verwendende Technik hängt von Versuch, Irrtum und Präferenz ab. Die Verringerung der Dimensionalität für einen Datensatz kann folgende Vorteile haben: (1) Reduzieren wir den erforderlichen Speicherplatz. (2) Beschleunigen wir eine Berechnung (z. B. bei maschinellen Lernalgorithmen). (3) Entfernen wir redundante Funktionen. Es macht keinen Sinn, die Größe eines Geländes sowohl in Quadratmetern als auch in Quadratmeilen zu speichern (möglicherweise war die Datenerfassung fehlerhaft). (4) Wenn wir die Bemaßung der Daten auf 2D oder 3D reduzieren, können wir sie möglicherweise zeichnen und visualisieren. (5) Zu viele Funktionen oder ein zu komplexes Modell kann zu einer Überanpassung führen.

Wie gehen Sie mit fehlenden oder beschädigten Daten in einem Datensatz um?

Sie könnten fehlende / beschädigte Daten in einer Datenmenge finden und entweder diese Zeilen oder Spalten löschen oder sie durch einen anderen Wert ersetzen. In Pandas gibt es zwei sehr nützliche Methoden: isnull() und dropna(), mit denen Sie Datenspalten mit fehlenden oder beschädigten Daten finden und diese Werte löschen können. Wenn Sie die ungültigen Werte mit einem Platzhalterwert (z. B. 0) füllen möchten, können Sie die Methode fillna() verwenden.

Was bedeutet Clusteranalyse?

Bei dem populären Artikel über 5 Clustering-Algorithmen die jeder Data Scientists wissen muss, werden diese ausführlich mit großartigen Visualisierungen zu erklären.

Wie würden Sie eine Exploratory Data Analysis (EDA) durchführen?

Das Ziel einer EDA ist es, einige Erkenntnisse aus den Daten zu gewinnen, bevor Sie Grundsätzlich möchten Sie Ihre EDA grob bis fein machen. Wir beginnen damit, einige globale Erkenntnisse auf höchster Ebene zu gewinnen. Schauen Sie sich einige unausgewogene Klassen an. Betrachten Sie den Mittelwert und die Varianz der einzelnen Klassen. Schauen Sie sich die ersten Zeilen an, um herauszufinden, worum es geht. Führen Sie einen Pandas df.info () aus, um zu sehen, welche Features kontinuierlich, kategorial, deren Typ (int, float, string) sind. Löschen Sie als Nächstes unnötige Spalten, die für die Analyse und Vorhersage nicht nützlich sind. Dies können einfach Spalten sein, die unbrauchbar aussehen, in denen viele Zeilen den gleichen Wert haben (d. h. Sie liefern uns nicht viele Informationen) oder es fehlen viele Werte. Wir können auch fehlende Werte mit dem häufigsten Wert in dieser Spalte oder dem Median ausfüllen. Jetzt können wir einige grundlegende Visualisierungen erstellen. Beginnen Sie mit High-Level-Sachen. Führen Sie einige Balkendiagramme für kategoriale Funktionen mit wenigen Gruppen aus. Barpläne der Abschlussklassen. Schauen Sie sich die meisten “allgemeinen Funktionen” an. Erstellen Sie einige Visualisierungen zu diesen einzelnen Funktionen, um grundlegende Einblicke zu erhalten. Jetzt können wir anfangen, genauer zu werden. Erstellen Sie Visualisierungen zwischen zwei oder drei Features gleichzeitig. Wie hängen Funktionen zusammen? Sie können auch eine PCA durchführen, um zu sehen, welche Funktionen die meisten Informationen enthalten. Gruppieren Sie einige Funktionen, um deren Beziehungen zu sehen. Was passiert beispielsweise mit den Klassen, wenn A = 0 und B = 0 ist? Wie wäre es mit A = 1 und B = 0? Vergleichen Sie verschiedene Funktionen. Wenn Feature A beispielsweise “Female” oder “Male” sein kann, können Sie Feature A in der Kabine darstellen, in der sie sich aufhielten, um zu sehen, ob Männer und Frauen in verschiedenen Kabinen bleiben. Neben Balken, Streuungen und anderen grundlegenden Darstellungen können wir PDF / CDF, überlagerte Darstellungen usw. erstellen. Sehen Sie sich einige Statistiken wie Verteilung, p-Wert usw. an. Schließlich ist es an der Zeit, das ML-Modell zu erstellen. Beginnen Sie mit einfacheren Sachen wie Naive Bayes und Lineare Regression. Wenn Sie feststellen, dass diese Daten saugen oder die Daten in hohem Maße nicht linear sind, verwenden Sie die polynomiale Regression, Entscheidungsbäume oder SVMs. Die Funktionen können nach ihrer Bedeutung aus der EDA ausgewählt werden. Wenn Sie viele Daten haben, können Sie ein neuronales Netzwerk verwenden. Überprüfen Sie die ROC-Kurve. Präzision, Rückruf.

Das Hauptwerkzeug der Explorativen Datenanalyse ist die Interaktive Statistische Graphik (ISG), mit der es möglich ist, auf schnelle und interaktive Weise, Datensätze zu manipulieren und grafisch darzustellen. Gerade im Umgang mit realen Datensätzen und einem Kontext zeigt die Explorative Datenanalyse ihre Stärken und Vorteile. Damit wird es möglich, Ansatzpunkte für komplexe Probleme zu finden, die jenseits von Schulbuchbeispielen oder konstruierten Beispielen für statistische Verfahren liegen. Da gerade der Modellbildungsprozess und die erste Auswertung der Daten beim Lernenden und beim Forschenden die meisten Probleme hervorbringen, scheint es ein lohnender Ansatzpunkt zu sein, die interaktive statistische Graphik an realen Datensätzen im Lernbereich einzusetzen. Man muss einige Visualisierungen zu diesen einzelnen Funktionen finden, um grundlegende Einblicke zu erhalten. Jetzt können wir anfangen, genauer zu werden. Erstellen Sie Visualisierungen zwischen zwei oder drei Features gleichzeitig. Wie hängen Funktionen zusammen? Sie können auch eine PCA durchführen, um zu sehen, welche Funktionen die meisten Informationen enthalten. Gruppieren Sie einige Funktionen, um deren Beziehungen zu sehen.

Warum verwenden wir Faltungen für Bilder anstatt nur FC-Ebenen?

Diese Antwort besteht aus zwei Teilen. Erstens, man muss Formen bewahren, kodieren und die räumlichen Informationen aus dem Bild verwenden. Zweitens, man muss Convolutional Neural Networks (CNNs) haben.

Was macht die Übersetzung von CNNs unveränderlich?

Stellen Sie vor, dass Sie machen Objekterkennung. Es spielt keine Rolle, wo sich das Objekt befindet, sondern wie wir die Faltung in einem gleitenden Fenster sehen.

Warum haben wir ein Maximum an Pooling bei CNNs?

Mit dem Max-Pooling in einem CNN können Sie die Berechnung reduzieren. Sie verlieren nicht zu viele semantische Informationen, da Sie die maximale Aktivierung vornehmen. Es gibt auch eine Theorie, dass Max-Pooling ein bisschen dazu beiträgt, CNNs mehr Invariation der Übersetzung zu verleihen. Schauen Sie sich dieses großartige Video von Andrew Ng über die Vorteile von Max-Pooling an (https://www.coursera.org/lecture/convolutional-neural-networks/pooling-layers-hELHk).

Warum haben Segmentierungs-CNNs einen Encoder-Decoder-Stil / eine Struktur?

Der Encoder CNN kann grundsätzlich als ein Merkmalsextraktionsnetzwerk betrachtet werden, während der Dekodier diese Informationen verwendet, um die Bildsegmente vorherzusagen, indem er die Merkmale “dekodiert” und die ursprüngliche Bildgröße hochskaliert.

Was ist Batch-Normalisierung und warum funktioniert es?

Die Batch-Normalisierung funktioniert am besten nach der Aktivierungsfunktion. Sie wurde entwickelt, um eine interne Kovariatenverschiebung zu verhindern. Interne Kovariatenverschiebung tritt auf, wenn sich die Verteilung der Aktivierungen einer Schicht während des Trainings signifikant verschiebt. Die Batch-Normalisierung wird verwendet, so dass die Verteilung der Eingaben (und diese Eingaben sind buchstäblich das Ergebnis einer Aktivierungsfunktion) auf eine bestimmte Ebene im Laufe der Zeit aufgrund von Parameteraktualisierungen von jedem Batch nicht geändert wird in vorteilhafter Weise). Es verwendet Stapelstatistiken, um die Normalisierung durchzuführen, und verwendet dann die Batch-Normalisierungsparameter (Gamma und Beta im Original), um sicherzustellen, dass die in das Netzwerk eingefügte Transformation die Identitätstransformation darstellen kanns.

Schlussfolgerung

Welche Antworten zu Machine Learning möchten Sie noch bekommen?

Welche Fragen bekommen Sie meistens im Bereich AI?

Auf diese und weitere Fragen antwortet gerne das AI United Team per Email oder in dem Q&A Bereich.


AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410