AI-United » Allgemein » Datensätze zur Verfolgung von Objekten auf Video

Datensätze zur Verfolgung von Objekten auf Video

Datensätze zur Verfolgung von Objekten auf Video

Deep Learning liegt der modernen Verfolgung von Objekten auf Video zugrunde. Bis heute mangelt es an großen Datensätzen zum Lehren von Algorithmen der Verfolgung. Die bekannten Datensätze (zum Beispiel, VOT und OTB) sind klein und spiegeln die Probleme von wahren Aufgaben der Trackings nicht in vollem Umfang wider.

In diesem Artikel berichten wir über drei neulich entwickelte Datensätze zur Verfolgung von Objekten auf Video. Sie unterscheiden sich in der Größe, dem Typ von Tags und anderen Eigenschaften. TrackingNet ist der erste große Datensatz zur Verfolgung von Objekten in der natürlichen Umgebung. MOT17 ist das Benchmark zur Verfolgung von einigen Objekten. Need for Speed ist der erste Datensatz von Videos mit dem Benchmark der hohen Bildfrequenz.

TrackingNet

  • Anzahl der Videos: 30.132 (zum Lehren) + 511 (zum Testen)
  • Anzahl von Annotationen: 14.205.677 (zum Lehren) + 225.589 (zum Testen)
  • Erscheingungsjahr: 2018
Beispiele aus dem Datensatz TrackingNet

TrackingNet ist der erste große Datensatz zur Verfolgung von Objekten in der natürlichen Umgebung. Er enthält mehr als 30 Tausend Videoclips mit der Durchschnittsdauer von 16,6 Sekunden und mehr als 14 Millionen Marken der Tiefe. Der Datensatz enthält ein breites Spektrum von Objektklassen.

Die Vorteile von TrackingNet:

  • Die Größe dieses Datensatzes lässt Deep Learning Netzwerke zur Verfolgung entwickeln;
  • Dieser Datensatz wurde gezielt zur Verfolgung von Objekten geschafft, sie erlaubt es den Netzwerken sich auf dem zeitlichen Zusammenhang zwischen den aufeinanderfolgenden Bildbereichen fokussieren;
  • Der Datensatz wurde aus den Videoclips von YouTube gesammelt, er enthält viele Bildbereiche, Videos von verschiedener Auflösung und viele Objektklassen.

Das Set zum Lehren von TrackingNet wurde aus YouTube-Bounding Boxes (YT-BB) gesammelt, der große Datensatz zur Verfolgung von Objekten mit 300.000 Videoclips, es gibt einen Tag auf jeder Sekunde: das begrenzende Rechteck. Um TrackingNet zu schaffen, haben die Forscher 90% Videoclips abgefiltert, die Videoclips ausgewählt, die: a) länger als 15 Sekunden dauern; b) Grenzen haben, die weniger als 50% des Bildes abtrennen; c) die vernünftige Anzahl von Bewegungen zwischen den begrenzenden Rechtecken enthalten.

Um die Dichte von Tags auf 1 Bild pro Sek. bei YT-BB zu steigern, verlassen sich die Autoren von TrackingNet auf einige moderne Trackers. Die Forscher haben 30.132 Videoclips mit Tags erhalten, indem sie den Tracker DCF verwendeten.

Das Vergleichen des Datensatzes zur Verfolgung der Anzahl von Videoclips, der durchschnittlichen Dauer von Videoclips und der Anzahl von Tags

Der Datensatz TrackingNet enthält das neue Benchmark, das aus 511 Videoclips besteht, die auf YouTube mit der Lizenz Creative Commons neulich publiziert wurden, sie heißen YT-CC. Diese Videoclips wurden mit Hilfe von Amazon Mechanical Turk markiert.

Die Autoren von TrackingNet haben eine gute Vorleistung zur Entwicklung von Trackers von Objekten gesichert.

MOT17

  • Anzahl von Videos: 21 (zum Lehren) + 21 (zum Testen)
  • Anzahl von Annotationen: 564 228
  • Erscheinungsjahr: 2017
Beispiele aus dem Datensatz MOT17

MOT17 (Multiple Object Tracking) ist die erweiterte Version des Datensatzes MOT16 mit neuen und präziseren Marken. In diesem Datensatz wird die besondere Aufmerksamkeit auf die Verfolgung von einigen Objekten gelenkt. Der Kontext des Datensatzes MOT Challenge, einschließlich das letzte MOT17, ist auf die Verfolgung von Objekten auf den Straßen der Stadt beschränkt.

Das neue Benchmark MOT17 besteht aus 42 Reihenfolgen mit einigen Menschen, Gesichtswinkeln und Witterungsbedingungen. Das Annotieren von Reihenfolgen wurde von qualifizierten Forschern laut strengen Protokollen durchgeführt. Um maximale Präzision zu sichern, wurden sie alle zweimal nachgeprüft. Im Datensatz werden nicht nur Fußgänger, sondern auch Verkehrsmittel, sitzende Menschen, verschließende Objekte und andere relevante Objektklassen markiert.

Überblick von annotierten Klassen und das Beispiel vom annotierten Frame

Die Forscher haben einige Klassen als Zielklassen ausgewählt, die auf dem oberen Bild mit der orangenen Farbe markiert sind. Diese Klassen sind zur Bewertung am wichtigsten. Die Klassen, die mit der roten Farbe markiert sind, enthalten nicht eindeutige Fälle. In diesen Fällen beeinflusst die An- oder Abwesenheit von Objekten die Bewertung nicht. Grüne Klassen werden zum Lehren und der Berechnung der Okklusion von allen Fußgängern markiert.

Das Beispiel des markierten Bildes zeigt, wie teilweise abgeschnittene Objekte markiert werden. Das ist auch wichtig, da der begrenzende Rahmen den ganzen Menschen umfasst.

Die große Anzahl von Tags, die der Datensatz MOT17 zur Verfügung stellt, kann zur Entwicklung von präzisen Methoden der Verfolgung ganz nützlich sein.

NfS

  • Anzahl von Videos: 100
  • Anzahl von Marken: 383 000
  • Erscheinungsjahr: 2017
Der Effekt der Verfolgung mit der höheren Bildfrequenz

NfS (Need for Speed) ist der erste Datensatz mit Bilddaten mit der hohen Bildfrequenz und das Benchmark zum Verfolgen von Objekten. Sie enthält 100 Videoclips, die aus 380.000 Bildern besteht, die von den 240 FPS-Kammern gemacht wurden.

Zur Erstellung dieses Datensatzes wurden 75 Videoclips unter Einsatz von iPhone 6 (oder neueren Versionen) und iPad Pro gemacht, auch wurden 25 Videoclips aus YouTube gesammelt. Verkehrsmittel, Menschen, Gesichter, Tiere, Flugzeuge, Boote und andere Objekte — Bälle, Tassen, Handtaschen stellten die Ziele zur Verfolgung dar.

Die Bildfelder in der Datenbasis NfS werden mit den ausgeglichenen Grenzen mit der Verwendung der Werkzeugleiste VATIC markiert. Alle Videoclips wurden mit neun visuellen Attributen markiert: die Okklusion, die Veränderung der Beleuchtung, des Maßstabs, des Gesichtswinkels, die Deformation von Objekten, die schnelle Bewegung, das Befinden außer Sichtweite, Hintergrundbeleuchtung und niedrige Auflösung.

Der Vergleich von Bildfeldern mit minimaler (der grüne Rahmen) und maximaler Bildfrequenz (der rote Rahmen).  Wahre Tags haben den blauen Rahmen

Das Benchmark NfS gibt die Möglichkeit moderne Trackers bei der höheren Bildfrequenz zu gebrauchen. Es ist bemerkenswert, dass bei der höheren Bildfrequenz einfache Trackers, wie Korrelationsfilter, komplizierte Deep Learning Algorithmen übertreffen.

Die Schlussfolgerung

Der Nachteil von großen Datensätzen zur Verfolgung von Objekten bedingt die Situationen, wenn die Trackers von Objekten (die auf den Deep Learning Algorithmen basieren) auf den Datensätzen zur Detektion von Objekten gelehrt werden. Diese Begrenzung beeinflusst die Qualität der Aufgabenlösung der Verfolgung negativ. Die neulich entstandenen Datensätze (insbesondere der Datensatz TrackingNet) ermöglichen die Erstellung von leistungsfähigeren Trackers.

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.