AI-United » Allgemein » Die Forscher aus OpenAI haben eine neue Methode vorgeschlagen, um die Standfestigkeit von GAN gegenüber gegnerischen Angriffen zu bewerten

Die Forscher aus OpenAI haben eine neue Methode vorgeschlagen, um die Standfestigkeit von GAN gegenüber gegnerischen Angriffen zu bewerten

UAR ist eine Methode zur Einschätzung der Standfestigkeit des Klassifikators gegen eher unbekannte gegnerische Angriffe von OpenAI. Die Verlustfunktion Unforeseen Attack Robustness bewertet, wie ein Neuronennetz mit verzerrten Bildern umgeht. Auf solche Weise kann man die Stabilität der Modellvorhersagen verbessern.

Gegnerische Angriffe sind Beispiele der Bilder, die vom Neuronennetz falsch erkannt werden. Ein Beispiel ist das Originalbild, das das Neuronennetz richtig erkennt und dem Rauschen hinzugefügt wird. 

Zum Beispiel bezeichnet ein Neuronennetz das Bild der Katze als Katze (mit der Wahrscheinlichkeit von über 90%). Ein verzerrtes Bild der Katze rechnet das Neuronennetz mit hoher Wahrscheinlichkeit der falschen Klasse zu.

Moderne Neuronennetze liefern genaue Resultate für viele Aufgaben. Aber solche Modelle sind oft unstabil gegenüber verzerrten Bildern. Zum Beispiel unterscheidet sich die L_∞-Verzerrung vom Originalbild um 32 in der Pixelhelligkeit. Ein Mensch kann die origalen  und verzerrten Bilder vergleichen, das Standardneuronennetz unterscheidet sie.

Alle Arten vom Rauschen, die den Bildern hinzugefügt wurden

Früher wurde die Standfestigkeit des Neuronennetzes auf der Grundlage einer unbekannten Verzerrungsart getestet. Dies gibt eine unvollständige Vorstellung über die Beschränkungen der generalisierenden Fähigkeit des Modells.

Der Schwerpunkt von UAR

UAR ist eine Metrik der Widerstandsfähigkeit des Modells gegen gegnerische Angriffe, auf die es nicht trainiert wurde. Diese Methode besteht aus drei Schritten. Die bisher unbekannten Angriffe werden eingeschätzt. Die Resultate werden mit dem Schutzsystem verglichen, wo die Information über die Art der Verzerrung gespeichert wird.

Es handelt sich um folgende Schritte:

  1. Die Bewertung des Modells mit vier Typen von Verzerrungen: L1, L2-JPEG, Elastic, Fog. Die Kenntnisse darüber, wie das Modell mit den Angriffen umgeht, sind komplementär, weil sich die Arten der Verzerrung wesentlich voneinander unterscheiden; 
  2. Das Auswählen eines weiten Spektrums der Verzerrungskräfte, die vom gegnerisch trainierten Modell ausgewählt werden; 
  3. Der Vergleich der Ergebnisse des Modells, das nicht auf gegnerischen Beispielen trainiert wurde, mit den Ergebnissen des Modells, das auf gegnerischen Beispielen trainiert wurde (die Metrik UAR wird verwendet). 

Wenn die Metrik UAR in der Nähe von 100 liegt, sind die Resultate des Modells auf unbekannten gegnerischen Angriffen mit dem Modell vergleichbar, das gegnerisch trainiert wurde.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.