AI-United » Allgemein » Die Forscher aus OpenAI haben eine neue Methode vorgeschlagen, um die Standfestigkeit von GAN gegenüber gegnerischen Angriffen zu bewerten

Die Forscher aus OpenAI haben eine neue Methode vorgeschlagen, um die Standfestigkeit von GAN gegenüber gegnerischen Angriffen zu bewerten

UAR ist eine Methode zur Einschätzung der Standfestigkeit des Klassifikators gegen eher unbekannte gegnerische Angriffe von OpenAI. Die Verlustfunktion Unforeseen Attack Robustness bewertet, wie ein Neuronennetz mit verzerrten Bildern umgeht. Auf solche Weise kann man die Stabilität der Modellvorhersagen verbessern.

Gegnerische Angriffe sind Beispiele der Bilder, die vom Neuronennetz falsch erkannt werden. Ein Beispiel ist das Originalbild, das das Neuronennetz richtig erkennt und dem Rauschen hinzugefügt wird. 

Zum Beispiel bezeichnet ein Neuronennetz das Bild der Katze als Katze (mit der Wahrscheinlichkeit von über 90%). Ein verzerrtes Bild der Katze rechnet das Neuronennetz mit hoher Wahrscheinlichkeit der falschen Klasse zu.

Moderne Neuronennetze liefern genaue Resultate für viele Aufgaben. Aber solche Modelle sind oft unstabil gegenüber verzerrten Bildern. Zum Beispiel unterscheidet sich die L_∞-Verzerrung vom Originalbild um 32 in der Pixelhelligkeit. Ein Mensch kann die origalen  und verzerrten Bilder vergleichen, das Standardneuronennetz unterscheidet sie.

Alle Arten vom Rauschen, die den Bildern hinzugefügt wurden

Früher wurde die Standfestigkeit des Neuronennetzes auf der Grundlage einer unbekannten Verzerrungsart getestet. Dies gibt eine unvollständige Vorstellung über die Beschränkungen der generalisierenden Fähigkeit des Modells.

Der Schwerpunkt von UAR

UAR ist eine Metrik der Widerstandsfähigkeit des Modells gegen gegnerische Angriffe, auf die es nicht trainiert wurde. Diese Methode besteht aus drei Schritten. Die bisher unbekannten Angriffe werden eingeschätzt. Die Resultate werden mit dem Schutzsystem verglichen, wo die Information über die Art der Verzerrung gespeichert wird.

Es handelt sich um folgende Schritte:

  1. Die Bewertung des Modells mit vier Typen von Verzerrungen: L1, L2-JPEG, Elastic, Fog. Die Kenntnisse darüber, wie das Modell mit den Angriffen umgeht, sind komplementär, weil sich die Arten der Verzerrung wesentlich voneinander unterscheiden; 
  2. Das Auswählen eines weiten Spektrums der Verzerrungskräfte, die vom gegnerisch trainierten Modell ausgewählt werden; 
  3. Der Vergleich der Ergebnisse des Modells, das nicht auf gegnerischen Beispielen trainiert wurde, mit den Ergebnissen des Modells, das auf gegnerischen Beispielen trainiert wurde (die Metrik UAR wird verwendet). 

Wenn die Metrik UAR in der Nähe von 100 liegt, sind die Resultate des Modells auf unbekannten gegnerischen Angriffen mit dem Modell vergleichbar, das gegnerisch trainiert wurde.

Quelle
AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410