Mantra-Net Rilevamento di manipolazione immagini
ManTra-Net: Rete di tracciamento della manipolazione per il rilevamento e la localizzazione di immagini falsificate con caratteristiche anomale.
Per combattere la falsificazione di immagini nella vita reale, che comunemente coinvolge tipi diversi e manipolazioni combinate, proponiamo un’architettura neurale profondamente unificata chiamata ManTraNet. A differenza di molte soluzioni esistenti, ManTra-Net è una rete end-to-end che esegue sia il rilevamento che la localizzazione senza ulteriore pre-elaborazione e post-elaborazione. ManTra-Net è una rete completamente inclusiva e gestisce immagini di dimensioni arbitrarie e molti tipi di falsi noti come splicing, copy-move, rimozione, miglioramento e persino tipi sconosciuti. Questo documento ha tre contributi salienti. Progettiamo un’attività di apprendimento auto-supervisionato semplice ma efficace, per apprendere tracce di manipolazione delle immagini robuste dalla classificazione di 385 tipi. Inoltre, formuliamo il problema di localizzazione della contraffazione come un problema di rilevamento di anomalie locali, progettiamo una funzione Z-score per catturare l’anomalia locale e proponiamo una nuova soluzione di memoria a lungo termine per valutare le anomalie locali. Infine, conduciamo con attenzione esperimenti di ablazione per ottimizzare sistematicamente il progetto di rete proposto. I nostri ampi risultati sperimentali dimostrano la validità esterna, la robustezza e la superiorità di ManTra-Net, non solo nei singoli tipi di manipolazioni/falsi, ma anche nelle loro complicate combinazioni.
1. Introduzione di Mantra-Net
La contraffazione delle immagini è recentemente diventata un’epidemia, che ha influenzato negativamente molti aspetti della nostra vita, ad es. notizie false, voci su Internet, frodi assicurative, ricatti e persino pubblicazioni accademiche. Tuttavia, la maggior parte dei casi di falsificazioni di immagini non viene rilevata. Solo nelle pubblicazioni di ricerca biomedica, il 3,8% di 20.621 articoli (pubblicati su 40 riviste scientifiche dal 1995 al 2004) conteneva cifre problematiche, con almeno la metà che mostrava caratteristiche che suggeriscono una manipolazione deliberata. È quindi imperativo sviluppare nuovi algoritmi per aiutare nella lotta contro la manipolazione delle immagini e la contraffazione. Esistono molte tecniche di falsificazione di immagini. Tuttavia, splicing, copy-move, rimozione e miglioramento sono i quattro che sono stati studiati di più. Sia lo splicing che il copy-move implicano l’incollatura del contenuto nell’immagine di destinazione (cioè contraffatta). Tuttavia, nello splicing il contenuto aggiunto è ottenuto da un’immagine diversa, mentre nel copy-move proviene dall’immagine di destinazione stessa. La rimozione, nota anche come inpainting, rimuove una regione dell’immagine selezionata (ad es. nascondere un oggetto) e riempie lo spazio con nuovi valori di pixel stimati dallo sfondo. Infine, il miglioramento dell’immagine consiste in un’ampia raccolta di manipolazioni locali, come nitidezza, regolazione della luminosità, ecc.
A seconda delle caratteristiche del falso, diversi indizi possono essere utilizzati come base per il rilevamento/localizzazione. Questi indizi includono artefatti di compressione JPEG [25, 30, 5], incongruenze dei bordi [39, 53], pattern di rumore [33, 49, 20], coerenza del colore [21], somiglianza visiva [44, 45, 46], coerenza EXIF [28] e modello di fotocamera [14, 13]. Tuttavia, i falsi nella vita reale sono più complessi, come illustrato nella Fig. 1, e i falsar spesso usano una sequenza di manipolazioni per nascondere il falso, comprese tecniche aggiornate come lo scambio di volti basato su rete neurale profonda (DNN) [36 , 57], come mostrato in Fig. 1-(c). Questo ci costringe a sviluppare nuove tecniche unificate di rilevamento dei falsi che non si limitano a uno o più tipi di manipolazione noti ma sono in grado di gestire tipi più complicati e/o sconosciuti. Un altro problema che è stato spesso trascurato è la localizzazione della regione contraffatta. La maggior parte dei metodi esistenti [9, 25, 37, 38, 49] si concentra solo sul rilevamento a livello di immagine, indipendentemente dal fatto che un’immagine sia contraffatta o meno. Inoltre, i metodi che forniscono capacità di localizzazione spesso si basano su pre- e/o post-elaborazioni pesanti e dispendiose in termini di tempo, ad es. estrazione di patch [53], massimizzazione delle aspettative [19, 20], clustering delle funzionalità [14, 11, 32, 28], segmentazione [32, 28, 15], ecc. Infine, la disconnessione tra l’apprendimento delle caratteristiche e la generazione di maschere contraffatte suggerisce un metodo di rilevamento e localizzazione della contraffazione non ottimizzato. In questo documento affrontiamo i problemi sopracitati, e proponiamo una nuova soluzione chiamata ManTra-Net per la localizzazione/rilevamento di falsificazioni di immagini generalizzate (IFLD). Essa rileva i pixel contraffatti identificando caratteristiche anomale locali e quindi non si limita a un tipo specifico di contraffazione o manipolazione. È una soluzione end-to-end e quindi non è necessario applicare pre e/o post-elaborazione. È anche composta da tutti i moduli addestrabili, quindi tutti i moduli possono essere ottimizzati congiuntamente per il compito IFLD. Il resto di questo articolo è organizzato come segue. Sez. 2 discute i lavori correlati e fornisce la panoramica di ManTra-Net. Sez. 3 presenta il nostro studio per ottenere caratteristiche di tracciatura di manipolazione dell’immagine robusta. Sez. 4 propone la nostra rete locale di rilevamento delle anomalie. Sez. 5 mostra i nostri risultati sperimentali; e concludiamo questo lavoro nella Sez. 6.
2. Rete di tracciamento della manipolazione Mantra-Net
2.1. Lavori correlati a Mantra-Net
La tabella 1 riassume il più notevole lavoro di rilevamento e localizzazione di falsi di immagini negli ultimi quattro anni. Diversi Tabella 1. Riepilogo dei recenti metodi IFLD. I metodi non DNN sono etichettati come N/d. I metodi di solo rilevamento sono etichettati come –. PP sta per pre/post-elaborazione e i tipi di contraffazione target sono codificati a colori come segue: splicing, copy-move, Removal e Ktype miglioramento. si possono osservare tendenze — (1) vengono utilizzate varietà di indizi/caratteristiche, che vanno da caratteristiche artigianali, come la correlazione DCT a caratteristiche DNN apprese completamente implicite, (2) anche se i metodi DNN stanno diventando più popolari, nessuna architettura DNN dominante, o più precisamente, quasi nessuno dei due approcci DNN adotta la stessa architettura di rete e (3) la maggior parte dei metodi si concentra su un tipo specifico di contraffazione. Una rassegna più completa può essere trovata in [6].
2.2. Panoramica di Mantra-Net
Come mostrato in Fig. 2, la soluzione ManTra-Net proposta è composta da due sottoreti, vale a dire, l’estrattore di funzionalità di tracciamento di manipolazione dell’immagine che crea una rappresentazione di funzionalità unificata e la rete di rilevamento delle anomalie locali (LADN) per la localizzazione diretta regioni contraffatte senza postelaborazione. Diamo tre importanti contributi alla comunità dell’IFLD. In primo luogo, reinventiamo la funzione di traccia di manipolazione dell’immagine, che era limitata a differenziare un piccolo numero di manipolazioni note [17, 5], ma ora è in grado di distinguere 385 tipi di manipolazioni note ed è robusta per codificare manipolazioni di tipi sconosciuti, anche per quelle manipolazioni basate su DNN (ad es. Deep image inpainting) e manipolazioni sequenziali (ad es. miglioramento, ridimensionamento e compressione di seguito. ) Dimostriamo che questa funzione è adatta alle attività IFLD e che può essere appresa in modo efficace ed efficiente dall’attività di apprendimento auto-supervisionato – classificazione della manipolazione delle immagini (IMC). In secondo luogo, abbandoniamo la semantica comune segmentazione come le formulazioni IFLD[58, 56, 39], ma formulano il compito IFLD come un problema di rilevamento di anomalie locali per migliorare la generalizzabilità del modello.
Più precisamente, vogliamo imparare una mappatura di una funzione decisionale dalla differenza tra una caratteristica locale e il suo riferimento alla sua etichetta di contraffazione. Per raggiungere questo obiettivo, inventiamo un’architettura LADN semplice ma efficace che imita il processo decisionale umano utilizzando due nuovi progetti: (1) strato DNN ZPool2D, che standardizza la differenza tra una caratteristica locale e il suo riferimento in modo Z-score; e (2) l’analisi da lontano a vicino, che esegue l’analisi sequenziale Conv2DLSTM su mappe di caratteristiche ZPool2D raggruppate da diverse risoluzioni. Infine, conduciamo con attenzione esperimenti di ablazione per ottimizzare sistematicamente sia le architetture IMC che LADN e fornire basi teoriche e/o risultati sperimentali per supportare i nostri progetti di rete.
2.3. Configurazione sperimentale di Mantra-Net
Per studiare sistematicamente la caratteristica della traccia di manipolazione e il rilevamento delle anomalie, usiamo la seguente configurazione comune per tutti gli esperimenti di ablazione, se non diversamente specificato. Per la funzione di traccia di manipolazione, utilizziamo il database delle immagini di Dresda [24] per immagini di base incontaminate. Formazione, convalida e test sono divisi rispetto agli ID immagine con un rapporto di 8:1:1. Ogni immagine è ulteriormente suddivisa in patch 256×256. Dopo aver respinto i cerotti con elevata omogeneità (ovvero, deviazione dell’intensità < 32), abbiamo 1,25 milioni di cerotti in totale. Sintetizziamo un campione per la classificazione della manipolazione dell’immagine: (1) selezionando una patch casuale P e una manipolazione casuale y(·), entrambe in modo casuale uniforme, (2) applicando la manipolazione y a P e 3) ritagliando un 128 casuale ×128 regione in y(P) come X. Questa coppia (X, y) è un campione di input e output per l’attività di classificazione. Il set di dati Kaggle Camera Model Identification (KCMI) [4] viene utilizzato per verificare la generalizzabilità e la sensibilità di una rete di classificazione della manipolazione. Contiene 10 modelli di fotocamera con 2475 campioni. Per valutare le prestazioni KCMI, dividiamo casualmente il set di dati in due metà: una metà per adattarsi a un classificatore più vicino (K=7) e l’altra metà per testare. La caratteristica del modello della fotocamera si ottiene calcolando la media di tutte le caratteristiche della traccia di manipolazione nella patch centrale 512 × 512 di una data immagine. Per il rilevamento delle anomalie, utilizziamo quattro set di dati sintetici per l’addestramento e la convalida, vale a dire il set di dati di splicing di [44], il set di dati di spostamento della copia di [45], il set di dati di rimozione sintetizzato utilizzando la funzione di pittura OpenCV incorporata (con immagini di base di Dresda ), e il set di dati di miglioramento sintetizzato utilizzando le impostazioni di classificazione della manipolazione discusse in precedenza. Più precisamente, sintetizziamo un campione potenziato (1) introducendo una maschera binaria strutturata casuale M (vedi [31]), (2) componendo un’immagine contraffatta usando Z =P ·(1−M)+y(P)· M, dove P e y(·) sono rispettivamente una patch incontaminata e una manipolazione casuale. La coppia risultante (Z, M) è un campione di input e output per un’attività LADN. La dimensione della patch di allenamento è impostata su 256 × 256. In termini di impostazioni di addestramento, impostiamo la dimensione del batch su 64 e 1000 batch per epoca e utilizziamo l’ottimizzatore Adam con il tasso di apprendimento iniziale di 1e-4 ma senza decadimento. Questo tasso di apprendimento sarà dimezzato se la perdita di convalida non migliora per 20 epoche. La classificazione della manipolazione delle immagini e le attività di rilevamento delle anomalie sono ottimizzate per la perdita di entropia incrociata.
3. Funzione di tracciamento di manipolazione
In questa sezione, studiamo l’estrattore di traccia di traccia di manipolazione dell’immagine (vedere il blocco ombreggiato in giallo in Fig. 2) tramite il problema di classificazione della manipolazione dell’immagine. Sebbene la funzione di traccia di manipolazione dell’immagine sia stata precedentemente utilizzata per il rilevamento di falsi e scopi di localizzazione per molto tempo, il numero totale di manipolazioni dell’immagine era solitamente inferiore a 10 – ad esempio, [17, 5] utilizzano rispettivamente 7 e 9 tipi. Tali pochi tipi di manipolazioni sono chiaramente inadeguati per una rappresentazione unificata delle caratteristiche. Pertanto studiamo sistematicamente manipolazioni con più tipi e differenze più fini, con 385 tipi di manipolazione. Per quanto ne sappiamo, questo lavoro è il primo a considerare questo gran numero di tipi di manipolazione a grana fine.
3.1. Studio dell’architettura della rete backbone
Poiché non esiste un’architettura di rete IFLD dominante (vedi Tabella 1) e pochissimi studi sulle reti IMC, conduciamo confronti dell’architettura backbone tra tre reti 9545: VGG [40], ResNet [26] e DnCNN [52], tutti proposti al di fuori della comunità dell’IFLD ma utilizzati in precedenza per l’IFLD [20, 28, 44, 45, 55]. Per un confronto equo, personalizziamo i modelli backbone in modo che abbiano le stesse dimensioni del campo ricettivo e un numero simile di filtri e iperparametri (vedi Tabella 2). Vale la pena notare che tutti i modelli di classificazione della manipolazione elencati sono reti completamente convoluzionali (FCN) (cioè nessun down-sampling o strato denso).
Per velocizzare la formazione e offrire formazione a molti modelli, studiamo il semplice problema IMC-7, i. e., classificazione sulle sette famiglie di manipolazione generali: compressione, sfocatura, morfologia, manipolazione del contrasto, rumore additivo, ricampionamento e quantizzazione. In particolare, formiamo ciascuna architettura con tre modelli, ma solo il modello con la migliore perdita di convalida è riportato nella metà inferiore della Tabella 2. Risulta che tutte e tre le architetture ottengono prestazioni IMC7 simili. Tuttavia, VGG supera il resto con un divario minore tra formazione e convalida, ma una precisione molto maggiore nei test KCMI. Usiamo quindi l’architettura VGG nel resto dei nostri studi.
Studiamo anche la scelta delle caratteristiche del primo strato. Confrontiamo le impostazioni ottimali note per SRMConv2D da [55] e BayarConv2D da [10] con i classici livelli Conv2D e una versione combinata di tutti e tre, che è semplicemente la concatenazione delle caratteristiche come mostrato in Fig. 2. Dalla Tabella 3, è è lecito concludere che diversi tipi di funzionalità apportano piccole differenze nelle prestazioni dell’IMC-7, in genere dall’1% al 2%, mentre l’utilizzo dell’impostazione combinata offre le prestazioni migliori. Usiamo quindi le caratteristiche combinate per il primo strato convoluzionale.
3.2. Studio dei tipi di manipolazione a grana fine
Per rendere la caratteristica della traccia di manipolazione più sensibile e robusta, studiamo il problema IMC per tipi di manipolazione più numerosi e più fini. Nello specifico, scomponiamo gradualmente le sette famiglie di manipolazione (livello di gerarchia 0) fino a diventare algoritmi individuali (livello di gerarchia 5). Ad esempio, la famiglia di sfocatura è suddivisa in sfocatura gaussiana, sfocatura box, denoising wavelet e filtraggio mediano per il livello gerarchico 1. Quindi si procede a un livello ancora più fine specificando i parametri dell’algoritmo, ad es. sfocatura gaussiana con dimensioni del kernel piccole come 3 , 5 e 7 per il livello di gerarchia 2. Ciò continua fino a raggiungere la dimensione del singolo kernel per il livello di gerarchia 5. La mappa gerarchica completa è inclusa nel nostro repository di codice, poiché esistono diversi livelli di gerarchia per 7, 25, 49, 96, 185 e 385 classi per la classificazione delle manipolazioni. Tutti i modelli IMC in questo studio condividono la stessa architettura di rete VGG discussa in precedenza, fatta eccezione per il numero di classi di output nel blocco decisionale (vedi tabella 2). I loro punteggi sono elencati nella Tabella 4. A causa della mappa gerarchica predefinita, un IMC addestrato sulla gerarchia i può essere utilizzato anche per prevedere le etichette della gerarchia j per i > j. Tutti i punteggi sottolineati nella tabella 4 sono ottenuti in questo modo. È chiaro che le classi di manipolazione a grana fine aiutano a migliorare non solo l’accuratezza della convalida per le gerarchie inferiori, ma anche l’accuratezza KCMI dal 57,2% all’82,6%.
L’accuratezza della convalida dell’IMC-385 (47,3%) è relativamente bassa. Quindi aggiustiamo l’architettura IMC-VGG di base in due direzioni ortogonali: (1) la rendiamo più ampia [50], ovvero utilizzando più filtri in ogni strato convoluzionale e (2) la rendiamo più profonda, ovvero utilizzando più blocchi convoluzionali. Entrambi i tentativi migliorano le prestazioni di base e la combinazione di più ampio e più profondo (W&D) migliora ancora di più. La tabella 5 mostra questi risultati. Utilizziamo quindi l’architettura IMCVGG W&D escludendo il blocco decisionale per l’estrattore di funzionalità di traccia di manipolazione (vedi Fig. 2).
3.3. Discussioni su Mantra-Net
Le prestazioni dell’IMC possono essere ulteriormente migliorate se viene utilizzata una dimensione del campo ricettivo maggiore. Tuttavia, interrompiamo l’esplorazione
e ci atteniamo all’IMC-VGG-W& Architettura D per garantire la sensibilità delle caratteristiche a piccole regioni manipolate. Per quanto riguarda le prestazioni dell’IMC-385, la Fig. 3-(a) illustra la matrice di confusione IMC-VGG-W&D al livello gerarchico 1 (con 25 classi). È abbastanza vicino alla matrice di identità, e quindi la maggior parte degli errori IMC-385 si verificano all’interno dello stesso tipo di manipolazioni, ma con parametri diversi. In effetti, l’unico errore saliente nella matrice di confusione è classificare erroneamente JPEGCompression in JPEGDoubleCompression, probabilmente perché la maggior parte delle immagini incontaminate nel set di dati di Dresda sono in formato JPEG, indicando che sono già compresse. Sebbene i risultati del test KCMI confermino la generalizzabilità della funzionalità di traccia di manipolazione appresa, controlliamo due volte l’efficacia della funzionalità per l’attività IFLD. Come mostrato in Fig. 3-(b), si possono facilmente identificare le corrispondenze tra le mappe di appartenenza dell’IMC e le maschere di falsificazione della verità sul terreno, indicando (1) la funzione IMC proposta è utile per l’attività dell’IFLD; e (2) si possono facilmente identificare le regioni contraffatte identificando caratteristiche locali anomale diverse da quelle circostanti.
4. Rete di rilevamento di anomalie locali
In questa sezione, proponiamo una nuova architettura di rete di rilevamento di anomalie profonde. Come mostrato in Fig. 2, è composto da tre fasi: (1) adattamento, che adatta la caratteristica della traccia di manipolazione per l’attività di rilevamento delle anomalie; (2) estrazione di caratteristiche anomale, che si ispira al pensiero umano ed estrae caratteristiche anomale; e (3) decisione, che considera olisticamente le caratteristiche anomale e classifica se un pixel è contraffatto o meno. Poiché sia la fase di adattamento che quella di decisione sono semplici, ci concentriamo sulla discussione dell’estrazione di caratteristiche anomale.
4.1. Estrazione di caratteristiche anomale
Data una mappa delle caratteristiche (ad es. la riga inferiore in Fig. 3-(b)), come un essere umano identifica potenziali regioni contraffatte. Sebbene
Figura 3. Argomenti di discussione IMC. (a) Matrice di confusione IMC-385 HL1. (b) Esempi di risultati IMC, dall’alto verso il basso: immagine di prova, maschera di falsificazione della verità sul terreno e mappa di appartenenza IMC (codificata a colori in termini di HL1). Visualizzazione migliore a colori e zoom avanti.
a questa domanda si può rispondere in modo diverso, si può anzitutto identificare la caratteristica dominante di un’immagine, e qualsiasi caratteristica sufficientemente diversa da questa caratteristica dominante è quindi anomala. Nel resto della sezione, seguiamo questa intuizione e discutiamo le soluzioni ai due compiti chiave (1) qual è una caratteristica dominante e come calcolarla, e (2) come quantificare la differenza tra una caratteristica locale e una caratteristica dominante di riferimento e qual è il modo migliore nella pratica. Cominciamo con soluzioni semplici. Una scelta per la caratteristica dominante è la caratteristica media definita nell’Eq. (1)
dove F è un tensore delle caratteristiche grezze di dimensione H × W × L. Allo stesso modo, si può usare la differenza grezza nell’Eq. (2) per quantificare la differenza tra una caratteristica locale e il suo riferimento.
Considerando la generalizzabilità, lo Z-score normalizzato definito nell’Eq. (3) funziona meglio, (vedi Tabella 6)
dove σF è la deviazione standard di F come mostrato nell’Eq (4).
In pratica sostituiamo σF con σ ∗ F come mostrato nell’Eq. (5)
dove ǫ =1e-5 e wσ è un vettore di peso non negativo apprendibile della stessa lunghezza di σF . A tal fine, la funzione ZF codifica quanto ogni caratteristica locale è diversa da una caratteristica di riferimento, ma ZF presenta un grave inconveniente quando altre due regioni vengono manipolate in modo diverso. Supponiamo che un’immagine contenga due regioni forgiate disgiunte R1 e R2, mentre il resto è una regione di sfondo B incontaminata. A seconda della relazione relativa tra µR1, µR2 e µB, la caratteristica µF potrebbe non rappresentare il µB dominante. Per semplificare la discussione, lascia che la dimensione della caratteristica di F sia 1. Quando µR1 ≫ µR2 > µB, µF può essere un valore molto più vicino a µR2 rispetto a µB, il che implica che ZF non è in grado di catturare la regione anomala R2. Un rapido rimedio è calcolare la caratteristica di riferimento da una finestra locale ma sufficientemente grande, che mitiga se non esclude l’influenza di caratteristiche di altre regioni contraffatte. In particolare, calcoliamo la caratteristica di deviazione per finestra,
dove µ n×n F [i , j] è la caratteristica media calcolata all’interno della finestra n × n centrata nella posizione (i, j) attraverso il livello AveragePool2D standard. Tuttavia, non abbiamo idea di cosa dovrebbe essere n per un campione di test. Pertanto, seguiamo l’analisi multi-risoluzione comune (ad es. [47]) e raccogliamo una serie di caratteristiche Z-score rispetto a diverse dimensioni della finestra da n1 a nk, come mostrato nell’Eq. (7).
Il processo di conversione dalla caratteristica di input F a una caratteristica Z-score è riferito a ZPool2D in Fig. 2. Sebbene si possa concatenare Z ∗ F lungo la dimensione della caratteristica e produrre una caratteristica 3D (dimensione di H×L×(k+1)L) per rappresentare la caratteristica della differenza, questo non riesce a catturare l’essenza del progresso decisionale umano – il lontano- to-near analysis, cioè uno si avvicinerà se non riesce a vedere qualcosa chiaramente. Pertanto, concateniamo Z ∗ F lungo la nuova dimensione del tempo artificiale e produciamo una caratteristica 4D di dimensione (k+1)×H×W×L. Utilizzando lo strato ConvLSTM2D [48], la rete di rilevamento delle anomalie proposta analizza la deviazione Z-score appartenente a diverse dimensioni della finestra in un ordine sequenziale. In altre parole, esaminiamo una mappa Zscore a grana fine se siamo incerti, e quindi seguiamo concettualmente l’analisi da lontano a vicino.
4.2. Esperimento di ablazione con rilevamento di anomalie
Conduciamo una serie di esperimenti di ablazione per studiare le prestazioni delle caratteristiche anomale menzionate in precedenza utilizzando la soluzione ManTra-Net mostrata in Fig. 2. Per garantire confronti equi, tutti gli esperimenti (1) differiscono l’uno dall’altro solo per il metodo utilizzato funzione di rilevamento delle anomalie; (2) condividere lo stesso estrattore di funzionalità di traccia di manipolazione preaddestrato; e (3) l’estrattore della funzione di traccia di manipolazione è impostato su non addestrabile. Si può fare riferimento alla Sez. 2.3 per altre impostazioni. La tabella 6 confronta tutte le caratteristiche in termini di punteggi di convalida F1. È chiaro che la differenza del punteggio Z è migliore e che più dimensioni della finestra consideriamo, migliori saranno le prestazioni complessive. Per motivi di efficienza, smettiamo di analizzare più finestre. Rispetto alla feature-axis-concatenation (FAC), l’utilizzo della funzione time-axisconcatenate (TAC) per Z ∗ F aumenta ulteriormente le prestazioni di circa il 7% in assoluto e del 15% in relativo.
5. Valutazione sperimentale di Mantra-Net
Abbiamo precedentemente dimostrato l’efficacia della funzione di tracciatura di manipolazione dell’immagine utilizzata e della rete di rilevamento di anomalie locali. In questa sezione, ci concentriamo sulla valutazione delle prestazioni del ManTra-Net end-to-end rispetto alla generalizzabilità, alla sensibilità, alla robustezza del postprocessing e ai benchmark standard.
Per quanto riguarda le metriche di valutazione, utilizziamo l’area a livello di pixel sotto la curva caratteristica operativa del ricevitore (AUC), se non diversamente specificato. È importante notare che, a causa della natura del rilevamento delle anomalie locali, ManTra-Net etichetterà i pixel incontaminati come contraffatti se si tratta di minoranze. Tuttavia, questo comportamento non dovrebbe essere penalizzato. Neghiamo quindi una maschera prevista da ManTra-Net quando più del 50% dei pixel sono falsificati nella verità del terreno.
5.1. Modelli pre-addestrati e test di generalizzabilità
Formiamo modelli ManTra-Net in modo end-to-end utilizzando i quattro set di dati sintetici menzionati nella Sez. 2.3. I modelli ManTra-Net preaddestrati sono disponibili a 1 . Per valutare la generalizzabilità di questi modelli, l’ultimo metodo di pittura CNN basato su convoluzioni parziali [31] è selezionato come una tipica manipolazione basata su DNN fuori dominio. Inoltre, viene utilizzato anche il set di dati PhotoShop-battle [27], perché è ampio (102.028 campioni in totale) e diversificato (contributo da 31.272 artisti online) e riflette il livello di manipolazione delle immagini nella vita reale. Poiché fornisce solo l’annotazione a livello di immagine (ovvero, incontaminata o contraffatta) anziché a livello di pixel, valutiamo le prestazioni del modello su questo set di dati calcolando l’AUC a livello di immagine, dove la probabilità che un’immagine venga manipolata viene semplicemente calcolata come la probabilità media di tutti i pixel. Come si può vedere nella Tabella 7, il modello completamente casuale addestrato con pesi casuali completi non si generalizza bene perché si adatta ai dati sintetizzati, mentre gli indizi di falsificazione presentati nel set di dati sintetizzato utilizzato sono molto diversi da quelli del mondo reale. Il modello half freeze addestrato congelando le funzionalità di traccia di manipolazione dell’immagine (IMTF) e con pesi LADN casuali impedisce il sovraadattamento, ma elimina la speranza di trovare funzionalità migliori per altri falsi tipi, perché è noto che la funzione di traccia di manipolazione è ottimizzata per il set di dati di miglioramento (vedere la colonna Migliora nella Tabella 6), ma non per la giunzione, lo spostamento della copia o la rimozione. Al contrario, il modello semicasuale che consente di aggiornare questi pesi a un tasso di apprendimento inferiore di 5e-5 previene l’overfitting e converge a una migliore rappresentazione delle caratteristiche per tutti i tipi di falsi. Utilizziamo quindi il modello semicasuale ManTra-Net negli esperimenti successivi.
5.2. Valutazione di sensibilità e robustezza di Mantra-Net
Per valutare l’accuratezza di ManTra-Net rispetto alle manipolazioni di diverse distorsioni, conduciamo il seguente studio di sensibilità: (1) sintetizziamo campioni manipolati utilizzando una funzione di manipolazione f e un parametro di metodo p per 5.000 patch nella divisione di test di Dresda ; (2) valutiamo ManTra-Net su questo set di dati sintetizzato; e 3) riportiamo le sue prestazioni come un punto dati in Fig. 4. Come mostrato in Fig. 4-(a), ManTra-Net è molto accurato per i metodi di rumore e sfocatura additivi, anche per manipolazioni sottili come 3×3 GaussianBlur, mentre è meno accurato per i metodi di compressione, soprattutto quando il fattore di qualità è superiore a 95.
Nella vita reale, si può mascherare un’immagine X contraffatta con un’ulteriore post-elaborazione. Qui abbiamo considerato i tre metodi di post-elaborazione comuni: (1) ridimensionare X a una dimensione inferiore, (2) comprimere X con un fattore di qualità inferiore e 3) levigare X attorno ai bordi delle regioni forgiate. Invece di un campione di test grezzo dai quattro set di dati sintetizzati, inseriamo nel ManTra-Net preaddestrato la versione post-elaborata e calcoliamo il decadimento delle prestazioni del test. Questi risultati sono mostrati in Fig. 4-(b). Le prestazioni complessive di ManTra-Net diminuiscono quasi linearmente per LinearResize e JPEGCompress, che è molto più lento della velocità di riduzione dei pixel quadratici nel ridimensionamento. Infine, sebbene la sfocatura locale sia nota per essere molto efficace nell’ingannare i metodi di rilevamento della contraffazione basati sui bordi, ManTra-Net è abbastanza immune da questo tipo di attacco.
5.3. Confronto con i metodi SOTA
Di seguito [55], confrontiamo le prestazioni di ManTra-Net con i numeri riportati in [55], che fornisce i punteggi dei metodi classici senza supervisione: ELA [29], NOI1 [34], CFA1 [22] e l’ultimo Soluzioni basate su DNN, MFCN [39] e J-LSTM [7] sui quattro set di dati di riferimento, vale a dire NIST 2016 [3], CASIA [2], COVERAGE [43] e set di dati Columbia [1]. Questi quattro set di dati contengono rispettivamente 564, 6044, 100 e 180 campioni. Vale la pena notare che (1) utilizziamo un modello pre-addestrato invece di uno ottimizzato e (2) valutiamo le prestazioni sull’intero set di dati invece di una piccola divisione di test.
Questi risultati sono elencati nella Tabella 8. Siamo al secondo posto nei set di dati NIST e Columbia. Un grande divario di prestazioni tra ManTra-Net e quello del metodo RGB-N si trova nel set di dati NIST, probabilmente perché questo set di dati contiene molti campioni forgiati dalle stesse identiche o molto simili immagini di base, dove la messa a punto potrebbe sicuramente aiutare. Sul set di dati Columbia, siamo leggermente indietro del 3% rispetto al miglior metodo RGB-N, poiché non ci basiamo su alcun indizio specifico. Il metodo RGB-N analizza esplicitamente il pattern di rumore, noto per essere super efficace per il set di dati Columbia [55].
Sui set di dati COVERAGE e CASIA, tuttavia, otteniamo prestazioni ancora migliori su una porzione di valutazione più ampia rispetto ai metodi J-LSTM e RGB-N, che applicano entrambi la messa a punto del set di dati. Una possibile spiegazione del motivo per cui abbiamo ottenuto risultati migliori è che le immagini in questo set di dati sono molto più piccole di quelle del NIST e della Columbia (ad esempio, una tipica immagine CASIA ha una dimensione di 256 × 384, mentre è comune vedere immagini più grandi di 1000 × 1000 nel NIST ), e sono più vicini alle dimensioni dell’immagine che abbiamo utilizzato durante l’allenamento, che è 256×256. È lecito concludere che ManTra-Net: (1) supera nettamente i metodi classici senza supervisione con un ampio margine, e (2) è paragonabile a quei metodi DNN all’avanguardia, anche se non applichiamo alcuna messa a punto del modello o post-elaborazione.
Una caratteristica degna di nota è che il ManTra-Net proposto ottiene prestazioni molto coerenti su tutti i set di dati di test, indicando che si generalizza bene su diversi set di dati. I risultati qualitativi possono essere trovati in Fig. 5. In termini di velocità di elaborazione, ManTra-Net impiega circa 0,8 secondi per immagine (1024×768) su una singola GPU NVIDIA 1080Ti.
5.4. Limitazioni di Mantra-Net
Il rilevamento di immagini contraffatte nella vita reale è un problema difficile. Abbiamo osservato che ManTra-Net può fallire quando: (1) un’immagine contraffatta è completamente rigenerata (ad esempio usando il trasferimento di stile [23]), vedere Fig. 6-(a); (2) un’immagine contraffatta è intenzionalmente contaminata da rumore altamente correlato, vedere Fig. 6- (b); e (3) più regioni vengono manipolate in modo diverso, vedere Fig. 6-(c). Come mostrato in Fig. 6-(c), vengono manipolate sia la regione del testo che la regione del vombato. ManTra-Net trova la regione del testo ma non la regione del vombato. Scopriamo che un rimedio rapido è chiedere a un utente di selezionare una regione di interesse prima di applicare ManTra-Net, e questa volta catturiamo con successo il vombato. Ciò indica che ManTra-Net può essere uno strumento IFLD di supporto informatico per gli esseri umani.
6. Conclusione
In questo articolo, introduciamo una nuova soluzione DNN end-to-end per la localizzazione di falsi di immagini chiamata ManTra-Net. Innanzitutto estrae le caratteristiche della traccia di manipolazione dell’immagine per un’immagine di prova e identifica le regioni anomale valutando quanto sia diversa una caratteristica locale dalle sue caratteristiche di riferimento. I nostri ampi risultati sperimentali che utilizzano solo modelli pre-addestrati dimostrano che il ManTra-Net proposto è sensibile a manipolazioni sottili e robusto alla postelaborazione di manipolazioni dissimulanti e che raggiunge una buona generalizzabilità a dati invisibili e tipi di manipolazione sconosciuti, anche per le ultime manipolazioni basate su DNN come lo scambio di volti [36] e la pittura di immagini profonde [32]. È possibile migliorare ulteriormente le prestazioni di ManTra-Net o adattarlo a nuovi tipi di contraffazione semplicemente introducendo più tipi di manipolazione nell’attività IMC e/o aggiungendo più campioni di addestramento all’attività IFLD end-to-end.
Comments are closed.
Comments on 'Mantra-Net Rilevamento di manipolazione immagini' (0)
Feed dei commenti