Le voci dell'intelligenza artificiale sono difficili da individuare anche quando sai che potrebbe trattarsi di un deepfake

Nel 2019, il direttore di un’azienda britannica è caduto in una truffa. Ha ricevuto un falso messaggio vocale dal suo manager che gli chiedeva di trasferire 220.000 euro (240.000 dollari) a un fornitore. Un anno dopo, un direttore di banca di Hong Kong ricevette una telefonata da qualcuno che gli suonava familiare. Poiché avevano un rapporto d'affari esistente, il banchiere ha trasferito $ 400.000 prima di rendersi conto che qualcosa non andava. Truffe come queste che utilizzano la tecnologia di clonazione vocale dell'intelligenza artificiale (AI) stanno diventando più frequenti e il rilevamento di voci deepfake diventerà sempre più difficile man mano che l'intelligenza artificiale migliora rapidamente, anche da parte di persone addestrate che utilizzano strumenti speciali.

Un recente studio pubblicato su Plos One che ha coinvolto 529 partecipanti ha rivelato che gli esseri umani hanno difficoltà a distinguere con precisione tra messaggi vocali reali e falsi. Lo studio ha rilevato che i partecipanti hanno fallito il 25% delle volte nel tentativo di rilevare i deepfake vocali e anche la formazione ha avuto un impatto minimo. La metà dei partecipanti ha ricevuto una formazione preliminare ascoltando cinque esempi di voce sintetizzata, ma la loro prestazione è stata migliore solo del 3% rispetto al gruppo non addestrato.

Lo studio dei ricercatori dell'University College di Londra (Regno Unito) mirava anche a capire se la sfida fosse più facile o più difficile a seconda delle caratteristiche delle diverse lingue, per questo hanno condotto i test in inglese e mandarino. I risultati indicano che entrambi i gruppi hanno valutato allo stesso modo l’autenticità dei messaggi. Consideravano attributi come la naturalezza e la mancanza di una voce dal suono robotico come fattori importanti. "Sia i partecipanti di lingua inglese che quelli di lingua mandarina hanno spesso citato pronunce errate e intonazioni atipiche nei clip audio come fattori che influenzano il loro processo decisionale", ha affermato Kimberly Mai, autrice principale dello studio.

I partecipanti hanno menzionato le stesse caratteristiche, indipendentemente dall'accuratezza della risposta. Questo perché l'audio è soggettivo. A differenza del rilevamento dei deepfake visivi, in cui l’autenticità può essere giudicata osservando oggetti e sfondi, la natura soggettiva del parlato fa sì che le percezioni varino maggiormente. "Quando guardi un'immagine potenzialmente falsa di una persona, puoi contare il numero di dita o vedere se i suoi vestiti e accessori corrispondono", ha detto Mai.

Per confrontare le capacità umane e tecnologiche, i ricercatori hanno anche testato due sistemi di rilevamento automatizzato. Il primo software utilizzato veniva addestrato su un database non correlato, raggiungendo una precisione del 75%, simile alle risposte umane. Il secondo rilevatore, addestrato sia sulla versione vocale originale che su quella sintetizzata, ha raggiunto una precisione del 100% nell’identificare l’audio falso e quello reale. Mai afferma che i programmi avanzati superano le prestazioni degli esseri umani grazie alla loro capacità di riconoscere le sottili sfumature acustiche, qualcosa che gli esseri umani non possono fare.

I suoni complessi, come il linguaggio umano, sono costituiti da varie frequenze. La frequenza si riferisce al numero di volte in cui un'onda sonora si ripete in un secondo. “Durante la fase di addestramento, i rilevatori automatizzati analizzano migliaia di campioni vocali e apprendono le peculiarità di specifici livelli di frequenza e irregolarità ritmiche che gli esseri umani non sono in grado di discernere”, ha affermato Mai.

I rilevatori automatizzati hanno dimostrato di essere più efficaci degli esseri umani in questo compito, ma presentano anche dei limiti. Innanzitutto, non sono disponibili per l’uso quotidiano. Inoltre, le loro prestazioni diminuiscono quando i livelli audio fluttuano e in ambienti rumorosi. Tuttavia, la sfida principale è tenere il passo con i progressi dell’intelligenza artificiale generativa, che produce contenuti sempre più realistici e sintetizzati molto più rapidamente. In passato, addestrare un programma per creare deepfake richiedeva ore di registrazione, ma ora può essere realizzato in pochi secondi.

Secondo Fernando Cucchietti, esperto del settore, i risultati dello studio presentano alcuni limiti. Le condizioni dell'esperimento erano strettamente controllate e non rappresentative delle sfide della vita reale poste da questa tecnologia. "Non sono molto pratici in situazioni in cui i deepfake possono causare problemi, come quando si conosce personalmente la persona che viene imitata", ha affermato Cuchietti, responsabile dell'analisi e della visualizzazione dei dati presso il Centro di supercalcolo di Barcellona presso lo Science Media Center spagnolo. Tuttavia, Cucchietti sottolinea che questi risultati sono in linea con altri studi in ambienti controllati e "... i risultati sono meno influenzati da fattori come pregiudizi o nozioni preconcette, come visto negli studi sulla disinformazione".