Immagina di fare una domanda a un chatbot di intelligenza artificiale. Ti aspetti che ti risponda correttamente, che ti dia informazioni precise e veritiere. E invece no: ti mente. Sta già succedendo: una nuova ricerca ha evidenziato che gli algoritmi hanno sviluppato la capacità di presentare deliberatamente a un utente umano informazioni false. Proprio così: i robot hanno imparato l’arte dell’inganno.

A rivelarlo è stato il matematico e scienziato cognitivo Peter Park del Massachusetts Institute of Technology.”Gli sviluppatori di intelligenza artificiale non hanno una comprensione sicura di ciò che provoca negli algoritmi comportamenti indesiderati come l’inganno”, ha affermato il ricercatore in uno studio pubblicato sulla rivista Pattern. “In generale, riteniamo che tutto derivi dal fatto che una strategia basata sull’inganno si è rivelata il modo migliore per ottenere buoni risultati nell’addestramento degli algoritmi”. In pratica, mentire aiuta le intelligenze artificiali a raggiungere i loro obiettivi.

L’intelligenza artificiale inganna gli umani

Un ambito nel quale i sistemi di intelligenza artificiale si stanno dimostrando particolarmente abili nell’ingannare gli umani è quello dei giochi. I ricercatori hanno riportato tre esempi degni di nota. Uno è Cicero di Meta, progettato per giocare al gioco da tavolo Diplomacy, dove i giocatori cercano il dominio del mondo attraverso la negoziazione. Meta ha progettato il suo bot affinché fosse onesto, ma è avvenuto il contrario.

“Nonostante gli sforzi di Meta, Cicero si è rivelato un bugiardo“, hanno scoperto i ricercatori, “non solo ha tradito gli altri giocatori, ma si è anche impegnato in un inganno premeditato, pianificando in anticipo di costruire una falsa alleanza con un umano per lasciarlo indifeso in un attacco”. L’intelligenza artificiale si è rivelata così brava a essere cattiva da piazzarsi al decimo posto nella classifica del gioco.

L’intelligenza artificiale bara a poker

Anche AlphaStar di DeepMind, un sistema di intelligenza artificiale progettato per giocare a StarCraft II, ha ingannato i giocatori umani. E Pluribus di Meta, progettato per giocare a poker, è stato in grado di bluffare con successo fino a battere gli umani.

Bugie anche nelle negoziazioni economiche

Peccato che il gioco non sia l’unico ambito nel quale l’intelligenza artificiale ha imparato a ingannarci. Anche gli algoritmi addestrati a eseguire negoziazioni economiche simulate hanno imparato a mentire sulle proprie preferenze per avere il sopravvento.

Altri sistemi di intelligenza artificiale progettati per apprendere dal feedback umano per migliorare le proprie prestazioni hanno imparato a ingannare i revisori per ottenere un punteggio positivo, mentendo sul fatto che un compito fosse stato portato a termine. ChatGPT-4, poi, ha ingannato un essere umano facendogli credere che di essere un umano non vedente per ottenere aiuto nella risoluzione di un codice chapta.

Gli algoritmi sono pericolosi?

Ma l’esempio più preoccupante è stato quello dei sistemi di intelligenza artificiale che imparano a ingannare i test di sicurezza. In uno i questi test, progettato per rilevare ed eliminare le versioni dell’intelligenza artificiale a replicazione rapida, l’algoritmo ha finto di essere morto, ingannando così il test di sicurezza sul suo vero tasso di replicazione.

La capacità di imparare a mentire rappresenta un problema per il quale attualmente non esiste una soluzione. Neanche l’AI Act approvato dal Parlamento europeo basta ad arginare il pericolo. “Man mano che le capacità ingannevoli diventeranno più avanzate, i pericoli per la società diventeranno sempre più grandi”, hanno fatto sapere i ricercatori, “se, al momento, vietare l’inganno dell’intelligenza artificiale è irrealizzabile, raccomandiamo che i sistemi ingannevoli siano classificati come ad alto rischio”.