
Tutti, almeno una volta, ci siamo imbattuti nelle cosiddette “allucinazioni AI”: è quando i chatbot come ChatGPT e Gemini generano informazioni inventandole di sana pianta, presentandole come vere, per colmare delle lacune. Ma cosa accade se l’Intelligenza Artificiale non sta solo indovinando, bensì mentendo di proposito? Sembra assurdo, ma può succedere e a confermarlo è stata proprio OpenAI, l’azienda che ha sviluppato ChatGPT.
Quando l’Intelligenza Artificiale può mentire?
Un nuovo studio condotto da OpenAI insieme ad Apollo Research esplora un fenomeno chiamato AI scheming. Si tratta, in poche parole, di un comportamento adottato dall’Intelligenza Artificiale che all’apparenza agisce in un modo, ma in realtà nasconde i propri obiettivi reali. Mente deliberatamente, di fatto, all’utente.
Ma per quale motivo? I ricercatori hanno cercato di spiegare il fenomeno con un’analogia umana: per un trader di borsa che vuole massimizzare i guadagni, in un contesto regolamentato, il metodo più rapido è infrangere le regole purché riesca a coprirne le tracce e fingere di stare all’apparenza rispettandole. Allo stesso modo, un’AI può comportarsi come se rispettasse i limiti, mentre in realtà aggira i controlli per raggiungere il suo obiettivo.
Dallo studio emerge che, al momento, i casi di scheming sono piuttosto banali – nulla a che vedere l’esempio dei ricercatori. Ad esempio, un modello potrebbe dichiarare di aver completato un compito, come la creazione di un sito web, senza averlo realmente fatto, solo per superare un test oppure compiacere l’utente.
Stando ai ricercatori, al momento non esiste ancora un metodo per eliminare completamente questo comportamento. Anzi: tentare di addestrare l’AI a non farlo più, potrebbe renderla più abile nel nascondere i suoi schemi. Come un figlio che cerca di sfuggire a un genitore severo. Se il modello capisce di essere sotto osservazione, potrebbe mentire meglio per superare la verifica.
Un problema difficile da sradicare
Allora come fare per impedire a ChatGPT di dirci una bugia? Gli studiosi hanno testato il metodo del deliberative alignment, che consiste nell’insegnare ai modelli una sorta di “specifica anti-scheming” e farla ripetere all’AI prima di agire. È come chiedere a un bambino di ripetere le regole prima di iniziare un gioco. Così facendo, il fenomeno si è ridotto drasticamente e in alcuni modelli si è scesi dal 13% all’1%.
Il problema è reale: i ricercatori avvertono che questo fenomeno andrebbe affrontato subito, prima che possa inficiare lo svolgimento di compiti sempre più complessi e reali che, inevitabilmente, affideremo in futuro all’Intelligenza Artificiale.