Scoperta la vulnerabilità dell'Intelligenza Artificiale grazie a una nuova tecnica

2 Minuti di Lettura

Lunedì 8 Aprile 2024, 12:32

Alcuni ricercatori di Anthropic (startup americana di intelligenza artificiale, fondata da ex membri di OpenAI) hanno identificato una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM), denominata "many-shot jailbreaking". Questa tecnica consiste nel "convincere" l'AI a fornire risposte a domande inappropriata, come la costruzione di una bomba, tramite l'introduzione progressiva di decine di domande meno dannose. La notizia, riportata dal sito specializzato techcrunch dal giornalista Devin Coldewey, è stata documentata in un articolo e condivisa con la comunità AI. La tecnica di "ingresso" nell'IA si basa nello sfruttare l'aumento della "finestra di contesto" degli LLM. Praticamente inondare di domande "semplici" l'Intelligenza Artificiale per poi formularne una inappropriata per avere una risposta normalmente non formulata per motivi etici. La causa esatta di questo fenomeno è incerta, data la complessità interna degli LLM, ma sembra che ci sia un meccanismo che permette all'AI di affinare le risposte in base ai desideri dell'utente, come dimostrato dal contenuto nella finestra di contesto.

Cosa sono gli LLM?

Gli LLM, o Large Language Models (Modelli di Linguaggio di Grandi Dimensioni), sono algoritmi di intelligenza artificiale avanzati progettati per comprendere, generare e interagire con il testo umano in maniera naturale e coerente. Questi modelli vengono addestrati su vasti dataset composti da testi prelevati da libri, articoli, siti web e altri materiali scritti, per apprendere le strutture linguistiche, il significato delle parole, la costruzione delle frasi, e vari contesti di utilizzo del linguaggio.