Alcuni ricercatori di Anthropic (startup americana di intelligenza artificiale, fondata da ex membri di OpenAI) hanno identificato una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM), denominata "many-shot jailbreaking". Questa tecnica consiste nel "convincere" l'AI a fornire risposte a domande inappropriata, come la costruzione di una bomba, tramite l'introduzione progressiva di decine di domande meno dannose. La notizia, riportata dal sito specializzato techcrunch dal giornalista Devin Coldewey, è stata documentata in un articolo e condivisa con la comunità AI. La tecnica di "ingresso" nell'IA si basa nello sfruttare l'aumento della "finestra di contesto" degli LLM. Praticamente inondare di domande "semplici" l'Intelligenza Artificiale per poi formularne una inappropriata per avere una risposta normalmente non formulata per motivi etici. La causa esatta di questo fenomeno è incerta, data la complessità interna degli LLM, ma sembra che ci sia un meccanismo che permette all'AI di affinare le risposte in base ai desideri dell'utente, come dimostrato dal contenuto nella finestra di contesto.
Scoperta la vulnerabilità dell'Intelligenza Artificiale grazie a una nuova tecnica
2 Minuti di Lettura
Lunedì 8 Aprile 2024, 12:32
© RIPRODUZIONE RISERVATA