IA e “introspezione”: scoperta interessante, ma niente coscienza

Anthropic – la stessa azienda sostenuta da Amazon e Google – ha pubblicato uno studio in cui alcuni modelli linguistici sembrano riconoscere e descrivere i propri stati interni, come se sapessero a cosa stanno pensando. Prima precisazione fondamentale: non è coscienza, non è autoconsapevolezza. È solo monitoraggio interno di calcoli matematici. Fine.
Il problema è che la comunicazione di Anthropic sfiora il fraintendimento: si parla di “introspezione”, ma non si distingue subito tra quella funzionale (controllo dei propri processi) e quella fenomenologica (coscienza, esperienza soggettiva). La ricerca riguarda solo la prima. Nessuna IA “sente” o “vive” pensieri.
Come funziona l’esperimento
I ricercatori non chiedono al modello cosa sta pensando. Gli iniettano un pensiero dall’esterno, intervenendo sulle sue attivazioni interne – una zona oscura che nemmeno chi sviluppa i modelli comprende del tutto. Poi osservano cosa succede:
- A volte il modello “percepisce” qualcosa e lo dice: “Mi sembra di pensare all’oceano”.
- A volte non se ne accorge.
- A volte inizia a parlare del mare senza sapere perché.
In pratica: il sistema può distinguere (non sempre) un contenuto interno spontaneo da uno inserito artificialmente. Alcuni modelli di Anthropic (Claude Opus 4 / 4.1) sono più sensibili di altri.
Il dettaglio interessante
Se si chiede al modello di pensare a una parola specifica, le aree della rete neurale collegate a quel concetto si attivano. Se gli si chiede di non pensarla, l’attività cala, ma non scompare. È l’equivalente di “non pensare a un orso bianco”: impossibile evitarlo del tutto.
Perché conta?
Una IA che può descrivere i propri processi interni potrebbe, teoricamente, spiegare (o nascondere) meglio le proprie motivazioni. Oggi il problema è “la scatola nera”. Domani potrebbe essere: “possiamo fidarci di ciò che dice di sé?”.