IA e “introspezione”: scoperta interessante, ma niente coscienza

Anthropic – la stessa azienda sostenuta da Amazon e Google – ha pubblicato uno studio in cui alcuni modelli linguistici sembrano riconoscere e descrivere i propri stati interni, come se sapessero a cosa stanno pensando. Prima precisazione fondamentale: non è coscienza, non è autoconsapevolezza. È solo monitoraggio interno di calcoli matematici. Fine.

Il problema è che la comunicazione di Anthropic sfiora il fraintendimento: si parla di “introspezione”, ma non si distingue subito tra quella funzionale (controllo dei propri processi) e quella fenomenologica (coscienza, esperienza soggettiva). La ricerca riguarda solo la prima. Nessuna IA “sente” o “vive” pensieri.

Come funziona l’esperimento

I ricercatori non chiedono al modello cosa sta pensando. Gli iniettano un pensiero dall’esterno, intervenendo sulle sue attivazioni interne – una zona oscura che nemmeno chi sviluppa i modelli comprende del tutto. Poi osservano cosa succede:

A volte il modello “percepisce” qualcosa e lo dice: “Mi sembra di pensare all’oceano”.
A volte non se ne accorge.
A volte inizia a parlare del mare senza sapere perché.

In pratica: il sistema può distinguere (non sempre) un contenuto interno spontaneo da uno inserito artificialmente. Alcuni modelli di Anthropic (Claude Opus 4 / 4.1) sono più sensibili di altri.

Il dettaglio interessante

Se si chiede al modello di pensare a una parola specifica, le aree della rete neurale collegate a quel concetto si attivano. Se gli si chiede di non pensarla, l’attività cala, ma non scompare. È l’equivalente di “non pensare a un orso bianco”: impossibile evitarlo del tutto.

Perché conta?

Una IA che può descrivere i propri processi interni potrebbe, teoricamente, spiegare (o nascondere) meglio le proprie motivazioni. Oggi il problema è “la scatola nera”. Domani potrebbe essere: “possiamo fidarci di ciò che dice di sé?”.

AI-Creative-Studio.com

IA e “introspezione”: scoperta interessante, ma niente coscienza

IA e “introspezione”: scoperta interessante, ma niente coscienza

TextLab Humanizer Pro

Google Labs: il nuovo laboratorio di innovazione e prototipi di Google per l’intelligenza artificiale e la produttività

Il repository GitHub “marcelscruz/public-apis” offre un catalogo organizzato di API pubbliche per sviluppatori

LlamaFactory: Un Framework Open-Source per il Fine-Tuning di Modelli di Linguaggio e Visione-Linguaggio