Mixture-of-Recursions (MoR)

E’ arrivato il transformer killer?

Mixture-of-Recursions (MoR), un nuovo framework Transformer che mira a migliorare l’efficienza dei modelli linguistici su larga scala. MoR raggiunge questo obiettivo combinando la condivisione dei parametri con la computazione adattiva a livello di token. Utilizza un blocco di strati condivisi applicato ricorsivamente, con router leggeri che determinano dinamicamente quante volte ciascun token “pensa” attraverso questo blocco, ottimizzando l’allocazione delle risorse. Inoltre, MoR impiega strategie di caching selettivo per le coppie chiave-valore, riducendo ulteriormente le esigenze di memoria e migliorando la velocità di elaborazione. I risultati sperimentali indicano che MoR offre prestazioni superiori rispetto ai modelli tradizionali e ricorsivi, a parità di risorse computazionali ma con un numero significativamente inferiore di parametri.