Mixture-of-Recursions (MoR)

E’ arrivato il transformer killer? Mixture-of-Recursions (MoR), un nuovo framework Transformer che mira a migliorare l’efficienza dei modelli linguistici su larga scala. MoR raggiunge questo obiettivo combinando la condivisione dei parametri con la computazione adattiva a livello di token. Utilizza…