MiniCPM-V 4.5 – Sfida ai Colossi dell’AI

MiniCPM-V 4.5 è un modello multimodale di 8 miliardi di parametri che può analizzare immagini, video e testo (…secondo la documentazione ufficiale, raggiunge prestazioni competitive con modelli molto più grandi come GPT-4o). Le caratteristiche principali includono capacità avanzate di OCR e riconoscimento del testo, anche scritto a mano. Può processare immagini ad alta risoluzione fino a 1.8 milioni di pixel mantenendo qualsiasi formato. Supporta oltre 30 lingue. Per i video, utilizza una tecnica chiamata “3D-Resampler” che comprime più frame in meno token, permettendo di analizzare video lunghi o ad alta frequenza senza aumentare significativamente il carico computazionale. Può gestire fino a 10 FPS e video di lunga durata. Il modello offre due modalità operative: una “fast thinking” per risposte rapide e una “deep thinking” per problemi più complessi che richiedono ragionamento articolato. La documentazione evidenzia prestazioni superiori su benchmark specifici come OCRBench e Video-MME rispetto ad altri modelli della stessa categoria. È rilasciato con licenza che permette uso gratuito per ricerca accademica e, dopo registrazione, anche per uso commerciale.