Google ha da qualche giorno annunciato l’arrivo di Gemini, il modello di intelligenza artificiale più performante di Mountain View ed un ulteriore passo in avanti nel rendere questa nuova tecnologia fruibile per tutti. Costruito partendo da zero, Gemini è in grado di comprendere e lavorare senza soluzione di continuità e combinare diversi tipi di informazioni, tra cui testo, immagini, audio, video e codice, grazie alle sue avanzate capacità di elaborazione e codifica. Per garantire la flessibilità di applicazione, che va dai data center fino ai dispositivi mobili, Gemini vanta tre diverse diverse tipologie: Ultra, Pro e Nano.

Sundar Pichai, Ceo di Google, sostiene che Gemini offra già dalla sua prima versione, prestazioni all’avanguardia rispetto a molti benchmark leader di settore. Questa nuova era, aggiunge Pichai nella sua nota, rappresenta uno dei più grandi sforzi scientifici e ingegneristici che Google abbia intrapreso e si dichiara entusiasta delle opportunità che Gemini offrirà per le persone in tutto il mondo.

Esso è il risultato di una collaborazione su larga scala che ha coinvolto molti team dell’azienda, compreso il Team di Google Research, afferma invece Demis Hassabis, Ceo e Co-fondatore di Google DeepMind, che aggiunge come le sue funzionalità all’avanguardia miglioreranno in modo significativo il modo in cui gli sviluppatori e le aziende costruiscono e scalano i loro progetti con l’intelligenza artificiale. Dai test risulta, infatti, come le prestazioni di Gemini Ultra, riferite ad una grande varietà di compiti, dalla comprensione naturale delle immagini, dell’audio e dei video, al ragionamento matematico, superino i migliori modelli oggi disponibili in 30 dei 32 benchmark accademici di settore utilizzati più comunemente nella ricerca e sviluppo dei grandi modelli linguistici (Llm).

Con un punteggio del 90%, inoltre, Gemini Ultra è il primo modello a ottenere risultati migliori delle prestazioni umane in ambito Mmlu (massive multitask language understanding; comprensione linguistica multitasking su larga scala), che utilizza una combinazione di 57 materie tra cui matematica, fisica, storia, diritto, medicina ed etica, per valutare sia le conoscenze che le capacità di risoluzione dei problemi. Il nuovo approccio in Mmlu permette al modello di linuguaggio Gemini di utilizzare le sue capacità di ragionamento per valutare più attentamente prima di rispondere a domande difficili, con miglioramenti notevoli rispetto a una risposta più immediata. Gemini Ultra ha ottenuto anche un punteggio all’avanguardia del 59,4% sul nuovo benchmark Mmmu, che consiste in compiti multimodali che spaziano tra differenti ambiti che richiedono capacità di elaborazione complesse. Con i benchmark per le immagini utilizzate, l’Ia svelata da Google ha superato i precedenti modelli più avanzati, senza l’assistenza di sistemi di riconoscimento ottico dei caratteri (Ocr) che estraggono il testo da un’immagine per successive analisi. Questi benchmark evidenziano la multimodalità nativa di Gemini e indicano i primi segni delle sue complesse capacità di elaborazione delle informazioni.

Fino ad ora, l’approccio standard alla creazione di modelli multimodali prevedeva l’addestramento separato di componenti dedicate a ciascuna modalità, e un loro successivo raccordo. Questi modelli a volte possono essere efficaci nello svolgimento di determinati compiti come la descrizione delle immagini, ma hanno difficoltà con ragionamenti più concettuali e complessi. Di contro, Gemini è addestrato fin dall'inizio ad operare su diverse modalità; questo gli permette di comprendere e ragionare su ogni tipo di input in modo strutturale e senza discontinuità, elevando le sue capacità al vertice della categoria in quasi tutti gli ambiti.

Le sofisticate capacità di ragionamento multimodale di Gemini possono aiutare a dare senso a complesse informazioni scritte e visive. Questo rende Gemini particolarmente abile nel fare emergere conoscenze che possono essere difficili da individuare all’interno di una grande quantità di dati. L’addestramento per riconoscere e comprendere testo, immagini, audio e altro contemporaneamente, e di conseguenza comprende meglio le sfumature tra le informazioni, consente a Gemini di rispondere anche a domande relative ad argomenti complicati, e questo lo rende particolarmente utile per spiegare ragionamenti complessi, per esempio in matematica e fisica. La sua straordinaria capacità di estrarre informazioni rilevanti da centinaia di migliaia di documenti attraverso la lettura, il filtraggio e la comprensione dei contenuti, contribuirà a realizzare nuove scoperte ad alta velocità in molti campi, dalla scienza alla finanza. Gemini, inoltre, Ultra eccelle in molti benchmark di coding e può essere utilizzato come motore per sistemi di programmazione più avanzati.

Gemini è da subito disponibile con Bard, che ne utilizzerà una versione dedicata per elaborazioni avanzate, pianificazione, comprensione e altro. Questo è l’aggiornamento più importante di Bard da quando è stato annunciato, sarà inizialmente disponibile in inglese in più di 170 paesi e, nei prossimi mesi si aggiungeranno nuova lingue e aree geografiche. Google sta portando Gemini anche su Pixel 8 Pro, che sarà il primo smartphone progettato per incorporare Gemini Nano, e nei prossimi sarà disponibile su prodotti e servizi Google come la Ricerca, Ads, Chrome e Duet Ai.

Nonostante i notevoli progressi di Gemini, Google si sta adoperando per estendere ulteriormente le sue capacità nelle versioni future, inclusi progressi su pianificazione e memoria, e aumentando l’ampiezza di contesto per elaborare ancora più informazioni e dare risposte migliori.