Il robot che si può mangiare, i nuovi modelli di OpenAI e Google, la 200 del Late Tech Show...
Anche se è Pasquetta, ecco le notizie tech che mi hanno colpito e che credo meritino anche la tua attenzione, ma fammi sapere cosa ne pensi.
Nel frattempo, domani celebro la puntata numero 200 del Late Tech Show con il contributo di qualche manager che ha deciso di raccontarmi cosa è successo in questo periodo, che ringrazio anticipatamente, come ringrazio tutte e tutti coloro che non ce l’hanno fatta per vari motivi (Pasqua, ponti, fiere, …) Sarà in diretta e lancerò i contributi registrati…
Lo so, dal sito il numero delle puntate è diverso, ma questa è la puntata 200 “reale”.
Qual è il modello che uso?
Durante un mio intervento al Salone del Risparmio sull’AI, mi è stato chiesto quale modello uso.
La risposta breve è stata: li provo un po’ tutti per professione, e non ne uso uno solo, cerco di selezionare il meglio per il compito preciso per cui mi servono.
In questo momento sono innamorato di Cohere per le ricerche in documenti molto grandi ed estesi, ma usiamo in redazione Claude 3.5 Sonnet (06/24) per rivedere i testi, Gemini per la parte SEO, Flux per le immagini…
Non sempre è l’ultima versione (Claude per esempio), ma è fondamentale l’integrazione tra prompt e modello, perché la nuova versione dei modelli potrebbe produrre risultati peggiori e richiedere una revisione del prompt.
Togliamo il condizionale: richiede una revisione del prompt.
Se il risultato è “abbastanza buono”, perché cambiare?
L’AI non fornisce ancora risultati perfetti, per cui potrebbe essere una fatica inutile.
Facciamo chiarezza una volta per tutte su Agenti AI e Agentic AI
Quando si parla di "Agentic AI", quel termine strano "agentic" (che viene dall'inglese "agentive", collegato al verbo "to act", agire) si riferisce proprio alla capacità di agire. Non è tanto l'agente inteso come un "programma" o un "bot" (il sostantivo, "l'agente"), ma proprio la qualità di essere capace di prendere iniziative e compiere azioni per raggiungere un obiettivo.
Pensa alla differenza tra un motore di ricerca e un assistente personale che prenota un volo per te. Il motore di ricerca ti dà informazioni (passivo, risponde alla tua query). L'assistente personale, invece, agisce nel mondo digitale (va sul sito, cerca date, inserisce dati, conferma la prenotazione).
Quindi, quando diciamo "Agentic AI", intendiamo sistemi di intelligenza artificiale che non si limitano a rispondere a domande o a generare testo/immagini su richiesta, ma che sono stati progettati per prendere l'iniziativa, pianificare una serie di passaggi e interagire con l'ambiente digitale (e un giorno forse fisico) per portare a termine un compito complesso.
In pratica, ci si focalizza sul "che agisce", sulla capacità di azione e autonomia per risolvere problemi o raggiungere obiettivi, spesso in modo più complesso e multi-step rispetto ai modelli precedenti che erano più reattivi.
Gli esempi che abbiamo visto, come o3/o4-mini che sanno usare gli strumenti (interprete codice, browsing) o Copilot Studio che può controllare le applicazioni desktop, vanno proprio in questa direzione: mostrano un'AI che non è più solo un "cervello" che pensa, ma anche un "corpo" (digitale) che agisce nel mondo per ottenere risultati.
È una caratteristica, un'abilità nuova che stiamo vedendo emergere e che rende l'AI molto più potente e, sì, "agente" nel senso del participio!
OpenAI: nuovi modelli, nuovi strumenti (e nuovi dubbi)
Incredibile settimana per OpenAI.
Hanno lanciato la famiglia GPT-4.1: il modello base arriva a 1 milione di token (che sono quasi 3.500 pagine di testo!) come gli ultimi modelli, per esempio di Gemini, ed è “super” nello sviluppo di codice. Ci sono anche le versioni Mini e Nano, più veloci ed economiche per chi ha bisogno di performance a basso costo.
Il costo è diventato un tema grande, dopo l’arrivo di DeepSeek la battaglia si è spostata sul costo… e sull’energia.
Ma la vera bomba, per me, sono o3 e o4-mini.
Questi modelli, per la prima volta, sanno usare gli "strumenti" di ChatGPT (web browsing, l'interprete Python, la comprensione delle immagini) da soli per risolvere problemi. Greg Brockman, uno dei fondatori, ha detto che anche gli scienziati “veri” li trovano utili per generare idee nuove in campi diversi come biologia o fisica. Questo è un passo che viene giudicato, a mio avvisto abbastanza a ragione, verso modelli più "agentici" e autonomi. Certo, il prezzo per le aziende si vocifera arrivi a 20.000 dollari al mese... non per tutte le tasche!
Per quanto mi riguarda, l'abilità di usare gli strumenti è la svolta. Finalmente i modelli non sono solo calcolatori isolati, ma possono interagire col mondo digitale come facciamo noi. La cosa va monitorata, soprattutto con i report su possibili "disallineamenti" o comportamenti strani (come quello che ha provato a chiedere password... assurdo!).
E poi, una libreria per le immagini generate direttamente in ChatGPT? Mancava e ci voleva!
Anche il nome dei modelli è un caos, Altman stesso lo ammette... speriamo lo sistemino.
La verifica dell’identità per OpenAI
L’azienda sta aggiornando le proprie procedure di accesso ai modelli, introducendo un requisito di verifica dell'identità.
Infatti, ha introdotto il processo di "Verificazione dell'organizzazione" che richiede ai sviluppatori di presentare un documento di identità rilasciato dal governo per accedere a modelli avanzati.
Ciò potrebbe rallentare l'accesso ai modelli più potenti. Vedremo.
Google non sta a guardare: velocità, controllo del pensiero (e dei costi) e … i delfini
Google non è rimasta a guardare.
Ha lanciato Gemini 2.5 Flash. Un modello velocissimo come il 2.0 Flash, ma molto più potente, quasi a livello dei modelli migliori e molto costosi in circolazione. La cosa interessante è che puoi controllare quanto "ragiona" il modello ("thinking budget"), risparmiando tempo e costi per task semplici, ma permettendo analisi profonde quando serve.
Ha anche esteso la disponibilità di Veo 2, il modello video che genera clip incredibilmente realistiche. Ora è già disponibile direttamente per gli abbonati a Gemini Advanced o negli strumenti per sviluppatori come AI Studio e Vertex AI.
Questa idea di controllare il "budget di pensiero" mi sembra intelligente, ti dà più flessibilità e controllo sui costi. Google sta spingendo forte sull'integrazione dell'AI nei suoi prodotti esistenti (come Gemini in Google Drive, o la ricerca su Edge/Copilot Vision), ed è una strategia che ha senso.
E per gli studenti universitari USA c'è l'accesso gratuito al piano AI Premium di Google One fino al 2026... un bel vantaggio per spingere l'adozione!
E Google ha mostrato un progetto incredibile, chiamato Dolphin Gemma, che usa l'AI per studiare e provare a comunicare con i delfini! Fantascienza che diventa (forse) realtà.
Gli studenti a l’AI
Settimana scorsa, in una cerimonia di Laurea, il professor Cervavolo dell’Università di Pavia ha dichiarato che, dopo essersi scontrato con la decisione di far usare l’AI ai propri studenti, è giunto alla conclusione che la lascerà usare (perché è inevitabile), ma che alzerà le proprie aspettative. Lo aveva già detto in un evento in cui avevo partecipato come relatore oltre un anno fa, ma è chiaro che il dato è tratto.
Il problema è far adattare tutti i professori!
Gli sviluppi smart degli occhiali per Google
Al TED, Google ha fatto vedere un prototipo di occhiali smart con AI, ma la demo sembrava un po' "guidata". La cosa va monitorata.
Ma partiamo da lontano.
Il tutto si basa su Android XR, che è un sistema operativo progettato per caschi e occhiali XR, annunciato da Google nel dicembre 2024. Il lancio è previsto per quest’anno, con il primo dispositivo che dovrebbe essere il caschetto Project Moohan di Samsung, in collaborazione con Qualcomm.
La piattaforma punta su esperienze immersive, integrando Gemini per migliorare l'interazione, e supporta sviluppatori con strumenti familiari come ARCore e Android Studio. Rispetto al Vision Pro di Apple, Android XR adotta un approccio più aperto, rappresentando un ritorno di Google nel mercato XR dopo progetti come Google Glass.
Android XR rappresenta un significativo passo avanti nel settore della realtà estesa (XR), che include realtà virtuale (VR), aumentata (AR) e mista (MR).
Meta e gli oggetti 3D
I strumenti di modellazione 3D generativa sono ora integrati nell'Horizon Desktop Editor! Una “piccola” funzione rivoluzionaria: l'integrazione diretta di AI generativa 3D nell'editor. Ciò consente a chiunque di trasformare le proprie idee in mondi immersivi in poche ore, indipendentemente dall'esperienza. Ora chiunque abbia un'idea per un mondo o un gioco immersivi può farla diventare realtà per i prodotti di Meta.
Il sogno (o l’incubo?) dell'AGI
Con i risultati di o3 e o4-mini che “spaccano” su benchmark complessi (ragionamento, codice), è ripartita alla grande la discussione sull'AGI (Intelligenza Artificiale Generale: ci spazzerà via?
Prima di aprire un dibattito, dobbiamo valutare i tanti “però”.
Stiamo per ora parlando di modelli matematico/statistici, che non hanno nulla a che fare con la nostra intelligenza. Poi, come scrivevo già anni fa in “Digilosofia - Economia Autonoma”, il mondo è già invaso da macchine che fanno business con altre macchine, stiamo solo alzando il livello.
Un secondo però, grande come una casa, è che dobbiamo tenere conto che a volte, spesso molte volte, questi modelli falliscono miseramente su task semplicissimi, tipo abbinare nomi e colori. Questo rende la definizione di AGI ancora non applicabile.
Forse non ci sarà un momento "Eureka!" plateale, ma sarà un percorso piuttosto tortuoso e con un avvicinamento graduale, dove sempre più task vengono sbloccati. Certo, il fatto che un modello abbia superato il test di Turing convincendo il 73% delle persone di essere umano fa pensare e la cosa va monitorata, ma già oggi quando chiediamo un mutuo ci risponde una persona, ma legge uno schermo, esattamente come in un call center…
La competizione per l’AI è sempre più serrata
C'è vita (e competizione) anche fuori dall'asse OpenAI-Google.
ByteDance (sì, quelli di TikTok) ha mostrato un modello "Seed-Thinking-v1.5" che punta sul ragionamento, sfidando OpenAI.
E Ilya Sutskever, uno dei fondatori di OpenAI uscito di recente, ha raccolto 2 miliardi di dollari (per una valutazione di 32 miliardi!) per la sua nuova startup "Safe Superintelligence" (SSI)... che non ha ancora un prodotto, solo una missione.
Incredibile tutta questa fiducia degli investitori!
Provo a fare un piccolo commento. La mossa di ByteDance dimostra che la corsa al ragionamento non è solo affare americano. Per SSI... beh, 32 miliardi senza un prodotto è tanta roba. Chiaramente si investe sulla persona e sulla visione.
Provo anche a lasciarvi qualche breve news (vediamo se gradite questo format nuovo, ma fatemelo sapere):
Netflix sta testando una ricerca basata sull'umore (finalmente, basta scrollare all'infinito!).
YouTube ha creato un assistente AI per creare musica di sottofondo senza copyright (utilissimo per i creator).
Anthropic ha lanciato un tool "Research" che cerca sia sul web che nei tuoi documenti (ottimo per la produttività) e prepara una modalità vocale con voci chiamate "Airy, Mellow, Buttery"... divertente!
Microsoft Copilot Studio sta imparando a usare le app e navigare il web come un utente umano... automazione che diventa sempre più potente.
La generazione video è fuori controllo
Preparatevi a rimanere a bocca aperta. Kling AI 2.0 ha debuttato con capacità di editing multimodale che sembrano magia pura! Può scambiare attori nei video (avete visto Taylor Swift in Severance?!), gestire espressioni facciali complesse e mostrare movimenti e fisiche super realistiche.
Anche Arcads ha lanciato AI Actors per creare pubblicità con controllo sui gesti. La possibilità di manipolare i video in questo modo è impressionante... e un po' spaventosa.
Robot da mangiare
All’Istituto Italiano di Tecnologia hanno creato un robot commestibile, RoboCake, con batterie ricaricabili fatte di gelatina e sciroppo. Sì, avete letto bene, si mangia! I ricercatori dicono che potrebbe servire per la nutrizione medica o sensori digeribili.
Geniale e un po' inquietante!
Microbot come insetti (che risparmiano energia)
Un microbot del MIT che salta come un insetto per muoversi su terreni difficili risparmiando energia. Roba da film di spionaggio!
Google e l’antitrust americano
Il Dipartimento di Giustizia statunitense ha vinto il caso antitrust contro Google, accusata di operare un monopolio nel settore tecnologie di pubblicità internet. La sentenza, un ulteriore colpo alla società per le pratiche anticompetitive nella sua ricerca, indica come Google abbia danneggiato i più e gli autori web. "Google ha agito in modo volontariamente anticompetitivo per acquisire e mantenere un potere di monopolio nei mercati del server di pubblicazione e intermediazione pubblicitaria", ha scritto la giudice Leonie Brinkema. La sentenza dichiara Google responsabile per i suoi comportamenti nel spazio dei tools di ad-tech e intermediazione, ma rigetta l'argomento secondo cui Google ha operato un monopolio nei rete pubblicitari. Google respinge la sentenza e annuncia di appellarsi.
Non perdetevi la puntata 200 del Late Tech Show
I miei libri
LASCIAMI UN MESSAGGIO
Fammi sapere cosa ti ha colpito delle cose che faccio o racconto nei vari eventi, o di quello che ascolti al Late Tech Show, piuttosto che negli SmartBreak (e dal podcast "Vita da ufficio") o che leggi nella newsletter Techy.
Ti prego di farmi conoscere cosa pensi possa essere migliorato, aiutami con le critiche, e soprattutto quali temi vorresti che venissero approfonditi o trattati.
GRAZIE
Se non vi siete ancora iscritti, fatelo, mi permettete di comprendere che apprezzate il mio lavoro.
Iscritto
Più persone la leggono, meglio è, quindi, per favore, condividilo con la tua famiglia, amici e colleghi per far sì che gli effetti di rete si diffondano.
Assicurati di aggiungere gigibeltrame@substack.com ai tuoi contatti. In Gmail, trascina questa newsletter nella tua scheda principale.
Grazie per aver letto questa newsletter, le trovi tutte a questo link.
💁♂️ La Bio
👍 Seguimi su:
Magazine • LinkedIn • Instagram • Facebook • Youtube
Grazie per aver letto Techy di Gigi Beltrame!