Quarta puntata della serie. Oggi affrontiamo una parola che è diventata centrale nelle presentazioni AI del 2026 e che, per come viene usata, sembra molto più tecnica di quanto sia in realtà: multimodale.
Cominciamo dalla parola stessa. Modalità in linguaggio AI significa "tipo di dato": testo, immagini, audio, video. Un modello unimodale lavora con un solo tipo. Un modello multimodale lavora con due o più tipi insieme.
Tutto qui. È il concetto base.
Quello che rende la cosa interessante non è la definizione. È cosa diventa possibile quando un'AI può guardare, ascoltare, leggere e capire — tutto nello stesso momento.
La metafora
Pensate a uno specialista che potete consultare per email.
Se il vostro specialista può leggere solo le vostre parole, dovete raccontargli tutto: il problema, il contesto, i dettagli, com'è fatto l'oggetto, che suono fa, dove sta il sintomo. È quello che fa un'AI testuale (ChatGPT base, Claude testuale). Funziona, ma molto del tempo lo spendete a descrivere invece che a risolvere.
Se il vostro specialista può anche vedere la foto che gli mandate, ascoltare la registrazione audio, leggere la planimetria che gli inoltrate — allora una grossa parte di descrizione sparisce. Voi dite "questo affare fa questo rumore quando lo accendo" e mandate un video di 5 secondi. Lo specialista sa esattamente di cosa state parlando.
Questo è un'AI multimodale. Vi capisce con meno fatica vostra. E spesso vi dà risposte più precise, perché ha più contesto da cui partire.
I quattro casi business in cui cambia tutto
Tre anni fa, queste applicazioni erano ricerca avanzata o demo. Oggi, nel 2026, sono prodotti reali che potete comprare o costruire.
1. Customer service: l'utente manda la foto
Esempio reale. Un cliente di un'azienda di elettrodomestici scrive al customer care: "la lavatrice perde acqua, cosa faccio?". Customer service classico: dieci messaggi avanti e indietro per capire da dove perde, da quanto, in quali condizioni, modello, anno di acquisto.
Customer service multimodale: il cliente manda la foto della lavatrice. L'AI riconosce il modello, identifica visivamente la perdita (sotto la guarnizione, dal filtro, dal tubo di scarico), e in due battute fornisce la procedura giusta.
Cosa serve perché funzioni: un modello multimodale (oggi facilmente accessibile via API), una base di conoscenza del prodotto (vedi il pezzo su RAG), un'integrazione con il sistema di ticketing.
ROI tipico: il tempo medio di risoluzione di un ticket cala del 40-60%. Per aziende con volumi alti, è enorme.
2. E-commerce: la ricerca per immagine
Esempio. Un utente vede un divano in foto su Instagram, lo vorrebbe acquistare ma non sa marca/modello. Apre il vostro sito, carica la foto. L'AI multimodale riconosce le caratteristiche visive — forma, colore, struttura, tessuto, gambe — e trova nei vostri prodotti i 5 più simili.
Funziona molto bene per arredamento, moda, accessori. Funziona meno bene per categorie dove la differenza è funzionale e non visiva (un mouse da un altro mouse).
ROI tipico: conversion rate +20-35% sui prodotti dove la ricerca per immagine è attivata. Più alto su marketplace, più basso su brand single-product.
3. Manifattura: il controllo qualità visivo
Esempio italiano classico. Una linea di produzione che assembla componenti. Difetti rari, ma costosi. Controllo qualità tradizionalmente fatto da operatori esperti che guardano "a occhio".
AI multimodale: una telecamera sopra la linea, un modello addestrato a riconoscere difetti specifici. Il modello segnala ogni pezzo sospetto a un operatore umano che decide. Il modello non sostituisce l'operatore — lo amplifica.
Quello che era quality control random diventa quality control sistematico. I difetti che prima sfuggivano vengono presi. Quelli falsi positivi vengono educati.
ROI tipico: dipende moltissimo dal settore, ma per aziende manifatturiere italiane di precision engineering — pensiamo al vostro Loccioni — è uno dei casi più maturi e meglio quantificabili.
4. Compliance e documentazione: il "leggere documenti complessi"
Esempio per studi professionali, consulenze, sanità. Un commercialista deve controllare un bilancio: PDF di 80 pagine, con tabelle, grafici, note a margine. Il modello testuale fatica con i PDF complessi (le tabelle si "spezzano" nel testo). Il modello multimodale guarda l'immagine della pagina e capisce la tabella come la capirebbe un umano.
Stesso vale per cartelle cliniche, contratti con clausole evidenziate, planimetrie con annotazioni, schede tecniche.
ROI tipico: il tempo speso a "decifrare" un documento complesso cala del 70-80%. La parte dove l'AI può sbagliare (un'interpretazione errata) è gestita con una revisione umana finale, che resta indispensabile.
Come capire se vi serve
Una checklist veloce. Se rispondete sì a una di queste, l'AI multimodale è una pista seria per voi.
- I vostri clienti vi mandano foto, video, audio nelle comunicazioni quotidiane?
- I vostri prodotti hanno una componente fisica visivamente riconoscibile?
- Il vostro lavoro include "leggere" documenti con molte immagini, tabelle, schemi?
- Avete operatori specializzati che fanno controlli visivi o uditivi?
Se la risposta a tutte è no, probabilmente l'AI testuale (più matura, più economica) basta. Se la risposta a una è sì, vale la pena valutare un pilota multimodale.
Quando NON vi serve
Tre red flag.
Vi propongono "AI multimodale" per problemi che sono solo testuali. Resistete. Aggiungere modalità che non vi servono è solo complessità e costi.
Vi propongono un modello multimodale "custom" senza aver fatto un pilota. I modelli commerciali (GPT-5, Claude 4, Gemini 3) sono multimodali nativi e funzionano molto bene su quasi tutti i casi d'uso comuni. Il custom serve solo per casi davvero specifici (medicina specialistica, industrial vision di precisione). Per il resto, partite dal modello commerciale.
Vi propongono un sistema che fa "tutto" — testo, immagini, audio, video, ragionamento avanzato. Probabilmente è una vendita di pacchetto, non una soluzione mirata. Partite da un caso d'uso, scalate quando il primo funziona.
Riassunto in tre righe
Un'AI multimodale è un modello che capisce più tipi di dati insieme — testo, immagini, audio, video.
Cambia tutto nei casi business dove la comunicazione col cliente o col processo non è solo testuale.
Vale la pena partire da un pilota su un caso specifico, non da una "strategia AI multimodale enterprise".
Lunedì 10 agosto torniamo al pillar branding con un pezzo sui brand stagionali: chi sa usare il calendario emotivo (Mulino Bianco, Lavazza) e chi finge. Tre PMI italiane che hanno fatto del calendario un asset, non un costo.
A lunedì.
Vi state chiedendo se l'AI multimodale può aiutarvi davvero? Su intelligenza artificiale per il business facciamo audit di casi d'uso AI in mezza giornata. Vi diciamo se ha senso, e quanto costa farlo bene. Parliamone.
