Sentiment analysis AI: cosa misura davvero quel 78%

Gli LLM reggono sul sentiment letterale, crollano sul sarcasmo. Per il marketing italiano questo cambia il modo di leggere la dashboard — non di buttarla.

Il numero verde sulla dashboard non è una verità, è una sintesi

La scena è familiare. Lunedì mattina, riunione marketing, qualcuno apre la dashboard di social listening e legge ad alta voce: “sentiment del brand positivo al 78%”. Il team annuisce, si passa alla slide successiva, si decide di non cambiare la campagna in corso.

Il problema non è la dashboard, e nemmeno il modello che ci sta dietro. Il problema è il salto cognitivo che facciamo tra “il sistema mi restituisce un numero” e “quel numero descrive la realtà del mio brand”. Sono due cose diverse, e confonderle ha conseguenze concrete su come si allocano budget, si gestiscono crisi reputazionali, si decide se una campagna sta funzionando.

Nelle prossime righe propongo una lettura diversa di quel 78%. Non perché vada buttato — il social listening con AI è uno strumento serio — ma perché esiste un modo molto specifico di leggerlo che fa la differenza tra chi lo usa bene e chi si racconta una storia. La chiusura dell’articolo è operativa: tre domande concrete da farsi prima di guardare il punteggio aggregato.

Cosa dicono i dati 2025: dove gli LLM funzionano e dove no

Ad aprile 2025 è uscito su Scientific Reports (gruppo Nature) uno studio peer-reviewed che ha messo a confronto otto varianti di LLM — GPT-3.5, GPT-4, GPT-4o, GPT-4o-mini, Gemini, Llama-3.1-70B, Mixtral 8×7B — con 33 annotatori umani su 100 testi curati. In totale, 3.300 annotazioni umane e 19.200 da modello.

Il risultato è bifronte e va letto bene.

Sul sentiment letterale, gli LLM vanno benissimo. L’affidabilità misurata con alpha di Krippendorff è intorno a 0.95, paragonabile a quella degli annotatori umani. Tradotto: se chiedi a un modello moderno di classificare un commento esplicito come “il prodotto è arrivato rotto, sono furioso”, ti dà la risposta giusta in modo stabile. Su questo terreno la tecnologia funziona.

Sul sarcasmo, sia gli LLM che gli umani crollano allo stesso livello: alpha intorno a 0.25. È un valore basso, vicino al caso. Significa che quando un commento usa ironia, sarcasmo o sottinteso, il modello indovina poco più di quanto farebbe tirando una moneta — e gli umani, pur con un margine, non vanno molto meglio. Lo studio segnala anche che modelli diversi hanno bias sistematici opposti: GPT-4 tende a vedere sarcasmo dove non c’è (tasso medio 4.36 su una scala più alta), Gemini tende a non vederlo (3.19). Stesso testo, due interpretazioni diverse.

Un esempio concreto da un paper di ottobre 2025: “Great, another delay.” Per chi scrive è frustrazione esplicita. Per molti modelli, in lettura letterale, è un commento positivo perché contiene “great”. Una catena di ragionamento del modello che si ferma alla superficie linguistica produce esattamente questo errore.

Da ricordare: non è che il modello “sbaglia”. Il modello fa quello per cui è progettato — riconoscere pattern linguistici espliciti — e lo fa molto bene. Il problema nasce quando lo usiamo per qualcosa di diverso, cioè interpretare l’intenzione comunicativa di chi scrive. Sono due task differenti, e confonderli è il primo errore di metodo.

Il problema italiano: ironia, dialetto, sottinteso

Aggiungo un livello che il dibattito italiano sulla sentiment analysis tende a saltare. La maggior parte dei modelli generalisti è addestrata prevalentemente su dati anglofoni. Anche quando supportano l’italiano, il peso dei pattern italiani nel training set è una frazione di quello inglese, e i pattern di ironia italiana non assomigliano a quelli anglosassoni.

Pensiamo a tre tipi di commento che un brand italiano riceve quotidianamente sui social:

  • Il complimento ironico: “Bravissimi, ci sono voluti solo tre mesi per rispondere alla mia mail.” Letterale: positivo. Reale: lamentela seria su tempi di assistenza.
  • Il neutro che è una stoccata: “Vedo che il servizio è migliorato moltissimo.” Senza contesto storico (es. una campagna pubblica recente sul restyling), un modello non ha modo di capire l’antifrasi.
  • L’understatement: “Niente di che, comunque grazie.” Spesso è un giudizio negativo soft, ma in lingua italiana è codificato come educata smorzatura. Un modello tarato su pattern espliciti lo classifica neutro o lievemente positivo.

Questi tre commenti, in una dashboard con dieci milioni di menzioni, finiscono nella colonna “neutro/positivo” e contribuiscono a quel 78%. Sommati su scala, alterano la fotografia in modo non banale.

McKinsey nel 2023 in un report ancora oggi citato come riferimento ha sottolineato un punto che vale doppio per chi lavora in italiano: il valore della GenAI nel marketing emerge quando il modello viene alimentato con dati e contesto specifici dell’azienda, non quando viene usato out-of-the-box. La sentiment analysis su lingua italiana, settore italiano, tono di voce italiano richiede esattamente questo lavoro di calibrazione — che il singolo tool, da solo, non fa.

Le tre domande da fare prima di guardare la dashboard

Arrivo al punto operativo. Nel framework di AI Fluency, la terza D è Discernimento: la capacità di valutare criticamente l’output di un sistema AI prima di usarlo per decidere. Tradotto sul caso del social listening, significa fare tre domande prima di leggere il punteggio aggregato.

Su che lingua e che dominio è stato addestrato il modello?

La maggior parte dei tool di social listening enterprise non rivela in modo trasparente la composizione del training set. Quello che possiamo fare è chiedere al vendor: che percentuale di dati italiani? Il modello è stato addestrato su contenuti del nostro settore (e-commerce, fashion, finance, food)? Esistono benchmark di accuratezza pubblicati per l’italiano? Se le risposte sono evasive, è un’informazione utile in sé.

Come gestisce sarcasmo e ironia, soprattutto nel mio settore?

Il modo concreto per rispondere è un audit campione. Si prendono 200-300 commenti reali sul nostro brand degli ultimi sei mesi, si fanno classificare manualmente da due persone interne (idealmente di funzioni diverse, marketing e customer care), si confronta la classificazione umana con quella del tool. Il delta su sarcasmo e ironia è il dato che conta. Senza questo passaggio, l’accuratezza dichiarata dal vendor è una promessa, non una misura.

Quanti dei commenti “neutri” sono critiche soft non rilevate?

La categoria “neutro” è spesso la più grande nelle dashboard ed è quella in cui finiscono gli errori interpretativi. Vale la pena prendere un campione casuale di 100 commenti classificati come neutri e leggerli a mano. Quanti sono davvero neutri? Quanti sono critiche soft, understatement, ironia? Quanti sono complimenti smorzati? Il numero che esce è una misura concreta di quanto il punteggio aggregato distorce.

Framework operativo — la D di Discernimento sul social listening. Per ogni tool di sentiment analysis che usate o state valutando: 1) cercate trasparenza sul training set; 2) fate un audit campione di 200-300 commenti reali con classificazione umana parallela; 3) leggete a mano un campione della categoria “neutro”. Tre passaggi, tempo richiesto realistico: una settimana. Senza questi, il punteggio aggregato è una storia che vi state raccontando.

Cosa cambia nel processo (e cosa no)

Non sto suggerendo di abbandonare il social listening con AI. Lo strumento ha un valore reale: scala su volumi di menzioni che nessun team umano potrebbe processare, identifica trend prima che diventino visibili, segnala anomalie. Quello che cambia, dopo aver fatto le tre domande, è cosa si chiede al tool.

Il punteggio aggregato smette di essere una metrica per decidere e diventa un trigger per investigare. Un drop dal 78% al 65% è un segnale che qualcosa è successo — e da lì si va a leggere a mano i commenti che hanno mosso l’ago. L’human-in-the-loop si sposta dalla fase di review finale alla fase di calibrazione iniziale: si insegna al sistema cosa ignorare nel proprio settore, si annotano manualmente categorie ambigue ricorrenti, si costruiscono benchmark interni che il vendor non può darti.

È un cambio di posizionamento mentale. La sentiment analysis con AI passa dall’essere “lo strumento che mi dice come va il brand” a essere “lo strumento che mi aiuta a fare le domande giuste sul mio brand”. Sembra una sfumatura. È la differenza tra chi usa bene questi sistemi e chi si racconta una storia.

E quella differenza, quasi sempre, sta nelle domande che si fanno prima di guardare la dashboard.

Fonti

  • Bojic, L. et al., Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm, Scientific Reports (Nature), aprile 2025, link
  • Sentiment Analysis: Challenges and Insights, Journal of Marketing & Social Research, ottobre 2025, link
  • McKinsey & Company, AI-powered marketing and sales reach new heights with generative AI, maggio 2023, link