Anche secondo l’analisi del Sentiment Virginia Raggi non è spacciata

Lorenzo Romani
5 min readJul 25, 2020

--

Gli ultimi sondaggi sulle elezioni amministrative per il rinnovo della giunta capitolina sono stati una sorpresa per molti. Chi pensava (o sperava) che il Sindaco Raggi partisse sconfitto ha scoperto che invece l’amministratore grillino ha ancora le sue carte da giocarsi, con un 20–25% dei romani favorevole alla ricandidatura.

Allora ho cercato di capire se dall’analisi del profilo Facebook di Raggi sia possibile, e con quali margini di errore, ottenere qualche indicazione.

Visto che recentemente ho iniziato — anche se con un certo scetticismo, lo ammetto — a studiare metodi per analizzare il “sentiment”, ho deciso di utilizzare questo approccio applicando diversi algoritmi di machine learning agli oltre 740mila commenti lasciati sul profilo del Sindaco dal luglio 2016 al giugno 2020.

Dopo aver scaricato tutti i commenti ne ho classificati manualmente (lavoraccio…) circa 10mila suddividendoli in tre categorie: Negativi, Neutrali, Positivi.

E già questa è una scelta strategica perché nel classificare i post manualmente mi sono reso conto che spesso anche per un “umano” è difficile decidere — e mantenere una certa costanza nel corso del lavoro di classificazione — quali siano i confini fra un post negativo ed uno neutrale, fra uno neutrale ed uno positivo.

Per “semplificare” il lavoro dell’algoritmo ho scelto quindi di considerare positivi tutti i commenti contenenti “positività esplicita”. Ad esempio:

grande Virginia, sei il miglior sindaco che Roma abbia mai avuto”; “finalmente una classe politica onesta alla guida della capitale”; “avanti così, i romani sono con te

Al contrario, i commenti contenenti “negatività esplicita” sono stati classificati, ovviamente, come negativi:

“vai a casa incapace”, “tra un po’ tornerai a fare le fotocopie di atti giudiziari”, “prenderti i meriti dei lavori fatti dalla giunta Marino, indegna”

Che dire dei neutrali? Si tratta sicuramente della categoria che “incasina” un po’ tutto quanto, perché in essi si trova letteralmente di tutto, soprattutto a livello romano: insoddisfazione per lo stato della città, rabbia, sfoghi e deliri di tutti i generi, richieste di intervento, dissertazioni sulla politica italiana ed internazionale. Per non parlare della grammatica e dei congiuntivi (questo è un altro discorso). Il problema principale è che ci sono anche commenti che hanno un sentiment implicitamente negativo o positivo, ma che io ho deciso di classificare comunque come neutrali perché sono interessato esclusivamente a valutare se, nel corso degli ultimi mesi/anni, ci sia stata una “esplosione” di negatività (o positività) esplicita sul profilo del Sindaco pentastellato.

Una volta classificati i primi 10mila commenti, li ho dati in pasto a 6 diversi algoritmi di machine learning. Ciascuno di questi ha “studiato” la struttura dei testi e la frequenza delle parole utilizzate nelle tre categorie, e poi in base alla conoscenza acquisita ha elaborato una “predizione” su tutto il “corpus” di testi pubblicati, storicamente, sul profilo del Sindaco. Per ciascun commento, ho preso la “predizione” più comune. Ad esempio, se 4 algoritmi hanno valutato un commento come positivo e gli altri due come neutrale, allora il commento è stato considerato positivo.

Il risultato è questo:

Dall’immagine si evince chiaramente che non sembra esserci stato un evidente aumento dei negativi, neutrali o positivi a partire dall’inizio della consiliatura nel 2016. Ma quanto è affidabile questa analisi?

Secondo il modello che ho utilizzato, l’analisi è affidabile all’82/83%. Secondo una verifica manuale di circa 1000 commenti valutati dall’algoritmo, ho notato che più verosimilmente la precisione si aggira fra il 79 e l’81%. Numeri comunque del tutto soddisfacenti (almeno per me).

Questo significa che il grafico riportato contiene un margine di errore del 20% circa. Che non è affatto male, considerata la vastità e, soprattutto, la qualità (bassissima) del corpus di testi analizzato.

Ma in che modo questo 20% di errore si distribuisce? C’è una categoria sovrastimata rispetto alle altre?

Nell’immagine qui sopra i riquadri colorati di rosso scuro indicano le percentuali di predizioni corrette. Sulle assi x e y sono riportate le categorie di sentiment (0 = negativo, 1 = neutrale, 2 = positivo) predetto ed effettivo.

Come potete constatare, l’algoritmo è stato in grado di valutare correttamente i commenti negativi l’83% delle volte; quelli di sentiment neutrale sono stati correttamente classificati nell’86% dei casi, percentuale che scende all’82% nel caso dei positivi.

Nel 14% dei casi, invece, post negativi sono stati classificati neutrali, e nel 15% dei casi post positivi sono stati classificati neutrali. E’ la conferma del fatto che la cosa più difficile, per l’algoritmo, è stato capire la differenza fra commenti polarizzati e commenti “ne carne ne pesce”.

Ma quel che conta di più è che sono piuttosto rari i casi in cui post negativi sono stati considerati positivi (2,7%) o in cui post positivi sono stati considerati negativi (2,9%). Percentuali quasi identiche e che quindi si “compensano” più o meno a vicenda. La matrice indica in sostanza che nel grafico iniziale i post neutrali sono sovrastimati (15% circa) in favore di quelli negativi e di quelli positivi.

E’ stato poi divertente estrarre la classifica degli utenti maggiormente critici e maggiormente favorevoli. Si ottiene così un interessante estratto di “fan” e “hater” più attivi nel supportare o demolire l’operato della sindaca (gli user ID sono oscurati per ragioni di privacy):

La cara vecchia insiemistica invece torna sempre utile per vedere se ci sono sovrapposizioni fra utenti che hanno commentato positivamente, negativamente o “neutralmente” (il tutto, ovviamente, tenendo presente che l’analisi presenta un margine di errore):

Che deduzioni si possono fare dall’analisi di questi numeri? Sicuramente, per cominciare, bisogna tenere presente che la platea — ancorché piuttosto vasta, oltre 200mila persone — è probabilmente sbilanciata nei confronti dei sostenitori del Sindaco (gente che ne segue il profilo). Ma i dati a mio avviso non indicano grandi picchi di negatività ne un forte sbilanciamento nel “sentiment” dei romani, che sembrerebbe essere rimasto piuttosto stabile, nelle rispettive proporzioni.

Ho l’impressione che i dati puntino ad un elettorato ancora confuso, spesso insoddisfatto per le condizioni in cui versa la capitale ma non sempre disposto, nonostante il malcontento generale, ad “accollare” tutte le colpe al sindaco.

--

--

Lorenzo Romani
Lorenzo Romani

No responses yet