Andiamo a conoscere MeMa, la IA costruita da Il Manifesto per lavorare insieme agli esseri umani
Il Manifesto, quotidiano nazionale della sinistra italiana, il 28 aprile scorso ha festeggiato 53 anni di attività. Nelle ultime fasi di questo lungo percorso, la trasformazione digitale è stata affrontata in coerenza con l’identità del giornale, che dal 2016 è definitivamente proprietà di un collettivo di giornalisti e poligrafici riuniti nella cooperativa Il Nuovo Manifesto. In un panorama dove le testate on-line appaiono sempre più mirate a drenare i dati degli utenti – per ora a beneficio di grandi piattaforme ed editori -, il sito ilmanifesto.it si pone primariamente come uno strumento di informazione a disposizione di una community estesa, a cui si rivolge con forme diversificate di membership e di abbonamento. Il Manifesto digitale ha scelto di rifiutare i banner pubblicitari, i cookies di profilazione e la vendita a terzi dei dati degli utenti registrati, mettendo in atto una strategia difensiva contro i crawler, i software che scandagliano la rete per alimentare le banche dati e addestrare le intelligenze artificiali. Si è lanciato inoltre nello sviluppo di MeMa, ovvero Memoria Manifesta, intelligenza artificiale proprietaria definita “IA di comunità”, che a fine novembre scorso è stata ufficialmente presentata a CLIC-IT 2023, convegno annuale della linguistica computazionale. Di MeMa parliamo con Matteo Bartocci, dal 2003 giornalista del Manifesto e dal 2013 responsabile delle edizioni digitali della testata, che di questo progetto si è occupato sin dai primi passi.
MeMa è un’intelligenza artificiale incentrata sull’utilizzo dell’archivio storico del giornale. Ce la presenti?
MeMa è un progetto che nasce nel 2020 con Salvatore Iaconesi e Oriana Persico, due personaggi straordinari – hacker, media attivisti e teorici dell’informazione – che sono stati i primi ad affacciarsi insieme a noi per costruire una intelligenza artificiale che interrogasse tutto l’archivio storico del manifesto. È una storia apparentemente semplice: nessuno di noi ha letto tutto Il manifesto, dal primo numero a oggi, e se anche qualcuno lo avesse fatto, ricordare tutti gli articoli e trovare i nessi fra di loro è un compito che un essere umano difficilmente può svolgere. Per cui già con le tecnologie di tre anni fa, che erano molto diverse da quelle di oggi, ci è venuto in mente di provare a costruire un sistema socio-tecnico che aiutasse sia l’archivista umano (nel nostro caso la collega Bruna Di Pietrantonio), sia il pubblico, a scoprire i contenuti dell’archivio. Oggi siamo arrivati alla versione MeMa 3, che fra il 2022 e il 2024 abbiamo sviluppato insieme alla società Isagog, con molte novità previste entro la fine di quest’anno. In un paio d’anni abbiamo fatto passi da gigante, a cominciare dalla base di dati, che è meno visibile ma molto importante. Nel dibattito generale sull’IA si parla molto del problema del copyright o del furto delle informazioni, ma si tende a sottovalutare l’importanza dei dati di partenza, che a mio avviso è “il Tema”:
se la base di dati è coerente, pulita, leggibile, l’intelligenza artificiale lavora molto bene; se invece è piena di errori o lacune, allora lavora malissimo.
Quindi, rendere i dati fecondi è il lavoro su cui per prima cosa ci siamo dovuti misurare.
Il vostro archivio è stato dunque tutto digitalizzato e reso accessibile?
L’archivio del manifesto è digitalizzato al 90%. Ha una lunga storia ed è vincolato dal MIBACT come bene culturale, quindi abbiamo l’obbligo di conservarlo e di renderlo consultabile. Tra l’altro è uno dei pochi archivi dei giornali di sinistra ancora pubblici su Internet. Chiunque può consultarlo gratuitamente sul nostro sito, cliccando su Archivio storico. Inoltre per noi è uno dei tanti modi per restituire ai cittadini i contributi pubblici per l’editoria che il manifesto riceve. Lo facciamo editorialmente, con quello che scriviamo tutti i giorni sul giornale, ma anche mettendo a disposizione un archivio curato e aperto a tutti.
Per entrare in concreto: qual è la differenza fra usare MeMa e la classica ricerca basata su parole chiave?
La prima differenza fra usare l’intelligenza artificiale o, ad esempio, le stringhe di Google, sta nella potenza dell’IA. La grossa novità, che è venuta nell’ultimo anno e mezzo, è che questa ricerca è divenuta semantica, cioè io non cerco la parola chiave, ma cerco dei significati. Sono significati che la macchina scopre da sola: non siamo noi a darglieli, non è l’archivista che inserisce i metadati. Ad esempio, nel contenuto di un articolo che parla del bombardamento dell’Iran su Israele ci saranno delle parole chiave. Potrebbero essere: guerra, 7 ottobre; oppure Palestina, Damasco, cioè dei concetti che l’archivista di solito assegna manualmente all’articolo nella tradizionale archiviazione “non intelligente”. MeMa 3 fa una cosa in più, cioè negli articoli riconosce le persone, i luoghi e le organizzazioni. Ad esempio, leggendo un articolo riconosce una parola, poniamo “Renzi”, e riconosce che quella parola è in realtà la persona Matteo Renzi e quindi le dà un significato, si costruisce dei concetti. Questa costruzione si definisce ontologia. Quindi Renzi è un concetto, in particolare è una persona precisa (che è stato presidente del Consiglio, segretario del Pd, leader di Italia Viva, sindaco di Firenze, ecc.). Lo stesso avviene per i luoghi e per le organizzazioni. Ci abbiamo messo tre anni per arrivare a questo risultato, che può sembrare banale, ma adesso MeMa sa costruire una ragnatela di concetti che ovviamente potrà essere sfruttata. Questo avverrà a breve con MeMa 4, che arriverà entro la fine dell’anno e ci consentirà di fare delle interrogazioni più simili a quelle su ChatGPT, ad esempio domandare: “dimmi chi è Matteo Renzi”. Poter rispondere a una domanda qualsiasi in un linguaggio naturale oggi sembra quasi semplice da realizzare. In realtà presuppone una conoscenza da parte della macchina dei termini che stai scrivendo. Quindi noi potremo chiedere a MeMa: “che è successo il 7 ottobre?” e lei dovrebbe capire (e in parte lo capisce già adesso) che il 7 ottobre non è un 7 ottobre qualsiasi. Negli articoli del manifesto, e giornalistici in generale, scrivere “7 ottobre” significa l’attacco di Hamas a Israele. Quindi il 7 ottobre è un evento, non un numero più un mese. Questi nuclei di eventi vengono chiamati dai tecnici fattoidi, le “cose” che MeMa ha imparato. Quello che faremo quest’estate sarà aggiungere questi eventi alla ragnatela di persone, di luoghi e di organizzazioni già individuate. Potremo dunque domandarle: “che è successo il 7 ottobre?”, e MeMa, riconoscendolo come un fatto di cui il manifesto ha parlato, ci risponderà con ragionevole certezza che il 7 ottobre c’è stato l’attacco di Hamas a Israele che ha portato a 1200 morti, ecc., suggerendoci un elenco di articoli del giornale per approfondire la vicenda. Qual è la novità? MeMa è una “intelligenza artificiale di comunità del manifesto”, vuol dire che noi abbiamo dato a MeMa solo dati nostri e quando tu interrogherai MeMa su quello è successo il 7 ottobre non avrai una versione oggettiva, o presuntamente oggettiva di quel fatto, perché MeMa ha letto solo il nostro archivio, quindi avrai la versione del 7 ottobre raccontata dal manifesto. Questo da un lato è uno svantaggio, perché è solo la nostra visione dei fatti. Ma un primo vantaggio è che fornirà un racconto coerente, ancorato a una fonte trasparente di articoli giornalistici. Il secondo vantaggio è che MeMa dovrebbe “allucinare” molto meno (tendenzialmente per niente): uno dei difetti principali delle IA, infatti, è che se non sanno qualcosa tendono un po’ a indovinare.
O possono addirittura inventare…
Possono inventare totalmente. Questo per ora è un elemento costitutivo proprio del sistema della rete neurale, per cui l’IA non riesce a dire “non lo so”, anche perché ha miliardi e miliardi di informazioni e quindi tende sempre a dare delle risposte. Nel caso di MeMa, se tu domandi, ad esempio, come si cucina la lasagna, abbiamo verificato che risponderà “non sono in grado di aiutarti”. Questo perché probabilmente al manifesto non abbiamo mai scritto un articolo con ricette di cucina. Inoltre definiamo MeMa come IA di comunità perché tutto il sistema è costruito per lavorare con gli esseri umani, mai contro o da solo. Questa è la nostra ambizione ed è anche un’indicazione di rotta.
In questo senso le preoccupazioni di sostituzione dell'uomo sono arginabili, perché MeMa è pensata fin dall’origine come uno strumento di aiuto al pubblico.
In che modo i lettori potranno contribuire all’evoluzione di MeMa?
Sul coinvolgimento dei lettori abbiamo in mente delle strategie di aiuto reciproco. Non abbiamo termini di paragone, perché non credo che molti editori stiano lavorando su queste cose. Allora, MeMa ragiona così: prende un numero del giornale, lo legge interamente, lo classifica, trova le persone, i luoghi, le organizzazioni, i lemmi, i fattoidi e mette tutto in ordine. Ma potrebbe fare degli errori. Per esempio, i casi di omonimia; o potrebbe scambiare un nome per un luogo. Così ci è venuto in mente di proporre al nostro pubblico di adottare un numero del manifesto. Il lettore potrebbe chiedere a MeMa: “che è successo il 7 aprile 1984?”. E MeMa risponderebbe: “il manifesto quel giorno parlava di Tizio, Caio e Sempronio; di questi luoghi e questi fatti, e questi sono gli articoli di quel numero”. Il lettore che adotta un numero può segnalare un’incongruenza che ha riscontrato, o può ripulire il numero e lasciarlo sistemato e archiviato. Questo è condividere la conoscenza, non chiuderla in silos proprietari. E potrebbe anche essere un modo per far capire alle persone che l’intelligenza artificiale ha bisogno degli esseri umani per fare le cose. Non è vero che le IA imparano tutto da sole – e le IA dicono anche un sacco di fesserie. Sai che hanno usato centinaia o migliaia di lavoratori in Kenya per cercare di addestrare ChatGPT prima del rilascio al pubblico, un esercito di archivisti che per noi è impossibile. Però l’idea che l’archivio del manifesto non sia solo nostro, ma sia anche della più ampia comunità dei lettori, può essere un progetto culturale che esce dai soliti schemi. Se io e te ci mettessimo ad archiviare un numero, ti accorgeresti che potremo avere esiti differenti e che ci sono un sacco di ambiguità nel prendere certe scelte. Così, facendolo direttamente, vedendo il retro di ciò che da utilizzatori non vediamo, ti puoi accorgere anche dell’opinabilità di certe scelte delle grandi piattaforme, ad esempio, decidere se una persona va segnalata perché è rilevante oppure no. Per noi è anche un modo per avvicinare le persone a questa tecnologia, mostrando che può essere davvero al loro servizio.
Mi sembra un approccio interessante, soprattutto perché toglie gli utilizzatori dalla passività. E poi va a contrastare la paura dell’IA…
C’è tanta paura perché effettivamente c’è anche poca conoscenza. Siccome il lavoro di training delle intelligenze artificiali è molto faticoso e ripetitivo, stanno costruendo delle IA più piccole che possano addestrare le IA più grandi. Quindi siamo ben al di là della comunità: costruiamo delle macchine che addestrano altre macchine e l’uomo praticamente sparisce. La nostra proposta di un IA di comunità è un po’ un antidoto, se non altro un punto di partenza teorico, o un traguardo da raggiungere. Ma noi speriamo di acquisirlo.
L'intelligenza artificiale generativa, su cui spingono tanto e su cui tanto ci dividiamo, non è l'unica IA.
Ce ne sono altre che apparentemente possono sembrare più semplici (e ti assicuro che sono complicate da fare) ma che forse sono anche più utili e più vicine ai bisogni delle persone. Però vediamo delle direzioni completamente opposte in cui l’uomo esce di scena: IA che possono rispondere alla tua email, realizzare film, o scrivere articoli…
A proposito di articoli, un giornale senza giornalisti potrebbe essere il sogno di tanti editori. Penso ad esempio al gruppo Springer, che di recente ha deciso tagli “a tre cifre” dei posti di lavoro che dovrebbero essere rimpiazzati dall’IA.
Io alla fine ci credo poco, perché non funziona. I limiti tecnici sono ancora tantissimi. Tieni presente che i problemi teorici dell’intelligenza artificiale sono superati, cioè tu potresti avere effettivamente un’IA che produce articoli: le dai 3 o 4 fatti, 3 o 4 foto; magari le dai un’ipotesi di titolo e lei ti fa un titolo migliore, col sommario fatto bene. Questo è teoricamente possibile. C’è un piccolo problema computazionale, cioè quanta potenza di calcolo serve per farlo su larga scala? Su questo stanno già lavorando. È molto costoso, ma l’hanno quasi risolto, tanto è vero che mia figlia può usare ChatGPT nel suo telefonino. Quello che adesso sta venendo fuori è un grosso problema energetico, cioè queste IA consumano tanta energia. Per i testi è ancora relativamente poca, ma per generare un video ex novo consumano proprio tanto. Dunque, le varie Amazon, Microsoft o OpenAI probabilmente si trasformeranno in multiutility, perché per alimentare i loro server non potranno dipendere dalla società energetiche. Dovranno essere sicure di avere l’energia elettrica sufficiente per far funzionare le proprie macchine, a basso costo e permanentemente. Quindi stanno seriamente pensando di comprare dei piccoli reattori nucleari – non sto scherzando – per alimentare il tipo di mega factory che stanno immaginando di costruire nei prossimi 3-4 anni. Il problema energetico e quello computazionale per ora ce li abbiamo ancora. Per un archivio relativamente piccolo come quello del manifesto (nell’ordine di centinaia di migliaia, forse di milioni di articoli, quindi non tantissimi) ci abbiamo messo tanto tempo e anche un certo investimento economico. Ma dello scenario di cui parliamo oggi, probabilmente tra sei mesi non resterà nulla perché sarà spazzato via dalle novità.
Ho visto che cercate di difendervi dai crawler delle altre IA. Ovviamente non siete gli unici, ma molti stanno anche facendo accordi…
Per ora sui crawler è giusto prendere una posizione di cautela e in questo caso bloccarli. Però, come sai, il blocco è sempre facoltativo. Non è sicuro che lo rispettino. Ci sono delle cose regolamentate fino all’ultima virgola, invece sul robots.txt, che è lo strumento con cui regoli l’accesso dei vari crawler al tuo sito, siamo al gentlemen agreement, cioè io suggerisco di non usarmi e si fa finta che questo venga rispettato. Però usare indiscriminatamente i contenuti di un giornale, che di fatto vengono copiati nei server e usati per addestrare le IA, secondo noi non è una cosa corretta. Ora, che debba essere remunerato o proibito è tutto da vedere. Sicuramente non è appropriato, per questo li abbiamo bloccati. Se lo rispettassero, e se tanti editori facessero lo stesso, avremmo intelligenze artificiali ignare di ciò che accade del mondo, e per queste aziende potrebbe diventare un problema. Ci sarà poi un editore più furbo degli altri, che invece farà un accordo. Ma se gli editori e i giornalisti facessero sistema sarebbe un po’ meglio.
MeMa potrà facilitare il lavoro dei giornalisti del Manifesto?
Riguardo ai giornalisti, quello che sicuramente non faremo è che MeMa generi nuovi articoli del manifesto. Questo è escluso per mille motivi: etici, politici e anche tecnici
Oltretutto, far scrivere MeMa al posto mio non è un vantaggio: purtroppo per ora noi costiamo di meno (ride). Quello che i giornalisti e i lettori possono fare è usarla per approfondire. Ad esempio, stai scrivendo dell’attacco dell’Iran a Israele, sai che hanno bombardato Isfahan e potresti chiedere a MeMa che cosa è Isfahan. Lei ti dirà tutti gli articoli del manifesto che hanno parlato del luogo Isfahan e così potresti accorgerti di alcuni nessi tra passato e presente che non conoscevi. Magari scopri che lì c’è un festival del cinema (e occupandoti di esteri non lo sapevi); oppure, che 10 anni prima Isfahan era già stata bombardata. Ovviamente lo puoi fare anche con una normale ricerca su keyword, ma questa si presta a mille errori perché ci sono i refusi, perché è più lenta; perché poi ci sono termini ambigui (tipo “pesca”, che può essere il frutto o l’attività del pescare), oggetti semanticamente diversi che l’intelligenza artificiale distingue, mentre il lemma, la keyword, no. Così il giornalista potrà esporre questi approfondimenti come parte del suo articolo tramite i link all’archivio oppure forme editoriali tutte da inventare. Ai giornalisti daremo dei tool, dei widget (componenti grafiche per l’interazione con un programma), degli strumenti editoriali per cui, in modo relativamente facile, lui o lei potrà produrre delle mappe geografiche con gli articoli collegati a quei luoghi; oppure quelle che chiamiamo wordcloud, cioè nuvole di parole e concetti pertinenti a quello che sta scrivendo. Qualche esempio è già presente nella nostra sezione dedicata a MeMA.
Certo, sarebbe comodo disporre di un’IA che ci risparmiasse le parti più meccaniche e noiose del lavoro. Ma avere degli strumenti che aiutano nell’approfondimento non mi sembra cosa da poco…
Può anche essere molto divertente. Sul sito del manifesto c’è un primo esempio, purtroppo solo grafico, del tool per la redazione che chiamiamo MeMaZeit (riferito a Zeitgeist, lo spirito del tempo) nella pagina dedicata al 25 Aprile, dove si trovano delle card in grigio con le parole più citate in alcune nostre edizioni del 25 aprile. Praticamente abbiamo preso i numeri del 2013, del 2017 e del 2023. Li abbiamo dati a MeMa e lei ci ha restituito le persone, i temi, i lemmi e i concetti più citati in ciascun numero. Ovviamente la nostra ambizione è che domani, cliccando su queste parole, si potranno leggere gli articoli sottostanti, che MeMa ha letto e da cui ha ricavato quella nuvola di ricorrenze. Ma, anche solo graficamente, oggi ti puoi rendere conto che il 25 Aprile del 2013 il manifesto parlava di Letta, Berlusconi e Napolitano; nel 2017 soprattutto di Francia, con Macron e Mélenchon, mentre l’anno scorso di Benito Mussolini, La Russa e Meloni. Lo stesso per i temi: ad esempio l’anno scorso, con la destra al governo, compaiono “partigiano” e “antifascista”. Questo solo per fare un esempio di quello che si può tirar fuori. Vorrei poi farti notare una piccola label su queste card, dove è scritto “Generata da MeMa”. A questo tengo tanto: come manifesto dovremmo sempre far capire all’utente quando quello che vede non è stato generato da un essere umano, nel caso specifico, quelle parole non le ha scritte o pensate nessuno ma sono state generate da una macchina.
A mio avviso stai toccando un tema centrale: mentre i contenuti generati dall’IA vanno diffondendosi rapidamente, non si sta sviluppando di pari passo la consapevolezza del pubblico sull’origine di quei contenuti.
Quello della contraffazione è un tema enorme. Io penso che, semmai si facesse una carta, questo dovrebbe essere uno dei primi temi da inserire. Probabilmente non puoi decidere che non userai mai l’IA, ma se la usi devi dirlo e farlo vedere. È un esercizio mentale anche tuo: quel contenuto lo ha fatto una macchina, quindi forse lo devi prendere un po’ con le pinze, non ti devi fidare. Invece ci sono ricerche da cui emerge che le persone si fiderebbero di più delle macchine. Uno dei nostri sviluppatori lavora anche in campo medico, e mi dice che l’intelligenza artificiale sta diventando molto brava a leggere i referti radiologici. Fra un referto scritto da un radiologo e quello scritto da una macchina, i pazienti tendenzialmente preferiscono quello della macchina. Questo un po’ è drammatico, perché la macchina può sbagliare, ma a noi umani il referto della macchina appare più oggettivo.
Per ora siamo un po’ ingenui rispetto alle macchine, tendiamo ad affidarci completamente all'apparato tecnologico perché pensiamo sia più potente di noi.
E questo è un altro grosso tema. Quindi, un aspetto chiave è che intanto io ti avviso con il label quando un prodotto è fatto con l’intelligenza artificiale, e che riesco a spiegarti che è fatto sui contenuti del manifesto. Così non ti do l’illusione dell’oggettività e tu sai che non l’ha scritto un giornalista in carne e ossa. Se ogni editore avesse uno strumento simile, potrei interrogare i giornali in modo completamente diverso da oggi, con il peso della scelta delle notizie che finalmente cambierà. Più di metà del nostro lavoro come giornalisti è selezionare e gerarchizzare, dunque effettivamente potremmo trovarci in un mondo dove andiamo a perdere centralità. Ci possiamo salvare costruendo questi dispositivi in cui la nostra soggettività sia rappresentata e “manifestata”, inclusa e non esclusa, di cui faccia parte il nostro punto di vista, il nostro modo di vedere il mondo, la nostra organizzazione dei dati, perfino i nostri valori e i nostri punti di vista, purché in modo trasparente. La nostra ontologia, insomma, come dicono quelli che sviluppano le intelligenze artificiali. Qual è l’ontologia del manifesto? È questa, ed è sicuramente diversa dall’ontologia di Repubblica, del Fatto Quotidiano, o del Sole 24 ore, che poi è la democrazia. Cerchiamo di non creare un’unica grande intelligenza artificiale, che mi fa fare i compiti a scuola, che mi consiglia dove andare in vacanza, che mi dice cosa leggere o mi sintetizza quello che è successo ieri. Come è l’ambizione un po’ folle dei dottor Stranamore della Silicon Valley.