Nel 1445 una rivoluzione tecnologica cambiò per sempre l'accesso alla conoscenza: fu stampata con tecnica moderna la prima Bibbia. Oggi si vuole realizzare una rivoluzione analoga: il problema non è più la riproducibilità di un testo ma la sua comprensibilità nelle diverse lingue. I protagonisti non saranno i caratteri mobili ma le AI, il testo destinato a cambiare la nostra relazione alla conoscenza però è ancora la Sacra Scrittura. Eccone i dettagli.
Per convenzione, si identifica come anno dell’invenzione della stampa il 1455, anno di pubblicazione della cosiddetta Bibbia di Gutenberg. Si trattò del primo libro di una certa importanza ad essere stampato con la tecnica dei caratteri mobili. Da questo punto in poi, l’intera Europa entrerà in contatto con una tecnica rivoluzionaria.
Per la prima volta, fu possibile riprodurre libri in modo veramente veloce ed economico. La diffusione dei libri, delle notizie, e della cultura iniziò a farsi più veloce, fino ad arrivare, nei secoli successivi, ad una progressiva democratizzazione del pensiero in Occidente.
Oggi si vuole realizzare una rivoluzione analoga: il problema non è più la riproducibilità di un testo ma la sua comprensibilità nelle diverse lingue.
Alla ricerca di ispirazione per migliorare i traduttori di testi computerizzati, i ricercatori del Dartmouth College si sono rivolti alla Bibbia come guida. Il risultato è un algoritmo addestrato su varie versioni dei testi sacri in grado di convertire le opere scritte in stili diversi per diversi tipi di pubblico.
Gli strumenti che offre Internet per tradurre testi tra lingue come l'inglese e lo spagnolo sono ormai ampiamente disponibili. La creazione di traduttori di stile, strumenti che mantengono il testo nella stessa lingua ma che trasformano lo stile, sono stati molto più lenti a emergere.
In parte, gli sforzi per sviluppare i traduttori sono stati ostacolati dalla difficoltà di acquisire l'enorme quantità di dati richiesti per poter permettere alla macchina di acquisire queste capacità. Per questo motivo il gruppo di ricerca si è rivolto alla Bibbia. Oltre ad essere un testo fondante per molte persone in tutto il mondo, il team guidato da Dartmouth ha visto nella Bibbia "un ampio insieme di dati paralleli allineati e mai utilizzati in precedenza". Oltre a fornire un'ispirazione infinita, ogni versione della Bibbia contiene più di 31.000 versi che i ricercatori hanno usato per produrre oltre 1,5 milioni di accoppiamenti unici di versi sorgente e bersaglio per dare luogo a un gigante set adatto ad addestrare un algoritmo di machine learning.
Secondo la ricerca pubblicata sulla rivista Royal Society Open Science, questo non è il primo set di dati parallelo creato per la traduzione di stile. Ma è il primo che usa la Bibbia. Altri testi che sono stati usati in passato, che vanno da Shakespeare a voci di Wikipedia, forniscono insiemi di dati che sono o molto più piccoli o meno adatti per il compito di imparare la traduzione di stile.
"La Bibbia in lingua inglese è disponibile in molti stili scritti diversi, il che rende il testo sorgente perfetto con cui lavorare per la traduzione di stile", ha detto Keith Carlson, uno studente di dottorato presso Dartmouth e autore principale del documento di ricerca sullo studio.
Come ulteriore vantaggio per il gruppo di ricerca, la Bibbia è già completamente indicizzata nell'uso coerente di numeri di libri, capitoli e versetti. L'organizzazione prevedibile del testo attraverso le versioni elimina il rischio di errori di allineamento che potrebbero essere causati da metodi automatici di corrispondenza tra versioni diverse dello stesso testo.
"Gli esseri umani hanno svolto il compito di organizzare i testi biblici per secoli, quindi non abbiamo dovuto mettere la nostra fede in algoritmi di allineamento meno affidabili.", Ha detto Daniel Rockmore, professore di informatica a Dartmouth e autore di contributi sullo studio.
Per definire lo "stile" per lo studio, i ricercatori fanno riferimento alla lunghezza della frase, all'uso di voci passive o attive e alla scelta delle parole che potrebbero risultare in testi con vari gradi di semplicità o formalità. Secondo lo studio: "Diverse formulazioni possono esprimere diversi livelli di cortesia o familiarità con il lettore, visualizzare diverse informazioni culturali sull'autore, essere più facili da capire per determinate popolazioni".
Il team ha utilizzato 34 versioni bibliche stilisticamente distinte che vanno dalla complessità linguistica dalla "King James Version" alla "Bibbia in inglese di base". I testi sono stati inseriti in due algoritmi: un sistema di traduzione automatica di statistiche chiamato "Mosè" e una rete neurale comunemente usato nella traduzione automatica, "Seq2Seq".
I testi di 34 versioni della Bibbia in lingua inglese sono stati usati per migliorare i sistemi di trasferimento basati su computer. Il risultato può creare diverse versioni di passaggi scritti per soddisfare un pubblico specifico. Alla fine si potrebbero sviluppare sistemi che traducono lo stile di qualsiasi testo scritto per diversi tipi di pubblico. Ad esempio, un traduttore di stile potrebbe prendere una selezione in lingua inglese da "Moby Dick" e tradurla in versioni diverse adatte a giovani lettori, madrelingua inglese o a una varietà di pubblico.
"La semplificazione del testo è solo un tipo specifico di trasferimento di stile. Più in generale, i nostri sistemi mirano a produrre testi con lo stesso significato dell'originale, ma lo fanno con parole diverse ", ha affermato Carlson.
L'intelligenza artificiale studia la Bibbia per imparare a tradurre i testi adeguando lo stile a diversi tipi di pubblico.
Se ad accelerare e ad assicurare i progressi dello spirito umano nel XV secolo valse un processo di tecnologizzazione della Bibbia, tramite l'invenzione della stampa, per rendere l'umanità globale del XXI secolo in grado di progredire educando le nuove generazioni alla complessità serviranno sistemi automatici di traduzione e di stile dei testi come quelli offerti, ancora una volta, dalla tecnologizzazione della Bibbia mediante le AI?