La fame di parole: il caso Internet Archive

Paolo Benanti

30 mag 2023Tempo di lettura: 5 min

In un post sul blog di Internet Archive, Brewster Kahle, il CEO, si è lamentato pubblicamente di centinaia di migliaia di connessioni multiple al sito che cercando di scaricarne tutto il contenuto, hanno mandato in tilt il sistema. Hacker? Sembrerebbe più una fame di parole per generare token per addestrare qualche large language model. Ecco i dettagli.

Internet Archive è una biblioteca digitale non-profit fondata nel 1996 da Brewster Kahle con l’obiettivo di consentire un “accesso universale alla conoscenza”. Fa parte della IIPC (International Internet Preservation Consortium) ed è un’organizzazione che si batte per un’Internet libera e aperta.

La funzione principale di Internet Archive è quella di archiviare e preservare siti web, libri digitali, video, film, canzoni, immagini e interi siti web provenienti da ogni parte del mondo. Attualmente, contiene oltre 396 miliardi di pagine web, 14 miliardi di testi e 35 miliardi di contenuti multimediali di vario genere. In pratica, funge da “copia di backup” dei contenuti dell’intero web dal 1996 ad oggi.

Uno degli strumenti più noti di Internet Archive è la Wayback Machine, che permette agli utenti di navigare attraverso le versioni archiviate di siti web nel corso del tempo. Questo strumento può essere utile per recuperare informazioni da siti web che non esistono più o per analizzare l’evoluzione di un sito nel tempo.

Oltre ai siti web, Internet Archive offre anche accesso a una vasta gamma di contenuti multimediali, come film d’epoca, libri, musica e software. Grazie a questi archivi, gli utenti possono accedere gratuitamente a risorse che altrimenti potrebbero essere difficili da trovare o persino perdute.

In sintesi, Internet Archive svolge un ruolo fondamentale nella conservazione e nella diffusione della conoscenza digitale, offrendo un accesso gratuito e universale a una vasta gamma di risorse online.

Ieri il sito è andato offline due volte per il troppo traffico, una cosa alquanto strana per un contenitore di materiale di seconda mano. Ecco cosa ha scritto in un post il suo fondatore e CEO Brewster Kahle:

Quello che è successo oggi su archive.org, per quanto ne sappiamo:

Decine di migliaia di richieste al secondo per i nostri file OCR di dominio pubblico sono state lanciate da 64 host virtuali sui servizi AWS di Amazon. (Anche per gli standard del web, decine di migliaia di richieste al secondo sono molte).

Questa attività ha messo fuori uso archive.org per tutti gli utenti per circa un'ora.

Siamo grati ai nostri ingegneri che sono riusciti a lavorare su questo problema la domenica pomeriggio di un fine settimana festivo.

Abbiamo ripristinato il servizio bloccando quegli indirizzi IP.

Ma un paio d'ore dopo altri 64 indirizzi hanno iniziato lo stesso tipo di attività.

Abbiamo capito come bloccare questa nuova serie, ma ancora una volta, con un'interruzione di circa un'ora.

--

Come sarebbe potuta andare meglio per noi:

Chi vuole usare i nostri materiali in massa dovrebbe iniziare lentamente e poi aumentare.

Inoltre, se state iniziando un progetto di grandi dimensioni, contattateci all'indirizzo info@archive.org, siamo qui per aiutarvi.

Se vi trovate bloccati, non ricominciate da capo, ma contattateci.

Ancora una volta, utilizzate Internet Archive, ma non fateci perdere tempo.

Perché tutta questa fame di parole?

Le ipotesi per cui qualcuno abbia programmato dei server virtuali nel cloud Amazon si sono diffuse in internet. Le più plausibili e accreditate tra i diversi commentatori riguardano il valore che il testo contenuto negli archivi storici del web ha per l'addestramento di quelle forme di intelligenza artificiale che sono i large language model.

I large language model (LLM) vengono addestrati utilizzando enormi quantità di dati testuali provenienti da diverse fonti, come articoli di giornale, libri, pagine web e messaggi di social media. Ad esempio, GPT-3 di OpenAI, uno dei più grandi modelli di linguaggio mai addestrati, conta 175 miliardi di parametri (per GPT-4, la nuova versione, OpenAI ha tenuto segreto il numero di parametri del modello).

Questi modelli analizzano e apprendono le regole del linguaggio, la sintassi e la semantica attraverso la programmazione parallela, affinando progressivamente le loro capacità di elaborazione e generazione del testo.

Nel caso dei modelli più grandi, l’obiettivo è fornire al modello il maggior numero possibile di testi grammaticali da cui apprendere. Ad esempio, il set di dati di addestramento “No Language Left Behind” di Meta AI, che comprende 450 GB di testo, è stato utilizzato per addestrare modelli su 148 coppie linguistiche incentrate sull’inglese e 1.465 non incentrate sull’inglese.

In sintesi, i large language model vengono addestrati utilizzando vasti insiemi di dati testuali provenienti da diverse fonti, al fine di apprendere e perfezionare le regole del linguaggio e generare testo coerente e significativo.

Forse qualcuno si chiede quanto testo rappresentano 175 miliardi di parametri, è importante chiarire cosa si intende per “parametri” in questo contesto. I parametri sono valori appresi da un modello di intelligenza artificiale (IA) durante il processo di addestramento. Tuttavia, questi parametri non rappresentano direttamente il testo, ma piuttosto le relazioni e le conoscenze apprese dal modello durante il suo addestramento su grandi quantità di testo.

I modelli di IA come GPT-3 analizzano trilioni di parole estratte da libri digitalizzati e discussioni sul web per imparare a predire una logica e sensata successione di parole. Pertanto, i 175 miliardi di parametri di GPT-3 rappresentano la conoscenza appresa dal modello su queste parole e le loro relazioni, piuttosto che una quantità specifica di testo.

In sintesi, i 175 miliardi di parametri non possono essere convertiti direttamente in una quantità di testo, poiché rappresentano le relazioni e le conoscenze apprese dal modello di AI durante il suo addestramento su vasti corpus di testo.

Tuttavia, secondo i dati resi pubblici sul modello, sappiamo che è stato addestrato utilizzando database di testi provenienti da Internet, tra cui ben 570 GB di dati ottenuti da libri, testi web, Wikipedia, articoli e altri scritti su Internet. Per essere ancora più precisi, sono stati immessi nel sistema 300 miliardi di parole. GPT-3 ha 96 blocchi di attenzione che contengono ciascuno 96 teste di attenzione, ed è fondamentalmente un modello di trasformatore gigante.

Vale la pena ricordare che non è facile una stima del numero di parole a partire dalle dimensioni del file che le contiene. Il numero di parole in un GB di dati può variare notevolmente a seconda di vari fattori, come il formato del file, la lingua utilizzata e il livello di compressione applicato. Secondo, un gigabyte di testo semplice contiene circa 200 milioni di parole. Tuttavia, la maggior parte dei file di videoscrittura aggiunge molte formattazioni e metadati, che possono ridurre significativamente il numero di parole per gigabyte. Ad esempio, i file di Microsoft Word contengono in media 64.782 pagine per gigabyte, secondo i dati di Microsoft. Pertanto, è difficile fornire una stima accurata senza ulteriori informazioni.

Quello che ci sembra comunque notevole dell'accaduto è il valore che ora assume una collezione di testo che prima sembrava destinata ad essere cancellata e dimenticata. La custodia fatta da Internet Archive di ciò che abbiamo scritto nel web acquisisce ora valore non in funzione del suo passato ma del suo futuro. Dobbiamo passare dalla storia magistra vitae al datum faber futuri?

1 commentaire

leonardo.vanzo

23 mai 2024

Possiamo dire che le pagine internet "pre ChatGPT" avranno sempre più valore? Qualsiasi modello addestrato con contenuti prodotti "post ChatGPT" sarà per forza di cose drogato dalla enorme quantità di contenuti generati da AI. Questo, secondo il mio parere porterà ad un incredibile aumento di valore delle informazioni presenti su internet prima del 2021.

La fame di parole: il caso Internet Archive

Post recenti

1 commentaire