Per anni il dibattito sull’intelligenza artificiale si è concentrato soprattutto sui risultati: chatbot sempre più sofisticati, assistenti virtuali capaci di scrivere testi convincenti, sistemi in grado di simulare conversazioni umane con un livello di precisione impressionante. Molto meno spazio, invece, è stato dedicato a una domanda fondamentale: da dove arrivano davvero i dati usati per addestrare questi modelli?
La vicenda emersa attorno ad Anthropic, società statunitense creatrice del chatbot Claude, apre ora uno squarcio su una delle pratiche più controverse dell’intero settore tecnologico. Secondo documenti desecretati nell’ambito di una causa legale tra l’azienda e diversi editori, milioni di libri cartacei sarebbero stati acquistati, smembrati fisicamente e trasformati in dati destinati all’addestramento dell’intelligenza artificiale.
Un progetto interno chiamato “Project Panama” che, già dal nome, sembrava destinato a rimanere lontano dai riflettori.
La catena di montaggio che trasformava i libri in dati
Dietro la costruzione dei grandi modelli linguistici esiste una necessità enorme: servono quantità gigantesche di testi per insegnare all’algoritmo come scrivere, argomentare, sintetizzare e persino imitare lo stile umano.
Nel caso di Anthropic, però, la soluzione adottata avrebbe assunto contorni quasi industriali. Dai documenti emersi nel procedimento giudiziario si apprende che il piano prevedeva l’acquisto massiccio di libri usati da librerie e rivenditori specializzati. Una volta arrivati nei centri di lavorazione, i volumi venivano letteralmente smontati.
Le pagine sarebbero state separate dalla copertina attraverso l’utilizzo di macchine da taglio idrauliche, progettate per effettuare sezioni precise e rapide. Successivamente i fogli venivano digitalizzati con scanner professionali ad alta velocità, trasformando ogni testo in materiale pronto per alimentare il modello linguistico Claude.
Dopo la scansione, ciò che restava dei libri veniva affidato a società di riciclaggio.
L’immagine che emerge è quella di una filiera capovolta: oggetti culturali trasformati in materia prima per produrre informazione digitale. Non più libri destinati alla lettura, ma libri utilizzati come combustibile cognitivo per sistemi artificiali.
Perché Anthropic avrebbe scelto i libri cartacei
Secondo quanto emerso dagli atti, l’obiettivo dichiarato era migliorare la qualità linguistica dell’intelligenza artificiale. I progettisti ritenevano infatti che il semplice utilizzo di contenuti presi dal web avrebbe rischiato di contaminare il modello con linguaggi poveri, ripetitivi o poco accurati.
In altre parole, l’idea era insegnare all’AI a “scrivere bene” utilizzando opere editoriali di qualità invece della massa indistinta di contenuti presenti online.
Ed è qui che emerge uno degli aspetti più interessanti dell’intera vicenda: il valore culturale del libro cartaceo viene riconosciuto proprio dalle aziende che stanno costruendo tecnologie potenzialmente destinate a sostituire parte del lavoro creativo umano.
Dietro chatbot capaci di produrre articoli, racconti o analisi, infatti, ci sarebbe ancora il patrimonio intellettuale accumulato da autori, giornalisti e saggisti nel corso di decenni.
Il segreto dietro Project Panama
L’operazione, secondo il Washington Post che ha ricostruito il caso, sarebbe dovuta rimanere riservata. Non tanto per l’acquisto di libri usati in sé, quanto per il metodo utilizzato e per le implicazioni reputazionali che avrebbe potuto generare.
L’idea di distruggere milioni di volumi per alimentare algoritmi rischiava infatti di apparire simbolicamente potente e potenzialmente destabilizzante: la cultura cartacea sacrificata per addestrare macchine digitali.
Anthropic avrebbe investito decine di milioni di dollari nell’acquisto di opere di seconda mano, rivolgendosi inizialmente alla storica libreria newyorchese The Strand e successivamente a grandi operatori del settore come Better World Books e World of Books.
Le stime parlano di una quantità compresa tra cinquecentomila e due milioni di libri acquistati nell’arco di pochi mesi.
Il nodo del copyright e la strategia legale
L’aspetto più delicato della vicenda riguarda però il diritto d’autore.
Le grandi aziende dell’intelligenza artificiale sono da tempo accusate di utilizzare opere protette da copyright senza autorizzazione per addestrare i propri modelli. Una pratica che ha già generato numerose cause legali contro colossi del settore tecnologico.
Nel caso di Anthropic, la scelta di acquistare libri cartacei usati avrebbe avuto anche una precisa finalità giuridica. L’azienda, secondo l’accusa, avrebbe tentato di sfruttare la cosiddetta “dottrina della prima vendita”, principio legale che consente a chi acquista un bene fisico di utilizzarlo liberamente senza ulteriori autorizzazioni del detentore del copyright.
In sostanza: se un soggetto compra legalmente un libro, può distruggerlo, rivenderlo o modificarlo. Anthropic avrebbe cercato di estendere questa logica anche alla digitalizzazione destinata all’addestramento dell’intelligenza artificiale.
Una strategia che, almeno in parte, avrebbe trovato un riconoscimento legale. La distruzione dei libri acquistati sarebbe stata considerata lecita. Diverso invece il discorso relativo all’utilizzo di materiale ottenuto tramite piattaforme pirata.
Il precedente dei libri scaricati illegalmente
Prima del passaggio ai volumi fisici, infatti, Anthropic avrebbe utilizzato anche metodi molto più controversi.
Dagli atti emerge che già nel 2021 Ben Mann, co-fondatore dell’azienda, avrebbe scaricato milioni di libri da LibGen, una delle più note biblioteche digitali illegali al mondo. Successivamente sarebbe stato apprezzato anche Pirate Library Mirror, sito che dichiarava apertamente di violare le normative sul copyright.
Questo elemento ha avuto un peso decisivo nella causa intentata dagli editori. Se la scansione dei libri acquistati è stata ritenuta compatibile con alcune interpretazioni della legge, l’utilizzo di opere ottenute illegalmente è invece finito sotto accusa.
La controversia si sarebbe chiusa con un accordo da circa 1,5 miliardi di dollari.
Una questione che riguarda tutta l’industria dell’AI
La storia di Project Panama, in realtà, non rappresenta un caso isolato. Negli ultimi anni è emerso come gran parte dell’industria dell’intelligenza artificiale abbia costruito i propri modelli sfruttando enormi quantità di contenuti protetti.
Anche aziende come OpenAI e Meta sono finite al centro di polemiche analoghe.
Il problema è strutturale: i modelli linguistici hanno bisogno di una mole di dati quasi impossibile da ottenere attraverso licenze tradizionali. Da qui la tentazione di utilizzare archivi online, biblioteche ombra o sistemi alternativi per reperire materiale.
La conseguenza è uno scontro sempre più duro tra industria tecnologica e mondo editoriale.
Il paradosso culturale dell’intelligenza artificiale
Esiste infine un elemento quasi filosofico che attraversa tutta questa vicenda.
Le aziende dell’intelligenza artificiale promettono di rivoluzionare il futuro della comunicazione, della scrittura e della creatività. Eppure, per funzionare, continuano a dipendere profondamente dal lavoro umano accumulato nel passato.
Romanzi, saggi, articoli, studi e opere letterarie restano il nutrimento essenziale dei modelli linguistici più avanzati.
Il paradosso è evidente: mentre la tecnologia viene presentata come alternativa alla produzione culturale tradizionale, la sua esistenza dipende ancora dalla conoscenza generata da autori in carne e ossa.
E forse è proprio questo il vero cuore della vicenda Anthropic: non soltanto la distruzione materiale di milioni di libri, ma la trasformazione della cultura in semplice materia prima per alimentare la nuova economia dell’intelligenza artificiale.