Dalla parte dei ricercatori. Biblioteche digitali e marcatura testuale: una nota a partire da due case study
Dipartimento di Studi Umanistici, Università di Torino; elisa.dellacalce@unito.it
Dipartimento di Filosofia e Scienze dell’Educazione, Università di Torino; paolo.tripodi@unito.it
Dipartimento di Informatica Università di Torino, Università di Torino; rossana.damiano@unito.it
Gli autori desiderano ringraziare Maria Cassella per l’attenzione e il supporto forniti nella stesura del contributo. Per tutti i siti web l’ultima consultazione è stata effettuata il 19 novembre 2016.
Abstract
In questo contributo vengono proposte alcune riflessioni sull’utilità delle biblioteche digitali e della marcatura testuale per gli studi classici e la storia della filosofia. Si descrive il progetto torinese I Maestri dell’Università degli studi di Torino: l’opera e il pensiero, nel quale sono state digitalizzate e marcate secondo lo standard TEI alcune opere di filosofi e classicisti che hanno insegnato all’Università di Torino tra la metà dell’Ottocento e i primi decenni del Novecento. Il discorso intorno al progetto torinese è stato pretesto e punto di partenza per immaginare una situazione ipotetica di lavoro nella quale sia digitalizzato e marcato un corpus di opere molto più ampio, prendendo in considerazione tutti i testi pubblicati da docenti di filosofia e di studi classici in alcuni importanti atenei europei (ad esempio in Francia, Italia, Germania e Gran Bretagna) in un determinato periodo storico (ad esempio tra il 1840 e il 1940). Se un progetto di questo tipo venisse realizzato, gli studiosi di storia della filosofia e di discipline classiche potrebbero integrare i metodi di lavoro tradizionali con gli strumenti digitali e computazionali. I due principali modelli teorici a cui si è fatto riferimento sono il distant reading, introdotto da Franco Moretti in storia della letteratura, e l’analisi sociologica dei “campi” culturali e accademici proposta da Pierre Bourdieu. Applicando questo tipo di metodi si potrebbero ricavare risultati originali in merito alla circolazione internazionale delle idee, alla presenza di pattern testuali significativi nei corpora considerati e all’interazione tra i contesti politico-istituzionali e la produzione scientifica di ambito accademico.
English abstract
In this paper we present some reflections on the usefulness of digital libraries and textual markup for the classical studies and the history of philosophy. First, we describe the project “I Maestri dell’Università degli studi di Torino: l’opera e il pensiero”, in which a small corpus of works by philosophers and classicists who taught at the University of Turin from mid-Nineteenth century to the first decades of the Twentieth century has been digitized, marked up according to TEI standards and augmented with semantic information. Then, we take inspiration from this project to figure out a hypothetical working scenario characterized by the availability of a larger corpus of digitized and TEI-marked texts that takes into account all the works published by professors of philosophy and classical literature in some important European universities (for example in France, Italy, Germany and the UK) for a given historical period (for example from 1840 to 1940). If such a corpus were available, historians of philosophy and classicists could supplement traditional methods with digital and computational ones thanks to digitization. The two main models we refer to in this paper are “distant reading”, introduced by Franco Moretti for literary history, and the analysis of cultural and academic “fields” proposed by Pierre Bourdieu for sociology. These methods would allow scholars to get a fresh understanding of the international circulation of ideas for the given areas and periods of time, letting the presence of interesting patterns emerge from the textual corpora, with insights about the interaction between scientific-academic works and the political-institutional contexts of their production.
Un progetto torinese
Le opere dei docenti che hanno lavorato all’Università di Torino tra l’Ottocento e il Novecento sono conservate e tutelate nelle numerose biblioteche dell’ateneo. Tuttavia sono poco accessibili, non solo a causa degli orari di servizio delle biblioteche ma anche perché, spesso, si tratta di materiale raro o facilmente deteriorabile. Inoltre, benché si tratti di docenti che hanno avuto un ruolo importante nella storia dell’Università di Torino, lo studio e la valorizzazione del loro pensiero e della loro produzione scientifica e letteraria sono affidati soprattutto a momenti occasionali come convegni, seminari e mostre.
Il Centro interdipartimentale MeDiHum dell’Università di Torino ha recentemente promosso e, in parte, realizzato il progetto I Maestri dell’Università degli studi di Torino: l’opera e il pensiero, al fine di creare una biblioteca digitale che includa le opere di filosofi (come Pasquale D’Ercole ed Erminio Juvalta) e di studiosi di lingue classiche (come Carlo Boucheron, Giuseppe Fraccaroli, Amedeo Peyron e Tommaso Vallauri) che hanno avuto un ruolo particolarmente significativo nella storia della cultura accademica torinese, pur essendo relativamente poco studiati. Si tratta, ovviamente, di un primo nucleo di discipline e di docenti, ma il progetto prevede di ampliare il numero di autori e di testi presi in considerazione. I testi sono stati acquisiti mediante scansione e OCR (optical character recognition), corretti e marcati secondo lo standard TEI (text encoding initiative) e poi inseriti in un content management system (CMS), il cui ruolo consiste nel semplificare e uniformare la gestione e la presentazione dei contenuti attraverso un sistema di pagine predefinito. In particolare, al CMS prescelto sono state aggiunte funzioni di ricerca sviluppate appositamente per il progetto: alla funzione di ricerca nei metadati dei singoli testi, già disponibile nel CMS utilizzato, sono state aggiunte una funzione di ricerca testuale collegata alle immagini dei testi, che permette all’utente di accedere direttamente alle pagine corrispondenti ai risultati trovati, e una funzione di ricerca semantica che consente di cercare alcuni tipi di entità menzionati nel testo. La marcatura TEI è stata utilizzata per associare alle named entity presenti nel testo (nomi di persona, riferimenti geografici, concetti astratti) i termini standard ricavati dalle apposite risorse terminologiche disponibili in rete (authority file e tassonomie di termini quali VIAF e DBpedia). Questo tipo di annotazione dei testi permette agli utenti di esplorarne i contenuti astraendo dalle specifiche espressioni linguistiche (poiché la stessa entità può essere associata a più espressioni linguistiche) e di accedere alla loro definizione online, ove disponibile. In questo modo l’ormai consolidata pratica della marcatura testuale si lega con il paradigma dei Linked Open Data, che uniforma e rende organico all’architettura del web l’uso degli indirizzi di rete (uniform resource identifier, URI) per la condivisione di risorse (inclusa la conoscenza semantica dei concetti che ricorrono nei testi). La funzione di ricerca semantica implementata per il progetto permette inoltre agli utenti di accedere direttamente alla definizione online di una determinata entità.
Per rendere più agevole la consultazione, le opere sono state pubblicate utilizzando la piattaforma Omeka, un CMS open source di larga diffusione internazionale e specificamente progettato per la creazione di collezioni digitali online. Grazie alla disponibilità di “temi” predefiniti (vesti grafiche accattivanti e predisposte all’utilizzo su vari dispositivi) e a una logica di interazione con l’utente caratterizzata da intuitività e immediatezza, Omeka si è affermato come soluzione standard per collezioni digitali che si indirizzino al grande pubblico. La gestione dei metadati in Omeka si basa sullo standard Dublin core, ma può essere estesa e resa interpretabile usando altri schemi, grazie ai plugin elaborati dall’ampia comunità degli sviluppatori di Omeka. La biblioteca digitale rende immediatamente e gratuitamente disponibili le opere dei Maestri dell’ateneo torinese finora digitalizzate non solo ai docenti dell’Università di Torino e ai cultori delle discipline classiche e filosofiche, ma anche agli enti che si occupano della gestione e conservazione del patrimonio culturale, agli studenti e, in generale, a tutti gli utenti interessati. Oltre all’aggiunta delle funzionalità sopra descritte, che permettono agli utenti di cercare nel testo riferimenti a persone, luoghi geografici, concetti e, a partire da essi, accedere alle risorse collegate nel web, la piattaforma Omeka è stata oggetto di modifiche ad hoc sia nella grafica sia nelle funzionalità di accesso, allo scopo di renderla più facilmente riconoscibile: in particolare, alla veste grafica predefinita sono stati sovraimposti logo, schema colori e altri elementi grafici (carattere tipografico e immagini).
Questo contributo non è incentrato sul tema della digitalizzazione di ampi corpora di testi e non tratta direttamente problemi teorici e metodologici di carattere generale attinenti all’ambito multiforme delle digital humanities e delle biblioteche virtuali. Il nostro scopo è invece quello di proporre alcune riflessioni intorno a una questione specifica: in che modo la digitalizzazione e la marcatura strutturale e di contenuto di un corpus di testi può aprire nuove e interessanti vie di ricerca per le discipline di cui ci occupiamo professionalmente, la storia della filosofia e gli studi classici? In via preliminare, illustriamo brevemente i modelli teorici ai quali faremo riferimento.
Antenati e modelli teorici: il distant reading di Franco Moretti
Il metodo del distant reading, introdotto circa vent’anni fa da Franco Moretti in storia della letteratura e in critica letteraria, ha fornito nuove prospettive sulla letteratura e il suo sviluppo storico. Il metodo di Moretti si basa non sullo studio dettagliato di alcuni testi canonici (come nel cosiddetto close reading caratteristico del New Criticism), ma sull’aggregazione e l’analisi di grandi quantità di dati, con l’ausilio di metodi statistici e di strumenti computazionali: nel distant reading si contano parole e si fa data mining lessicale (in titoli, abstract, articoli, capitoli e libri di origine eterogenea e appartenenti a svariati generi letterari), si costruiscono grafici e mappe, si calcolano tendenze, si descrivono e si rappresentano visivamente network, si fa analisi stilistica computazionale e così via. Riteniamo che un’applicazione del metodo del distant reading a diversi ambiti delle scienze umane e, in particolare, agli studi classici e alla storia della filosofia (così come, del resto, alla storia del pensiero scientifico) sia destinata nei prossimi anni ad accrescere la sua influenza: questo tipo di innovazione metodologica consente nuove conferme o smentite di ipotesi ottenute con i metodi ermeneutici e analitici più tradizionali e, soprattutto, incoraggia la formulazione di nuove ipotesi; il distant reading è un tipo di ricerca autenticamente empirico o, più precisamente, sperimentale, e ciò fa sì che spesso i dati inducano i ricercatori, nel corso dell’indagine, a scoprire nuove vie, a cambiare direzione, a lasciarsi guidare da risultati non attesi (né, forse, cercati), in un modo più decisivo e significativo rispetto a quanto avviene normalmente negli studi basati su metodi più tradizionali. Inoltre il metodo del distant reading, pur rimanendo un metodo di analisi “di testi”, si presta a indagini di storia esterna e di sociologia dell’accademia: non a caso, ci sembra ragionevole includere nel concetto di distant reading applicato alle scienze umane anche l’analisi delle corrispondenze multiple usata spesso dai sociologi di scuola bourdieusiana. Allo Stanford Literary Lab (fondato nel 2010 da Moretti e Matthew L. Jockers) e nei centri di ricerca a esso associati sono state realizzate e sono in via di realizzazione numerose applicazioni “sperimentali” del distant reading e dei metodi delle digital humanities: la comparazione sistematica di centinaia di network di opere teatrali in una dozzina di diverse letterature nazionali e in diversi periodi storici, usando modelli informatici; un’analisi formale e interdisciplinare (che mescola storia della letteratura, narratologia e psicologia) dei caratteri che, nei diversi periodi (dal 1750 a oggi) e nei diversi generi letterari, sono associati all’esperienza della suspense; una misurazione quantitativa e una mappatura digitale dei luoghi letterari nei quali i personaggi dei romanzi settecenteschi e ottocenteschi provano emozioni (di rabbia, paura, sorpresa e così via); lo studio dell’evoluzione dello stile e dei generi letterari nell’enorme corpus testuale reso disponibile da Fanfiction (un archivio online che contiene oltre sei milioni di racconti); l’analisi, in un corpus di testi tratto dalle pubblicazioni del Ministero degli Affari esteri, della storia e dei cambiamenti nelle associazioni semantiche e concettuali relative alla nozione accademica, politica e sociale di “sicurezza” tra il 1922 e il 1939; e molti altri ancora.
Lo sviluppo della linguistica computazionale nell’ultimo decennio sta offrendo tecniche di analisi sempre più sofisticate, che in futuro potranno essere impiegate anche nella storia della cultura: si pensi ad esempio alla sentiment analysis (l’analisi automatica delle caratteristiche affettive di un testo), all’opinion mining (l’estrazione di indicatori di soggettività da un testo) e all’author profiling (l’identificazione automatica dell’autore). La disponibilità di questi strumenti automatici, con l’affermarsi del crowd sourcing nell’annotazione di testi, prefigura uno scenario in cui le tecniche del distant reading avranno una diffusione sempre più ampia e condivisa.
Oltre il progetto torinese: i Maestri d’ateneo europei
Nel progetto torinese preso qui in esame la marcatura tematica consente di indagare alcuni aspetti della storia della filosofia e degli studi classici che difficilmente emergono con i metodi più tradizionali: grazie agli strumenti computazionali delle digital humanities si potrebbe considerare la storia della ricezione dell’antico negli studi accademici nazionali, spaziando da un’analisi intertestuale che punta all’individuazione delle citazioni classiche a un’indagine di tipo semantico centrata su specifiche aree concettuali. Analogamente, si potrebbe indagare la presenza, nelle filosofie accademiche nazionali, di particolari occorrenze lessicali, pattern argomentativi, tradizioni teoriche e nomi di filosofi, usando tecniche di visualizzazione avanzata, che rendono le relazioni interne ai dati esplorabili attraverso interfacce grafiche innovative, in grado di far emergere schemi comuni, relazioni complesse e associazioni inedite e poco intuitive.
Prima di presentare più nel dettaglio alcuni esempi, conviene osservare che, naturalmente, l’interesse di un’operazione di questo tipo è tanto maggiore quanto più ampio e sistematico è il corpus di testi preso in considerazione: si potrebbe infatti passare dalla costruzione di una biblioteca digitale torinese alla costruzione di una biblioteca dei Maestri d’ateneo – classicisti e filosofi – italiani ed europei. Da qui in avanti scriveremo quindi avendo come orizzonte di riferimento la situazione ipotetica (e auspicabile) in cui siano stati digitalizzati e marcati secondo i criteri adottati nel progetto originale (con tag di nomi di persona, luoghi geografici e concetti fondamentali) tutti i testi pubblicati da docenti di storia della filosofia e di studi classici in alcuni importanti atenei europei in un determinato periodo storico (per esempio in Italia, Francia, Germania e Gran Bretagna tra il 1840 e il 1940, considerando, per ciascun Paese, i dieci atenei più grandi). Prendere in esame una grande quantità di dati permette, anzitutto, di avere un quadro della produzione scientifica nelle accademie europee più realistico e meno viziato dalle consuete scelte di un canone. Vediamo dunque alcuni esempi di come potrebbe funzionare questo metodo di lavoro applicato alla biblioteca digitale che immaginiamo di creare.
Primo esempio. La circolazione internazionale delle idee: le digital humanities incontrano la sociologia di Bourdieu
In una conferenza tenuta a Friburgo nel 1989 e intitolata “Le condizioni sociali della circolazione internazionale delle idee”, Pierre Bourdieu abbozzava un programma di ricerca sulle relazioni internazionali nel campo della cultura. Secondo Bourdieu uno studio di questo tipo dovrebbe considerare l’insieme variegato e spesso trascurato delle interazioni sociali e dei contesti sociopolitici entro cui i testi circolano, quando oltrepassano le frontiere nazionali. In particolare, Bourdieu suggeriva di analizzare i processi di selezione dei testi (che cosa si pubblica, chi traduce, chi pubblica) e vari elementi paratestuali (case editrici, collane, autori delle prefazioni e così via), ritenendo che un’analisi di questo tipo avrebbe permesso di comprendere meglio i meccanismi sociologici della circolazione internazionale delle idee, evitando di accettare acriticamente immagini ingenue o eccessivamente semplificate dell’internazionalizzazione della vita culturale di un certo paese.
La creazione di una biblioteca digitale dei Maestri d’ateneo europei e l’applicazione dei metodi computazionali e quantitativi delle digital humanities e del distant reading permettono di lavorare nel solco di Bourdieu, anzitutto perché – come lo stesso Bourdieu ha osservato, per esempio in Homo academicus del 1984 – il contesto universitario è un luogo privilegiato per indagare le relazioni sociali tra cultura, intellettuali e potere. Ma, d’altra parte, la grande quantità di dati che è possibile analizzare grazie alla biblioteca digitale (e che Bourdieu, ovviamente, non aveva a disposizione) consente di rendere più ampia, realistica e oggettiva l’analisi sociologica. Per esempio, grazie alla marcatura TEI, si potrebbero scoprire le differenze quantitative e geografiche nella trattazione di Hegel (o di Kant) nelle accademie non tedesche: quando arriva, come viene usato, quale campo occupa, quali logiche stanno dietro l’uso che ne viene fatto? Ci sono differenze tra l’ateneo torinese e quello milanese o napoletano? E tra i diversi paesi europei? Il peso di Hegel (o di Kant) nelle tradizioni accademiche nazionali potrebbe essere misurato ricercando nei testi marcati la presenza di lessico hegeliano e – grazie all’analisi delle corrispondenze multiple introdotta da Jean-Paul Benzécri – di autori legati a Hegel, e le informazioni contenute nella taggatura “strutturale” potrebbero fornire le informazioni paratestuali che Bourdieu considerava cruciali.
Secondo esempio. L’uso politico della storia: un’analisi quantitativa
I metodi digitali e quantitativi danno la possibilità di trovare conferme, smentite, ampliamenti, integrazioni, nuove vie in diversi ambiti delle digital humanities. Un caso particolarmente interessante è quello dello studio dell’uso politico della storia da parte di istituzioni e autori. Si tratta di un tema che gli studiosi hanno a lungo trattato con i metodi tradizionali. Si consideri, ad esempio, il caso di Amedeo Peyron (uno dei Maestri dell’ateneo torinese) il quale, convinto che «rien ne rassemble plus à l’histoire d’Italie comme celle de la Grèce», parlando della storia greca evocava, talvolta implicitamente, le vicende della politica sabauda a lui contemporanee. Ipotizzando di digitalizzare e marcare non solo le opere di argomento storico di Peyron, ma anche il suo epistolario (in cui sono contenute riflessioni significative sul rapporto tra storia greca e storia sabauda), si potrebbero ottenere risultati interessanti: analizzando quantitativamente testi come questi, che sono nati con differenti scopi comunicativi e appartengono a diversi generi letterari, sarebbe possibile ottenere una “mappatura” completa di questo argomento “nell’opera di Peyron”. Ma, d’altra parte, sarebbe di estremo interesse verificare, anche contrastivamente, quanto e come questo modello di uso politico della storia si applichi a una pluralità di docenti, a varie università europee e a svariati contesti storici.
Terzo esempio. I Maestri d’ateneo nella didattica universitaria
L’uso didattico delle tecnologie può procurare vantaggi a livello motivazionale e a livello cognitivo, consentendo di proporre agli studenti attività personalizzate, più adeguate ai loro stili di apprendimento, fondate su un approccio interattivo e multimediale. In questa sede ci limitiamo a fare qualche osservazione sul possibile uso della biblioteca digitale europea dei Maestri d’ateneo nella didattica universitaria.
L’analisi digitale e quantitativa della produzione accademica dei filosofi e dei classicisti servirebbe a vari scopi: permetterebbe agli studenti di usare in modo critico e consapevole le tecnologie, di familiarizzare con la nozione di “biblioteca digitale” (che cos’è, come si realizza, a che cosa serve, perché è importante), e di creare infine percorsi di studio e di approfondimento interdisciplinari. Per esempio, gli studenti potrebbero non solo individuare le co-occorrenze verbali e ritmiche, come è possibile fare ad esempio in archivi digitali come Musisque deoque (per la poesia latina) o DigilibLT (per la letteratura latina tardo-antica), ma anche imparare a contare le citazioni classiche (greche o latine) nella produzione accademica di alcuni autori interessanti in un certo periodo, riflettendo sul posto occupato dagli autori classici in quel contesto storico e culturale. Si tratterebbe di un modo alternativo e intellettualmente stimolante per avvicinare gli studenti alla storia della ricezione dei testi classici.
Considerazioni conclusive
In questo contributo abbiamo proposto alcune riflessioni sull’utilità delle biblioteche digitali e della marcatura testuale per gli studi classici e la storia della filosofia. Abbiamo descritto il progetto torinese I Maestri dell’Università degli Studi di Torino: l’opera e il pensiero, nel quale sono state digitalizzate e marcate secondo lo standard TEI alcune opere di filosofi e classicisti che hanno insegnato all’Università di Torino tra la metà dell’Ottocento e i primi decenni del Novecento e che, pur avendo avuto un ruolo significativo nella cultura accademica torinese, sono relativamente poco studiati. Il discorso intorno al progetto torinese è stato pretesto e punto di partenza per immaginare una situazione ipotetica di lavoro nella quale sia digitalizzato e marcato un corpus di opere molto più ampio, prendendo in considerazione tutti i testi pubblicati da docenti di filosofia e di studi classici in alcuni importanti atenei europei in un determinato periodo storico (ad esempio si può pensare di restringere il campo di analisi a una decina di università in Italia, Francia, Germania e Gran Bretagna tra il 1840 e il 1940). Se un progetto di questo tipo venisse realizzato, gli studiosi di storia della filosofia e di discipline classiche potrebbero integrare i metodi di lavoro tradizionali con gli strumenti digitali e computazionali. I due principali modelli teorici a cui abbiamo fatto riferimento sono il distant reading, introdotto da Franco Moretti in storia della letteratura, e l’analisi sociologica dei “campi” culturali e accademici proposta da Bourdieu e dalla sua scuola. Applicando il distant reading e gli strumenti della sociologia bourdieusiana alla nostra ipotetica biblioteca digitale, si potrebbe ottenere una mappatura completa della produzione accademica negli ambiti considerati, con la possibilità di ricavare risultati originali e prospettive inesplorate in merito alla circolazione internazionale delle idee, alla presenza di pattern significativi nei corpora considerati, all’uso politico della storia e all’interazione tra i contesti politico-istituzionali e la produzione scientifica di ambito accademico.
Abbiamo concluso suggerendo che i metodi computazionali, applicati alle biblioteche digitali, possono avere risvolti interessanti per la didattica universitaria, giacché consentono di stimolare l’attenzione degli studenti e di affrontare lo studio disciplinare in modo alternativo ed efficace.