Nota metodologica

L’archivio storico digitale della rivista è stato realizzato nell’ambito del progetto dell’Università “Sapienza” di Roma “Storia dell’arte: una rivista fra tradizione e innovazione”, coordinato da Antonella Sbrilli, insieme al gruppo di lavoro composto da Paolo De Gasperis, Patrizia Principi e Stefania Macioce.

Durante il progetto è stata completata la campagna di digitalizzazione, trascrizione e indicizzazione di tutti gli articoli pubblicati dal 1969 al 2023, con l’obiettivo di costruire un dataset capace di rappresentare in forma strutturata l’intero impianto analitico della rivista.

La trasformazione digitale si è articolata in varie fasi a partire dalla digitalizzazione integrale dei fascicoli. I singoli numeri della rivista sono stati acquisiti, sottoposti a OCR e resi disponibili sia in formato PDF sia in formato testo semplice, così da agevolare operazioni automatiche tramite software e modelli di linguaggio avanzati.

Una delle fasi cruciali è stata la costruzione di un dataset composto da 1.113 articoli tratti dai 160 numeri della rivista. Ogni articolo è stato elaborato tramite un LLM che ha supportato nella redazione di abstract in doppia lingua, costruzione di metadati descrittivi, quantitativi e qualitativi ed estrazione di entità come luoghi e personaggi noti. Lo sviluppo del dataset permette di consultare la rivista in modi inediti e agevola l’analisi interdisciplinare degli oltre 50 anni di studi storico-artistici pubblicati.
Un esempio delle analisi possibili è mostrato in questa pagina, dove una serie di visualizzazioni interattive permettono di esplorare il corpus documentale della rivista attraverso grafici e rappresentazioni visuali estratte dai dati.

La scelta di utilizzare un modello di “intelligenza artificiale” per la costruzione di abstract e metadati degli articoli, ha permesso di uniformare questi dati anche in presenza di un corpus disomogeneo come quello della rivista che nel corso degli anni ha cambiato formato, norme e struttura. Il dataset, risultato di questa complessa operazione, è stato utilizzato come base dati per la costruzione dell’archivio storico oggi consultabile online, che permette l’accesso ai PDF originali e, al contempo, consente una ricerca avanzata e precisa grazie alla presenza di metadati descrittivi che evidenziano i contenuti principali di ogni articolo.
L’abstract di ogni contributo è stato redatto da un modello linguistico che ne ha enfatizzato i contenuti principali in un numero di battute uniforme, consolidando l’accuratezza del sistema di ricerca testuale e la relativa indicizzazione sui motori di ricerca.

Il dataset così composto, è stato pubblicato con licenza Creative Commons Attribution-ShareAlike 4.0 per garantire interoperabilità con altre risorse digitali e per sostenere applicazioni in ambito scientifico e di ricerca, inclusi usi sperimentali.

Tra gli obiettivi di lungo periodo vi è la definizione di una strategia metodologicamente solida per la trasformazione digitale delle riviste storiche.

Il dataset è consultabile all’indirizzo:
https://huggingface.co/datasets/phalanx80/sa-data

Maggiori dettagli sul processo impiegato sono disponibili nell’articolo:
Una rivista in digitale / De Gasperis, Paolo. – In: STORIA DELL’ARTE. – 161(2024), pp. 161-175.

https://iris.uniroma1.it/handle/11573/1722605