EVOLUZIONE DEI LINGUAGGI DOCUMENTARI

Reg. Tribunale Lecce n. 662 del 01.07.1997- ISSN 1973-252X
Direttore responsabile: Dario Cillo

Web

Edscuola

L’EVOLUZIONE DEI LINGUAGGI DOCUMENTARI

di Andrea Torrente

Premessa

Le pratiche dell’informazione-documentazione hanno avuto in questi ultimi anni delle profonde trasformazioni ma, se ci si pone regolarmente la domanda sul futuro dei linguaggi documentari, bisogna convenire con Jacques Chaumier che in questi ultimi anni i linguaggi documentari non si sono mossi. Questa sottolineatura è doppiamente fondata.

Per prima cosa, da circa un mezzo secolo nulla si è mosso nell’architettura del linguaggio documentario: la più recente innovazione in materia risale al lontano 1958, con l’apparizione dei thesaurus. Questo termine sembra essere utilizzato per la prima volta nella sua attuale accezione da R.M. Needham e T. Joyce in “The Thesaurus approach to information retrieval” in American Documentation, 9(3), 1958, 192-197.

D’altra parte, lo sviluppo dei linguaggi documentari nel corso del XX secolo è soprattutto la conseguenza di una diversificazione, senza alcuna revisione dei modelli prestabiliti. Se è poco frequente che nuove forme vedano la luce, è ancor più raro che esse si spengano. Le tre matrici principali dei linguaggi documentari: classificazioni, liste per argomenti e/o per materie e thesaurus, sono profondamente radicati nelle pratiche professionali e gli strumenti che ne sono stati ricavati, sono costantemente utilizzati.

Ciò nonostante, l’immobilismo è soltanto apparente. Si vedrà che le novità non sono da ricercarsi nell’universo dei Centri di Informazione (biblioteche, data base, centri di documentazione), ma nel mondo delle imprese e nella nebulosa di Internet.

I fattori dell’evoluzione

In passato, l’evoluzione dei linguaggi documentari è stata fatta in funzione delle mutazioni culturali o tecnologiche che conducevano a ri-pensare la questione dell’organizzazione delle conoscenze e dell’accesso all’informazione.

Così, le classificazioni enciclopediche delle biblioteche risultano dall’abbondanza editoriale della fine del XIX secolo, che provoca una crescita esponenziale delle collezioni.

Le liste per argomenti e/o per materie reagiscono ad un’accelerazione della circolazione dei saperi: la stesura di cataloghi stampati, con la loro indicizzazione per materie, consente la diffusione delle informazioni bibliografiche. La pubblicazione dei lavori di carattere scientifico avviene sempre più sotto forma di articoli per le riviste specializzate, da ciò un disaccoppiamento fra unità documentaria ed unità fisica che limita il potere della classificazione e spinge verso altre forme di indicizzazione.

Con l’apparizione dell’informatica, i thesaurus offrono una risposta alla dematerializzazione della notizia, che rendeva rischiosa la ricerca sequenziale (sistematica o alfabetica), ed alle nuove possibilità tecniche. La logica della ricerca booleana che le sottende è notevolmente adatta alle operazioni di base effettuate dal computer, ed il loro successo immediato non è più venuto meno.

Le iniziative più o meno concorrenti dei thesaurus sono riuscite meno bene. I linguaggi sintagmatici comportano non soltanto un lessico, come i thesaurus, ma anche una sintassi che conferisce loro un’espressività ed una precisione maggiori. Ciò al prezzo di una complessità che li ha screditati rispetto alla mera combinatoria illustrata dal thesaurus. Questi linguaggi sono ispirati dall’approccio delle classificazioni “a faccette”, le quali non sono molto diffuse, per delle ragioni similari.

Da queste osservazioni, si può dedurre che un linguaggio documentario prospera se è adatto alla sua funzione e costituisce la soluzione più economica ad un problema nuovo posto da uno sconvolgimento procurato dall’ambiente informatico.

Una sparizione annunciata

Lo sviluppo di Internet costituisce una mutazione tecnologica e culturale di prima grandezza e c’era da aspettarsi che generasse il rinnovamento dei linguaggi documentari e che favorisse l’apparizione di pratiche di indicizzazione adeguate al nuovo ordine mondiale dell’informazione. Ma, l’infatuazione considerevole per i motori di ricerca sul testo integrale ha condotto a predire un po’ affrettatamente la fine dei linguaggi documentari e delle pratiche di indicizzazione classiche, a tutto vantaggio dell’automatismo. I procedimenti d’indicizzazione automatica di tipo statistico o statistico-linguistico sono oggetto di ricerche attive e consentono di ottenere dei risultati talvolta impressionanti; è sufficiente consultare i resoconti delle “Text Retrieval Conference” sulla valutazione dei dispositivi di ricerca delle informazioni, all’indirizzo http://trec.nist.gov.

Essi comportano, tuttavia, delle imperfezioni e degli inconvenienti:

a) Il tirocinio statistico è un’arte più che una scienza, in particolare per ciò che riguarda la scelta del corpus di addestramento;

b) Le domande che essi trattano devono comportare un materiale lessicale relativamente abbondante per essere interpretato;

c) Le risposte che essi propongono sono talvolta assai sorprendenti, a causa delle ponderazioni attribuite alle parole del testo e/o della domanda;

d) Gli sforzi per giungere ad un trattamento corretto dei fenomeni di sinonimia, d’ambiguità e delle composizioni lessicali non hanno fino ad oggi avuto esito positivo.

Ma soprattutto, per queste ragioni o per altre, questi sistemi non sono inclusi nei motori di indicizzazione e di ricerca del mercato, oppure lo sono sotto una forma troppo rudimentale per essere efficace. Si tratta, in fondo, di un modo di ricerca basata sugli operatori booleani, che sono sovente impliciti. Questi strumenti consentono, al massimo, di verificare la presenza o la compresenza in una risorsa di una o più parole: è pressoché casuale il loro utilizzo in una ricerca tematica.

Queste tecniche non si sostituiscono all’indicizzazione a base dei linguaggi documentari. Esse non sono né delle predatrici né delle concorrenti dei linguaggi documentari, ma dovrebbero occupare una nicchia ecologica creata dalla proliferazione dell’informazione elettronica: il trattamento dei documenti il cui interesse economico o scientifico non giustifica un trattamento documentario classico, forzatamente costoso. Esse potrebbero così intrattenere una sorta di relazione simbiotica con dei sistemi a base di classificazioni o di linguaggi controllati. E’, del resto, la coesistenza o la cooperazione di un motore di ricerca con un accesso per sistema di classificazione che costituisce oggi il dispositivo più diffuso sul World Wide Web.

Dalle classificazioni enciclopediche ai repertori Web

Un secolo di utilizzazione delle classificazioni enciclopediche ha dimostrato la potenza di un modo di organizzazione dell’informazione fondato sulla gerarchia di classi accoppiate. I sistemi di categorie impiegati dai grandi repertori Web derivano, più o meno coscientemente, da questa tradizione. Il principio di navigazione, fondamentale nel Web, ed il carattere intuitivo di un percorso che va dal generale al particolare in una gerarchia, ne fanno degli strumenti ancora adatti alla bisogna.

Oltre a Yahoo! e all’Open Directory Project, non si contano più i siti-portali che hanno adottato questa configurazione, creando e facendo evolvere ogni volta il proprio schema di classificazione.

Le classificazioni enciclopediche esistenti, la cui copertura sembra tuttavia sufficiente per la descrizione delle risorse su Internet, non sono adatte a servire da canovaccio a questi repertori. (vedasi, ad esempio, D. Vizine-Goetz “Using Library Classification Schemes for Internet Resources (Position Paper). Proceedings of the O.C.L.C. Internet Cataloguing Colloquium”, San Antonio, Texas, 19 Gennaio 1996).

La classificazione Dewey é stata oggetto di tentativi in questo senso, particolarmente per recensire dei siti a contenuto informativo denso, ma i repertori che ne fanno uso sono di piccola taglia e restano assai marginali. Si potrà trovare una lista di questi repertori all’indirizzo www.public.iastate.edu/%7ECYBERSTACKS/CTW.htm.

Non mancano certamente gli argomenti per giustificare l’adozione di schemi artigianali, che sfuggono alle critiche abituali contro le classificazioni di biblioteca: la relativa complessità della costruzione degli indici è evitata poiché si supera qualsiasi base di notazione; la mancanza di ospitalità di una classificazione decimale, strettamente limitata a dieci suddivisioni per classe, è di perciò stesso risolta; la rigidità della mono-gerarchia, che conduce a delle scelte obbligate, è rifiutata a vantaggio di una poli-gerarchia resa trasparente dal gioco dei legami ipertestuali. Infine, la lentezza delle evoluzioni e la pesantezza del processo di gestione effettuato in un quadro istituzionale non sono più degli ostacoli, la classificazione è aggiornata quotidianamente al bisogno, in modo tale da circoscrivere al massimo le preoccupazioni degli utenti.

Nonostante i difetti che presentano inevitabilmente questi strumenti sul piano concettuale, in particolare l’eterogeneità dei principi di divisione che presiedono all’affinamento di una classe ed il numero eccessivo di categorie, sono all’origine di un rinnovato interesse per le classificazioni e dimostrano la praticabilità di un trattamento intellettuale dell’informazione, anche all’epoca di Internet.

Dalle classificazioni specializzate alle tassonomie d’impresa

Con il coinvolgimento di numerose imprese nel cosiddetto e-business, cioè tutta l’attività commerciale o di comunicazione interna ed esterna esercitata per mezzo di Internet, o ancora nei processi di capitalizzazione delle conoscenze, la necessità di un’organizzazione razionale dell’informazione diviene imprescindibile.

Si possono raggruppare sotto l’espressione tassonomie d’impresa i sistemi di organizzazione delle conoscenze messi a punto in questo contesto. Ma perché non chiamarli più “thesaurus” o “classificazioni”? A tutta prima a causa di una volontà più o meno esplicita di evitare le connotazioni di questi termini legate a delle pratiche troppo vecchie. Ma anche per sfuggire alle “norme” ed alle “tradizioni” che governano l’architettura dei linguaggi documentari classici. Di natura innanzi tutto classificatoria, questi strumenti servono alla classificazione ed alla presentazione delle informazioni; ma essi sono concepiti per riflettere e progettare una concezione dei mestieri, dei “saper fare”, dei modi di funzionamento dell’organizzazione, in breve una cultura d’impresa.

A questo titolo, essi possono anche integrare una componente terminologica con definizioni e controllo del vocabolario, che può servire alla produzione di meta-dati.

I modelli possibili per queste tassonomie sono molto vari: è pacifico che essi debbano presentare almeno una struttura gerarchica, ma vi si possono aggiungere diversi tipi di relazioni semantiche, adottare un’organizzazione a faccette, ecc.

E-Bay è un esempio illuminante di tassonomia commerciale universale della quale si può apprezzare la flessibilità consultando le sue diverse declinazioni nazionali (Italia, Francia, Germania, Stati Uniti, Regno Unito, ecc.); varietà dei principi di divisione, presenza di faccette in determinati punti della gerarchia.

Libertà e diversità strutturali sono, quindi, la regola, ma i promotori delle tassonomie d’impresa si accordano sull’importanza di una metodologia fortemente ancorata nel contesto imprenditoriale. Così, i linguaggi documentari escono dalla sfera scientifica e tecnica per divenire degli ausili dell’economia mercantile e degli strumenti di management.

Dai thesaurus alle ontologie

Il Web semantico ha per obiettivo quello di permettere uno sfruttamento automatico delle risorse disponibili in linea, al fine di proporre delle funzioni nuove o di migliore qualità: motori di ricerca intelligenti, combinazione di differenti servizi per condurre a buon fine delle operazioni più o meno complesse della vita quotidiana o professionale, navigazione semantica. Esso si fonda su dei formalismi normalizzati, sulla descrizione delle risorse per mezzo dei metadati e sulla codificazione nelle ontologie delle conoscenze necessarie alla creazione ed allo sfruttamento di questi metadati.

Le analogie fra ontologie e thesaurus sono evidenti: in margine al loro ruolo nell’indicizzazione e nell’individuazione dell’informazione, questi ultimi servono egualmente a censire ed a strutturare la terminologia ed i concetti di un mestiere o di una disciplina; oppure la rappresentazione delle conoscenze nelle ontologie è fondata su dei termini, su dei concetti e su delle relazioni semantiche. La strutturazione dei concetti in reti e la normalizzazione della loro espressione costituiscono dei punti comuni importanti. Esse non devono dissimulare le specificità di ciascuno di questi strumenti, che derivano da vocazioni dissimili: i thesaurus sono adatti al loro ruolo di strumenti di mediazione documentaria, le ontologie devono servire alla rappresentazione di molteplici aspetti delle risorse digitali.

Nella misura in cui esistono dei thesaurus nei campi più disparati, che comportano migliaia di termini pertinenti, è sovente giudizioso integrarli nelle ontologie, come è successo per il Progetto Hi-Touch, nel campo del turismo, che include nella sua ontologia il thesaurus dell’Organizzazione Mondiale del Turismo; oppure di farne il loro nucleo, come nel caso del Progetto Agricultural Ontology Service dell’Organizzazione delle Nazioni Unite per l’alimentazione e l’agricoltura. (visitare il sito www.fao.org/agris/aos/About.htm).

Bisogna, tuttavia, osservare che i thesaurus devono essere rimaneggiati e rimpolpati per consentirne uno sfruttamento automatizzato. Ad esempio, è sovente necessario inserire nelle ontologie delle conoscenze su persone, luoghi o prodotti, incorporare parecchi linguaggi documentari, aggiungere relazioni più sottili di quelle che si conoscono tradizionalmente. In più, i metadati non si limitano alla descrizione tematica delle risorse: in funzione delle applicazioni mirate, esse possono comportare delle informazioni più puntuali, dei dati segnaletici, ecc.

Si possono vedere nelle ontologie i discendenti superdotati dei thesaurus, ancora in culla, ma suscettibili una volta giunti a maturità di divenire degli strumenti veramente universali di caratterizzazione dell’informazione.

Una genealogia dei linguaggi documentari

Internet, quindi, ha suscitato una nuova generazione di sistemi di organizzazione delle conoscenze, nei quali si possono riconoscere la maggior parte delle componenti dei linguaggi documentari della tradizione, o che sono scaturiti da essa in linea più o meno diretta. L’eredità non è sempre rivendicata, ma l’esame delle parentele strutturali consente di evocare questa genealogia.

Che si scelga o no di battezzarli linguaggi documentari, questi sistemi testimoniano la rinascita delle pratiche di descrizione dei contenuti e di organizzazione delle conoscenze.

Il pragmatismo ed il sincretismo che marcano sovente la loro concezione dimostrano che le opposizioni fra linguaggi classificatori e combinatori, pre-coordinati e post-coordinati, enumerativi ed a faccette, possono essere superati, dal momento in cui un uso accorto delle nuove tecnologie autorizza una flessibilità inedita e consente di combinare ciò che ciascuna di queste strutture ha di più efficace. Alla fine, è sempre l’adeguamento di questi linguaggi alle loro condizioni d’uso che ne garantisce la durata.