(di Alessandro Capezzuoli, funzionario ISTAT e responsabile osservatorio dati professioni e competenze Aidr) Dei metadati si parla sempre poco, forse perché il prefisso “meta” viene associato inconsciamente al suo significato originario ( μετά «con, dopo») e alla conseguente connotazione di un concetto ad ambiti eterei e inafferrabili, come possono essere la metafisica o le metafore. Probabilmente, la parola stessa, metadato, non suscita grande interesse come le parole blockchain, big data e machine learning. La definizione riduttiva che si dà ai metadati, le informazioni che descrivono i dati, non aiuta a comprendere pienamente la loro funzione: sembra si riferiscano a qualcosa di secondario rispetto ai dati, di cui si potrebbe fare a meno. Bisognerebbe aggiungere alla definizione che senza i metadati un dato perde il suo significato, non ha più consistenza e non può essere letto correttamente.
Ridurre la funzione dei metadati a un ambito esclusivamente “descrittivo” è una sottovalutazione pericolosa. In primo luogo perché la funzione descrittiva si riferisce non a uno ma a diversi aspetti, che possono comprendere il contenuto, la struttura e il contesto relativi ai dati. Proprio per questo motivo, non esiste un solo tipo di metadati. Ci sono i metadati descrittivi, che sono costituiti da un set di descrizioni normalizzate, utili per identificare i dati e nei sistemi di ricerca semantica che fanno uso dei Linked Open Data. I metadati strutturali, invece, descrivono l’architettura e le relazioni interne e sono essenziali per utilizzare correttamente i dati. Poi ci sono i metadati gestionali, che comprendono informazioni tecniche quali possono essere i formati o l’ambiente tecnologico adottato.
Basta questa panoramica generale, e, per gli addetti ai lavori, le parole XSD e JSON Object, per intuire le enormi potenzialità associate ai metadati. Se è relativamente semplice immaginare un sistema data driven, non è altrettanto semplice pensare all’uso dei metadati per prendere delle decisioni. L’immaginazione, però, può assumere una forma precisa, se viene supportata da un esempio pratico. Supponiamo, ipoteticamente, che in qualche parte del mondo ci sia un’epidemia fuori controllo e che questo fenomeno sia misurato attraverso un metodo scientifico rigoroso che rilevi il numero e le dinamiche dei contagi e dei decessi. Supponiamo che, attraverso questi “numeri”, si evidenzi un rischio di contagio elevato nei ristoranti e che i ristoranti siano frequentati principalmente da una precisa fascia di popolazione costituita da maschi over 70.
Per ridurre i rischi, si potrebbe pensare di chiudere i ristoranti, oppure di vietare l’ingresso agli individui goderecci e inclini al vizio di mangiare. Nel primo caso, servirebbero dei metadati attraverso i quali descrivere precipuamente le attività economiche, allo scopo di individuare le aziende che si occupano di somministrare cibo e bevande. Nel secondo caso, servirebbe un archivio della popolazione da cui estrarre un elenco di nomi a cui inviare la comunicazione “Vietato entrare nei ristoranti”. In entrambi i casi, per prendere una decisione, servirebbero dei metadati descrittivi e strutturali di qualità. Questo esempio, senz’altro riduttivo, permette di avviare numerose riflessioni sul ruolo dei metadati. La chiusura dei ristoranti, nel periodo di massimo rischio Covid, è stata decisa attraverso l’adozione della classificazione statistica ATECO, ovvero un insieme di classi e descrittori che identificano più o meno precisamente le attività economiche svolte dalle aziende.Si può discutere certamente sulla “purezza” statistica di un sistema classificatorio, ma non si può negare che la chiusura dei ristoranti sia stata guidata dai metadati. Analogamente, se si fosse optato per vietare l’accesso ai ristoranti a una certa fascia di popolazione, i metadati avrebbero avuto un ruolo chiave nella selezione degli individui. I due scenari fanno emergere degli aspetti che al momento non fanno parte del dibattito pubblico: la governance dei metadati, l’adozione di “linguaggi” condivisi per descrivere i dati, o più in generale i fenomeni scientifici, e la qualità dei metadati. La scelta di chiudere i ristoranti è stata possibile fondamentalmente per un motivo: tutte le aziende possiedono un codice ATECO che fa riferimento a un solo sistema di classificazioni condiviso, quindi è stato relativamente semplice individuare le aziende a cui era associato il codice 56.10.11 – Ristorazione con somministrazione . Lo stesso provvedimento avrebbe potuto essere inapplicabile in un contesto in cui ogni regione avesse adottato un sistema classificatorio differente, magari meno rigoroso, e decontestualizzato dagli altri.
Chi si occupa di metadati conosce bene le difficoltà che si incontrano nell’integrazione di banche dati diverse in cui, per esempio, il genere viene indicato in modo diverso, M/F, Maschio/Femmina, 0/1, 1/ 2, oppure il territorio viene codificato sulla base di classificazioni differenti in termini metodologici e temporali. Purtroppo, non è sempre possibile costruire un sistema di metadati uniforme: a volte dipende dalla chiusura mentale dei produttori di dati rispetto all’esterno, a volte da vere o presunte rivendicazioni di maggiore (o minore) rigore scientifico di un set di metadati rispetto a un altro, altre volte dall’adozione di procedure o serie storiche che non possono essere interrotte.
L’utilizzo condiviso di metadati di qualità è tutt’altro che banale e spesso viene ostacolato da questioni politiche e non metodologiche. Se si circoscrive l’ambito di utilizzo dei metadati al mercato del lavoro e alle professioni, emerge uno scenario desolante: da una parte c’è la classificazione internazionale ISCO (International Standard Classification of Occupation), che si presterebbe molto bene a descrivere, con un linguaggio condiviso e di qualità, le professioni e la loro rappresentazione sotto molteplici aspetti, dall’altra ci sono gli interessi di parte, le caste, gli egocentrismi e le scarse conoscenze della materia, che ne ostacolano l’applicazione. Il risultato è che il reclutamento, in particolare nel settore pubblico, soffre di una carenza strutturale ormai da molti anni, in un momento storico in cui non è possibile permetterselo. Per questo, sarebbe auspicabile che all’ordine del giorno del tema “trasformazione digitale” venga inserita la voce “Metadati, governance, condivisione e qualità”.