Dati sintetici, l’ultima frontiera della data protection e della condivisione dei dati
SCRITTO DA ALFREDO VISCONTI PRESIDENTE ANDIP
________________________________________________________
Negli anni, finalmente, le aziende hanno capito, o purtroppo molto più spesso, si sono adeguate al dettame per cui il patrimonio più importante, e da tutelare, nelle aziende sono i dati che le stesse aziende nel tempo hanno acquisto e fatti propri ma soprattutto li hanno plasmati sul proprio business.
Qualcuno oggi dice che finalmente nelle aziende si rispettano gli investimenti in macchine, uffici di rappresentanza risorse interne ed altro, ma finalmente i dati hanno acquisito centralità nel business e nella produttività, ma cosa ancora più importante sono diventati qualcosa di tangibile, migrando dal concetto di dato al concetto molto più evoluto ed importante di informazione.
Oggi le società, che sono obbligate a lavorare con i dati e con le informazioni che ne derivano, incontrano costantemente barriere, imputabili in modo specifico sia alla tecnologia e quindi alla propria struttura tecnica sia in base all’ordinamento giuridico.
Questi ostacoli si traducono in mancate opportunità di crescita e possono ostacolare l’innovazione del prodotto ma allo stesso tempo hanno generato la paura della condivisione di dati soprattutto se sono sensibili con partner, potenziali clienti, o prospect esterni.
Diamo atto che questo grande passaggio da dato ad informazione è da imputarsi anche all’evoluzione del concetto di privacy.
Già con il nostro D.lgs 196/2003 ma ancor di più con l’entrata in vigore del regolamento generale sulla protezione dei dati personali UE 2016/679 si è generato un cambio di passo rispetto alla gestione delle informazioni sensibili e della loro messa in sicurezza.
Il regolamento infatti si lascia alle spalle un primo approccio marcatamente formalistico e spesso solo burocratico completamente basato su regole analiticamente definite, nel nostro passato nell’allegato b al decreto appena citato, il famoso “elenco delle misure minime di sicurezza da adottare”.
Ad oggi la normativa sancisce il passaggio ad un approccio che responsabilizza maggiormente il Titolare del Trattamento, con il GDPR si sono ampliati i diritti dell’interessato in tema di trattamento dei dati personali e sensibili, offrendo linee guida sicuramente meno interpretabili e che prevedono, solo a titolo di esempio non esaustivo, il diritto all’oblio ma soprattutto impongono precise limitazioni, attraverso indicazioni, come ad esempio adottare una soluzione di Continuous Vulnerability Assessment che permette di garantire l’efficienza e la sicurezza di tutti i sistemi che raccolgono, archiviano e gestiscono dati personali in maniera conforme al GDPR.
Dal punto di vista della governance, tenendo conto dello stato dell’arte e dei costi di attuazione, nonché della natura, dell’oggetto, del contesto e delle finalità del trattamento, le aziende sono tenute a mettere in atto misure tali da garantire un livello di sicurezza e di riservatezza adeguato al rischio (art. 32). L’analisi dei rischi viene richiesta almeno per (art. 35):
- l’utilizzo di soluzioni tecnologiche che elaborano una valutazione sistematica e globale di aspetti personali relativi a persone fisiche, attraverso modalità di trattamento automatiche (compresa la profilazione, sulla quale vengano prese decisioni che hanno risvolti giuridici o che impattano significativamente su dette persone fisiche: situazione economica, salute, preferenze personali, localizzazione, profili per il marketing);
- trattamenti su larga scala di dati sensibili e/o giudiziari (ad esempio numero di persone coinvolte, volume di dati trattati, permanenza dei dati trattati, estensione geografica del trattamento, trasferimento di dati in Paesi non appartenente all’Unione europea) o dati di persone con maggiore necessità di protezione (es. bambini, pazienti con malattie mentali);
- sorveglianza sistematica su larga scala di una zona accessibile al pubblico.
Tuttavia, le aziende e i ricercatori, che mirano ad accedere a questi dati per sviluppare algoritmi o sistemi di machine learning, non necessariamente devono accedere a dati strettamente reali, ma devono poter accedere a set di dati realistici che simulano e mantengono le stesse proprietà statistiche dell’informazione reale. Questi dati alternativi sono noti come dati sintetici.
I dati sintetici sono dati, o il loro risultato, creati attraverso una particolare tecnica di anonimizzazione basata su modelli di machine learning di tipo generativo. Partendo da un set di dati reali, si allena un sistema di intelligenza artificiale istruito a individuare le correlazioni e metriche statistiche del dataset originale, per poi generare un set di dati ex novo che mantiene la stessa distribuzione statistica del dataset originale, pur non condividendo alcun dato del dataset reale.
Questa tecnica detta appunto tecnica della sintetizzazione fa si che si possa risalire al dato reale dal dato generato, senza perdere l’informazione statistica originale, esattamente l’opposto di quanto succede sui dati con le normali tecniche di anonimizzazione, dove il dato è privato di tutti gli elementi “personali”. Ottimo risultato, l’anonimizzazione, ma cosi facendo si perdono e non si recuperano parte delle informazioni contenute nel set di dati.
I dati sintetici hanno diversi vantaggi, quali:
- il superamento delle restrizioni di utilizzo dei dati: i dati reali spesso nel loro utilizzo incontrano vincoli di utilizzo basati sulla disamina del GDPR, perchè i dati sintetici duplicano le proprietà statistiche fondamentali per l’utilizzo del dato ma sempre senza esporre i dati reali;
- la generazione di dati sintetici è a regime più economica rispetto all’acquisizione di dati reali;
- la condivisione e quindi la divulgazione a terzi delle informazioni viene resa possibile dalla natura statistica delle informazioni, che non porta con se la possibilità di accoppiare l’informazione ad una persona.
I dati sintetici rappresentano una soluzione tecnologica che incomincia a trovare una strada specifica soprattutto in alcuni settori come:
- le assicurazioni, i servizi bancari/finanziari ed il retail, settori in cui la data science e data analytics stanno già da tempo offrendo nuovi modi di lavorare sui dati, soprattutto quando questi devono essere esposti al pubblico;
- l’healthcare, mercato dove i dati sensibili, genetici, biometrici, ma sanitari in generale, godono di un regime di protezione normativa molto complicato;
- la Pubblica Amministrazione, settore dove la mole di dati detenuta è veramente importante sia in termini quantitativi sia sin termini qualitativi il cui valore informativo non sempre può essere reso disponibile al pubblico.
Chi progetta sistemi generativi di dati sintetici trova il giusto rapporto tra privacy e utilità, però dobbiamo sempre ricordare che non esistendo un collegamento diretto tra il dato reale e quello sintetico, non sarà mai possibile identificare il singolo dato originale analizzando gli attributi del dato generato.
Questa tecnica, che è giusto dire in tanti stanno studiando ed affinando anche nelle proprie aziende, ci permette di pensare che un sistema di sintetizzazione dei dati debba necessariamente essere valutato in base all’integrità del proprio modello generativo, piuttosto che sulla base del principio di minimizzazione dei dati, di cui agli artt. 5 e 6 GDPR.
I dati sintetici vengono creati in modo programmatico con tecniche di machine learning. È possibile utilizzare tecniche di machine learning classiche come gli alberi decisionali, così come le tecniche di deep learning . I requisiti per i dati sintetici influenzeranno il tipo di algoritmo utilizzato per generare i dati. Gli alberi decisionali e modelli di machine learning simili consentono alle aziende di creare distribuzioni di dati multimodali non classiche, addestrate su esempi di dati del mondo reale. La generazione di dati con questi algoritmi fornirà dati altamente correlati con i dati di addestramento originali.
I metodi basati sull’apprendimento profondo per la generazione di dati sintetici fanno in genere uso di un autoencoder variazionale (VAE) o di una rete di antagonismo generativo (GAN) . I VAE sono modelli di apprendimento automatico non supervisionati che fanno uso di codificatori e decodificatori. La parte del codificatore di un VAE è responsabile della compressione dei dati in una versione più semplice e compatta del set di dati originale, che il decodificatore analizza e utilizza per generare una rappresentazione dei dati di base. Un VAE viene addestrato con l’obiettivo di avere una relazione ottimale tra i dati di input e output, in cui sia i dati di input che i dati di output sono estremamente simili.
Quando si tratta di modelli GAN, vengono chiamate reti “antagoniste” poiché i GAN sono in realtà due reti che competono tra loro. Il generatore è responsabile della generazione dei dati sintetici, mentre la seconda rete (il discriminatore) opera confrontando i dati generati con un dataset reale e cerca di determinare quali dati sono falsi. Quando il discriminatore rileva dati falsi, il generatore ne viene informato e apporta modifiche per cercare di ottenere un nuovo batch di dati dal discriminatore. A sua volta, il discriminatore diventa sempre più bravo a rilevare i falsi. Le due reti sono addestrate l’una contro l’altra, con i falsi che diventano sempre più realistici.
Volendo citare qualche azienda che sui dati sintetici ha investito con competenza possiamo partire dai report di Gartner che cita:
Aindo come fornitore di dati sintetici all’interno del loro rapporto “Innovation Insight for Synthetic Data”. L’articolo afferma: “I dati sintetici possono essere un supplemento o un’alternativa efficace ai dati reali, fornendo accesso a dati annotati per costruire modelli di intelligenza artificiale accurati ed estensibili”.
Per chi vuole approfondire Aindo attraverso INTUITE.AI, rende disponibile la tecnologia dei dati sintetici sui prodotti.