Perché abbiamo bisogno dei dati sintetici

Freschi di assunzione, i due data scientist di Winterfell Bank hanno ricevuto l’incarico di utilizzare algoritmi di machine learning per capire meglio che cosa differenzia i comportamenti dei clienti definibili come High Net Worth Individual (HNWI) da quelli considerati Mass Affluent ed Emerging Affluent. Sfortunatamente, gli HNWI sono meno dell’1% del totale, pochissimi. In termini di teste, i clienti Mass Affluent e gli Emerging Affluent sovrastano gli HNWI e quindi, dal punto di vista di un algoritmo di machine learning, li offuscano numericamente, rendendoli difficilissimo studiarli.

 

Jurassic Bank ha incaricato una piccola società fintech, altamente specializzata in data analytics, di individuare le migliori opportunità di cross-selling tra la clientela, sviluppando sulla sua base dati un modello “custom” di machine learning. Disgraziatamente, la policy aziendale di Jurassic Bank proibisce con fermezza qualsiasi trasferimento di dati all’esterno della banca, così come l’accesso in remoto a personale esterno tramite VPN: niente da fare, occorre lavorare fisicamente in sede, in seminterrati stipati di mainframe dell’era Paleoproterozoica. Il caso vuole che la società fintech abbia sede a 350 km di distanza dalla sede di Jurassic Bank,, sicché costi e tempi del progetto di cross-selling rischiano di lievitare enormemente. Il che non è una buona cosa per il cross-selling e i ricavi che ne dovrebbero derivare.

 

Nell’ambito del piano industriale per il prossimo triennio, Gondor Insurance sta valutando di svecchiare la sua gamma prodotti. La popolazione di clienti infatti cambierà sotto l’effetto di due forze principali: (i) il forte passaggio generazionale già in essere e (ii) l’acquisizione di un’altra compagnia assicurativa, con un bacino di clienti abbastanza differente. Come valutare numericamente l’impatto su raccolta premi e marginalità di vari scenari associati a una trasformazione della gamma prodotti unita a contestuali variazioni nella tipologia di clienti e nelle loro preferenze?

 

Questi tre casi, riguardanti tre differenti intermediari finanziari alle prese con tre differenti problemi di data analytics, hanno senz’altro un fattore in comune: beneficerebbero tutti e tre dell’uso di dati sintetici.

 

Che cosa sono i dati sintetici

I dati sintetici sono dati “finti”, connotati però dalle stesse proprietà statistiche dei dati reali. Insomma: dati simili agli originali ma diversi. Diversi quanto basta, per esempio, per impedire di associare univocamente un data point sintetico ad un data point della base dati originale. Il che è una buona notizia per GDPR & C.

Per generare un dataset sintetico occorre un modello statistico-simulativo, un Synthetic Data Generator (SDG), cioè un modello di machine learning che ha effettuato il training su dati reali per poi essere impiegato nel generare nuovi dati, via simulazione Monte Carlo. Vediamo un po’ meglio il processo di creazione del dato sintetico.

 

Come funziona il Synthetic Data Generator

Il SDG impara quali sono le caratteristiche fondamentali dei dati riferiti ad un dato problema, identificando le sottostanti leggi probabilistiche multivariate, che muovono il sistema nel suo complesso, considerando le interrelazioni.

Non è un problema triviale: spesso i dati si sostanziano in uno spazio campionario vasto, con molte dimensioni, definite da variabili eterogenee per tipologia: ad esempio variabili nominali (come il genere, o la residenza), numeriche ordinali (ad esempio il livello d’istruzione), numeriche discrete (ad esempio il numero di figli), numeriche continue (ad esempio le masse di denaro in gestione o il saldo del c/c), in serie storica (ad esempio il valore di quota dei fondi comuni), e via dicendo. Aggiungete poi le relazioni di interdipendenza tra le variabili. Nel tempo, ovviamente, perché le cose cambiano. E, credetemi, se per caso la parola “interdipendenza” vi fa balenare in mente la correlazione lineare, be’, sappiate che per questo genere di problema appoggiarsi su una simile metrica è quasi sempre una pessima idea, che porta a dati sintetici scadenti: servono definizioni più particolareggiate di interdipendenza.

Per chi è pratico di dati finanziari, un sistema simulativo per l’analisi dei rischi di mercato è a tutti gli effetti un SDG. Solo che si tratta di un caso “semplice”: molte variabili, ma tutte numeriche continue, al più discrete, tutte simili nei loro tratti statistici macroscopici (fat-tailed, eteroschedastiche, autocorrelate, ecc). Quando si mischiano dati demografici di clienti, comportamenti e dati di relazione, dati di prodotti e mercati, e via dicendo, è intuitivamente apprezzabile che la situazione si complica non poco.

Dopo il training il SDG può generare un numero arbitrario di dati sintetici relativi al problema del quale ha digerito i dati originali: tecnicamente, il SDG genera un campione artificiale campionando dalla distribuzione di probabilità multivariata che descrive il sistema/fenomeno oggetto di analisi. Se il SDG è di buona qualità, i dati simulati manterranno la maggior parte delle proprietà statistiche ed informative dei dati originali e potranno essere utilizzati per svariati scopi.

 

L’utilizzo dei dati sintetici: tre applicazioni chiave

In linea di massima i dati sintetici hanno tre macro-applicazioni: vediamole.

 

Creare dataset per il training di algoritmi di machine learning

È il caso di Winterfell Bank: i dati originali della banca sono un pessimo campione per l’apprendimento, visto che gli HNWI sono troppo pochi; generando altri HNWI artificiali (simili e allo stesso tempo diversi da quelli reali) si dà modo al modello di apprendere su una base campionaria più ampia e rappresentativa. E i modelli ringrazieranno con una qualità dell’output migliore. I dati sintetici sono così uno strumento che consente di sviluppare e testare modelli in varie condizioni (evitando, tra l’altro, di sovrasfruttare le basi dati originali, con seri pericoli di overfitting).

 

Proteggere dati sensibili alla privacy

Questo invece è il caso di Jurassic Bank. Pur mantenendo le caratteristiche statistiche fondamentali dei dati originali, i dati sintetici non contengono le informazioni del campione originale e tutelano in modo molto forte la privacy. Quindi, se Jurassic Bank dispone di un SDG, può generare un campione sintetico, che NON ha problemi di privacy, e lasciarlo tranquillamente ai consulenti affinché sviluppino il modello nei loro uffici e non nei seminterrati della banca, riducendo tempi e costi del progetto.

 

Simulare situazioni del tutto nuove

Siamo nel caso di Gondor Insurance: si vogliono esplorare situazioni nuove, mai realizzate, complesse. Qui generare dati sintetici è sostanzialmente il fine, non il mezzo. Siamo nel campo del “What if?”. Ma i dati non devono essere campati per aria, devono affondare le radici nel reale: nel caso di Gondor Insurance, lo scenario da simulare non è fantascienza, semplicemente sono fenomeni che partono dalla realtà odierna e possono ragionevolmente succedere. Il processo è a grandi linee questo:

  • si simulerà un’intera popolazione di clienti; molti soggetti saranno nuovi, mentre altri usciranno di scena;
  • ciascuno avrà preferenze bisogni e interagirà con l’ambiente, prendendo decisioni di acquisto e vendita di prodotti e servizi;
  • il tutto si rifletterà sui KPI della compagnia assicurativa, e impatterà sul suo valore;
  • analizzando varie ipotesi di gamma prodotti si potranno effettuare scelte manageriali consapevoli e numericamente fondate;
  • il tutto con costi (di test, reputazionali, di “intrusione” nella relazione agente assicurativo-cliente, ecc) contenuti, e un beneficio di comprensione del business per l’intera organizzazione.

L’ultimo caso è l’applicazione più profonda e innovativa dei synthetic data: generare popolazioni artificiali è infatti un passo fondamentale nell’Agent Based Modeling (ABM), tecnica sempre più in uso per testare situazioni e comportamenti senza restare invischiati in problemi di privacy e organizzativi. L’uso dell’ABM si spinge fino a creare interi mercati artificiali: può sembrare una bizzarria, ma non è così, è una realtà, come dimostra il caso tratteggiato di Gondor Insurance. Ed è il futuro del marketing. Ne parleremo in dettaglio in un prossimo post.

 

La soluzione di Virtual B

Virtual B lavora da anni nel settore finanziario, a stretto contatto con i dati e la loro analisi. Dalla nostra esperienza sono nate numerose soluzioni in grado di generare valore e di risolvere problemi per gli intermediari finanziari e assicurativi.

Sei interessato a espandere la tua base dati aziendale con l’implementazione di dati sintetici? Contattaci per una demo e ricevi il nostro White Paper che descrive i principi alla base del Synthetic Data Generator di Virtual B.

Contattaci