Big Data or Small Data? Il valore non sta nell’abbondanza ma nella qualità

Cosa si intende quando si parla di Big Data?

Si dice che i dati siano il carburante dell’economia digitale. In effetti c’è un’esplosione senza fine nella velocità, varietà e volume di dati di ogni genere: interazioni via telefono, flussi di pagamenti, attività personali sui social media e sul web, dati finanziari ed economici in tempo reale, dati geospaziali, dati personali in varie forme, dati contabili di aziende, documenti online e via dicendo – sembra essere un’onda di marea senza fine e sempre più grande.

Ordini di grandezza dei Big Data

Rispetto al passato, oggi le aziende possono utilizzare quest’enorme quantità di dati utilizzando la Data Science grazie a tre grandi trend:

  • l’avvento del cloud e di altre tecnologie in grado di gestire efficacemente vaste quantità di dati;
  • l’ampia disponibilità di librerie analitiche open-source (ad esempio Python, R) per applicare tecniche di Data Mining, Machine Learning, NPL, AI, e dello sviluppo di community vivacissime (Kaggle, per esempio) che hanno diffuso la cultura della Data Science;
  • il basso costo dell’hardware accompagnato dall’incremento della potenza di calcolo (vedi grafico seguente).

Il rapporto tra il basso costo dell'hardware e la relativa potenza di calcolo

E così, pressoché ovunque, si sente parlare di Big Data. Già, perché l’idea di Big Data piace proprio: alle persone si gonfia il petto quando dicono che loro “fanno i Big Data” (sic, frase raccolta sul campo).

Tutto bello, però c’è un equivoco piuttosto grande intorno all’idea di Big Data: molti credono che qualunque applicazione di Machine Learning, o altro metodo analitico avanzato per estrarre valore dai dati sia “Big Data Analysis”. È un malinteso comune nelle banche, assicurazione, società di asset management.

Spesso, non è così: non sentitevi sminuiti, ma NON si tratta di Big Data. Vediamo perché.

Cosa sono realmente i Big Data

Secondo l’interpretazione più classica, quella di Gartner del 2001, i Big Data possono essere descritti dalle “Tre V”:

  • Volume – La quantità di dati determina se si può parlare di Big Data oppure no: un vero dataset Big Data è generalmente misurato in zettabyte (10^21byte), anche se si tratta di una soglia meramente indicativa, visto che cresce di continuo in funzione della disponibilità dei dati e della potenza di calcolo;
  • Varietà – Qui entra in gioco la natura dei dati: i Big Data includono sia dati strutturati (come numeri ed etichette o categorie), e non-strutturati (ad esempio immagini, file audio e video, file testuali);
  • Velocità – La velocità di generazione dei tipici Big Data è il real-time.

C’è poi chi include anche la V di Veracità (legata all’idea di qualità dell’informazione contenuta nel dato, spesso variabile e discontinua) e quella di Variabilità (ovvero l’intensità con la quale arrivano i dati, che può essere assai variabile nel tempo e nello spazio). Ciò detto, ribadisco che il concetto di Big Data varia in funzione del contesto, ed è un’idea che cambia nel tempo.

Il punto è che, conformemente alle “Tre V” (o se preferite alle “Cinque V”), i Big Data richiedono scelte architetturali e tecnologie dedicate per raccogliere, immagazzinare, maneggiare, processare e visualizzare i dati, al fine di ottenere informazioni utili, ciò che davvero conta. Parliamo di cloud, clustering, elaborazione parallela e MPP, virtualizzazione, elevata connettività, e via dicendo. I framework open-source, come Spark e Hadoop, sono strumenti cruciali per lavorare efficacemente con i Big Data. Quindi, ripeto: i Big Data implicano scelte architetturali e tecnologiche dedicate, con relative conseguenze su budget e costi (specie per aziende, come quelle finanziarie, restie all’utilizzo del cloud e attaccate a soluzioni on premise).

Ora, molte applicazioni finanziarie della Data Science semplicemente non sono Big Data. Sono semplicemente tanti dati. Magari tantissimi dati. Tipicamente macinati da algoritmi di Machine Learning. Ma non si tratta di Big Data. E la cosa non deve essere fonte di dispiacere. Anzi, magari è meglio: ricordatevi che un’architettura Big Data ha un costo e delle implicazioni organizzative. Facciamo un paio di esempi abbastanza concreti su che cosa verosimilmente è Big Data e cosa non lo è.

  • Non sono Big Data – i dati del questionario MiFID/IVASS di 500.000 clienti, i loro dati socio-demografici, le posizioni degli ultimi 5 anni dei loro investimenti, le anagrafiche, le serie storiche dei prezzi, i dati di rischio e gli economics dei 2.500 strumenti finanziari da loro utilizzati nel complesso, i dati su chi/quando/dove si è incontrato ciascun cliente.
  • Sono Big Data – i dati dettagliati di navigazione sul sito e sulla app per mobile della banca di 500.000 clienti, i loro movimenti bancari, il dettaglio in tempo reale degli acquisti fatti con carte di credito, bancomat e app di pagamento, i dati socio-demografici, la storia completa degli ultimi 5 anni dei loro investimenti e gli economics associati, i dati su chi/quando/dove si è incontrato ciascun cliente, le registrazioni delle conversazioni con il call center della banca, la storia delle interazioni con la newsletter settimanale.

Il punto vero è che il valore non sta nell’ammassare quantità spropositate di dati, bensì nell’estrarre da essi informazioni utili e utilizzarle per azioni di business concrete, come ad esempio offrire un servizio maggiormente personalizzato ai clienti, attuare efficacemente cross-selling e upselling, migliorare la retention dei clienti con una comunicazione mirata, evitare grane sul fronte della Compliance, e così via. Per far ciò occorre raccogliere da tutte le fonti disponibili i dati più rilevanti in termini di business, pulirli e immagazzinarli nel modo più ragionevole.

Insomma: rilevanza batte quantità 4-0. Fare scraping di foto di gattini sulle pagine Facebook o acquisire dati sul consumo di tequila non aiuterà granché ad aumentare le vendite di fondi comuni o polizze assicurative.

Inoltre, vale comunque sempre la “legge della parsimonia”: far sì che la dimensione di un dataset sia prossima all’essenziale, oltre a contenere i costi di storage e manutenzione, riduce il rischio di overfitting e data snooping. Si tratta di rischi molto elevati se si fa uso di modelli di Machine Learning di tipo “black-box”.

“Last but not least”, i dati vanno capiti. È quindi questione di unire le due sponde: da un lato le capacità tecniche di analisi dei dati, dall’altro la conoscenza del business, del processo. Altrimenti è un attimo finire a gettare vagonate di dati in pasto ad algoritmi affascinanti, che nei fatti attuano una sofisticata forma di overfitting, producendo risultati poco comprensibili da chi dovrebbe usarli, che dopo un primo momento d’infatuazione da pseudoscienza trova il tutto poco utile e lo relega nel dimenticatoio. Soldi buttati via. Però figo: “abbiamo i Big Data”. Ecco, non è così che si fa.

Insomma, il valore dei dati non deriva né dalla loro quantità in sé, né dal loro acritico utilizzo in forma grezza, ma dalle informazioni che risultano dalla loro elaborazione utilizzando congiuntamente algoritmi e know-how di business. Informazioni utilizzate per decisioni aziendali concrete, innovando prodotti, servizi e modalità di relazione con i clienti.

 

Ti potrebbe interessare anche


Le soluzioni fintech di Virtual B

Virtual B lavora da anni nel settore finanziario, a stretto contatto con i dati e la loro analisi. Dalla nostra esperienza sono nate numerose soluzioni in grado di generare valore e di risolvere problemi per gli intermediari finanziari e assicurativi.

Scarica gratuitamente il nostro white paper Wealth Management and Financial Data Science: a short guide.