Small Data: nella botte piccola c’è il vino buono

L’articolo “BIG, small or Right Data: Which is the proper focus?” [14] di Ricardo Baeza-Yate (CTO di NTEN e direttore di Computer Science Programs della Northeastern) parla della crescente importanza dei cosiddetti “Small Data”. Un argomento estremamente interessante, motivo per il quale ho deciso di tradurre e commentare l’articolo.

La questione nasce dal fatto che attualmente ci troviamo nella situazione in cui i Big Data hanno alimentato in modo esponenziale ricerche, innovazioni ed ambizioni forse fuori dalla portata della maggior parte delle aziende per diversi motivi. Infatti, usare i Big Data è spesso fuori discussione per motivi che vanno dalla reale disponibilità di Big Data al rapporto costi/benefici eccessivamente elevato nel loro utilizzo. Così l’autore mette in evidenza come la maggior parte delle aziende ha la -reale- necessità di ottenere un vantaggio dall’utilizzo dei cosiddetti Small Data piuttosto che dai Big Data, ma Small Data non significa necessariamente “sfide più piccole”, piuttosto significa differenti.

Ma cosa sono questi Small Data? In realtà non è un termine così recente, e come al solito esistono diverse sfaccettature del termine, ma partendo dall’articolo sopra citato sono quei dati di dimensioni sufficientemente ridotte da poter essere compresi dalla mente umana [1], quei dati in volume e formato tale da essere accessibili, informativi e utili [3] oppure, la definizione che più preferisco, “la traccia digitale che ogni persona genera” [4].

A partire dalle definizioni precedenti, l’autore estende la discussione verso alcuni vantaggi nell’uso degli Small Data rispetti ai Big Data, ad esempio essi sono maggiormente disponibili, precisi e completi; riguardano persone, piccoli gruppi e comunità; descrivono ogni persona in ogni contesto ed infine la maggior parte dei dati che le persone consumano (ed io aggiungo generano) sono Small Data.

L’importanza di utilizzare Small Data è tale che nella maggior parte dei casi sono i dati corretti ad un problema di analisi e la maggior parte delle innovazioni sono innescate da piccoli dati ([5], [7]). Seppur vantaggiosi rispetto ai Big Data, gli Small Data necessitano di analisi appropriate prima di tutto è necessario rispondere a domande del tipo

Di quale tipo di dati ho bisogno? Di quanti dati ho veramente bisogno? Qual è il meglio che posso ottenere con i dati che ho?

A causa della presenza ubiquitaria dei piccoli dati e di un grande impatto nel mondo delle PMI e dei privati, è fondamentale comprenderlo bene. L’elaborazione di dati di piccole dimensioni dovrebbe, in teoria, essere più veloce, ma nella maggior parte dei casi non sono dati sufficienti per applicare algoritmi di Deep Learning, generando nuovi problemi.

Se consideriamo che la maggior parte dei Small Data è di tipo personale e risiedono in device mobili, allora è necessario considerare in modo ancor più pressante questioni di privacy o risolvere problemi legati alla potenza di calcolo, memoria ed energia limitata dei dispositivi.

BIG, small or Right Data: Which is the proper focus?
BIG, small or Right Data: Which is the proper focus?

Dunque il problema della caratterizzazione dei Small Data passa dalle famose 5V (volume, velocità, varietà, veridicità e valore) tipiche dei Big Data a [11]:

  • Scope – Quanto sono esaustivi i dati relativi al problema in questione?
  • Resolution and Identity: quanto sono fini i dati e quanto è identificabile ciascun elemento?
  • Relational : quanto è facile associare diversi dataset attraverso campi comuni o codifiche che fanno parte dei dati?
  • Flexibility – Quanto è facile estendere i dati (eg. Aggiungendo nuovi campi) e ridimensionare le dimensioni?
  • Privacy – In che modo i dati si riferiscono alle persone?

Una interessante applicazione dei Small Data è quella della e-healt, in particolare la ricercatrice Deborah Estrin [4] definisce gli Small Data come l’immagine della salute personale sostenendo che il comportamento digitale può fornire preziose indicazioni sulla salute personale di una persona.

In particolare in questo contesto, ma anche in altri, gli Small Data si riferiscono a informazioni relative a un individuo, normalmente associati a una persona identificabile e possono includere nome, cognome, indirizzo, numero di telefono, condizioni specifiche di salute o cognitive, ecc.

Questi dati sono privati e quindi come effetto collaterale, ci sono due fatti che rendono l’uso dei dati personali impegnativo per le applicazioni basate sull’apprendimento automatico. In primo luogo, è difficile da raccogliere; i dati personali sono considerati privati o sensibili e la maggior parte delle persone non è disposta a condividerli. In secondo luogo, i dati personali relativi alle condizioni mentali, sanitarie ed educative sono scarsi perché tali condizioni sono rare e spesso “nascoste”, il che significa che non sono identificate prima dei sintomi. Ciò significa che i dati provenienti da alcuni soggetti potrebbero non essere adeguati dati di allenamento di reti neurali per altri soggetti.

Di conseguenza, i dati più adatti per addestrare un algoritmo sono i dati appartenenti allo stesso soggetto, rendendo i dati di destinazione ancora più piccoli.

L’autore conclude esprimendo la necessità di esplorare i limiti e gli usi degli Small Data.

Riferimenti:

Foto Credit: https://slinkachu.com