In un tempo in cui i dati a nostra disposizione erano pochi, difficili da raccogliere e onerosi da accumulare, consideravamo l’incertezza il peggiore dei mali. Ma la verità è che cifre erronee e bit corrotti hanno sempre infestato i dataset. Quello che fino ad oggi non abbiamo voluto fare era considerarli inevitabili e imparare a convivere con essi. Per noi era semplicemente inaccettabile, perché all’epoca ogni errore, ogni inesattezza, poteva tradursi in una erronea interpretazione o soluzione del problema che stavamo analizzando.

Ebbene, questo cambio di prospettiva è proprio una delle rivoluzioni che si accompagnano al passaggio dagli small data ai big data.

L’incremento dei volumi apre le porte all’inesattezza.

In tante nuove situazioni che stanno emergendo, oggi, accettare l’imprecisione – o per meglio dire la confusione – potrebbe essere un vantaggio, non un limite. Si tratta, come spesso accade, di accettare un compromesso: in cambio dell’attenuazione degli standard per tollerare gli errori marginali, si possono mettere le mani su molti più dati. 

Ma cosa intendiamo esattamente con confusione?

Per confusione potremmo intendere semplicemente il fatto che la probabilità di errori cresce all’aumentare dei data point. Ma la confusione si può accrescere anche combinando vari tipi di informazioni provenienti da fonti diverse, che non sempre sono perfettamente allineate. Oppure ancora, il termine confusione può indicare la incongruità della formattazione, per cui i dati vanno ripuliti prima di essere processati. La confusione, infine, può insorgere anche in fase di estrazione o lavorazione dei dati, perché in questo modo li trasformiamo, convertendoli in qualcos’altro.

L’ossessione per l’esattezza, ha ancora senso?

L’ossessione per l’esattezza è un costrutto dell’era analogica, caratterizzata da una costante carenza di informazioni. Quando i dati scarseggiano, infatti, ogni data point è critico, e si fa di tutto per evitare che un singolo dato inquini l’analisi. Ma abbiamo visto che i big data trasformano le cifre in qualcosa di probabilistico piuttosto che di preciso. 

E infatti non abbiamo più questo problema. Avendo a disposizione dei dataset più completi, che non catturano solo una piccola parte del fenomeno allo studio, ma l’intero fenomeno o gran parte di esso, non dobbiamo più preoccuparci così tanto del fatto che singoli data point possano condizionare l’analisi. 

Nell’epoca degli small data era del tutto razionale privilegiare l’esattezza , perché potendo raccogliere solo un quantitativo limitato di informazioni la loro qualità doveva essere la più alta possibile. In molti casi questo criterio conterà ancora. Ma in tanti altri, una rigorosa accuratezza è meno importante del quadro complessivo o dei progressi compiuti nel tempo. 
La disponibilità a usare il totale delle informazioni anziché segmenti più piccoli (campioni), e la tendenza a preferire l’imprecisione all’esattezza avranno effetti molto significativi sulla nostra interazione con il mondo. 

Cominceremo a vedere il mondo in una prospettiva molto più ampia e molto più esauriente di prima, in una sorta di identità mentale dove N = tutti. E ci abitueremo a tollerare confusione e ambiguità. Ci accontenteremo di tutto questo a condizione di avere in cambio una percezione più completa della realtà.


Lascia un commento

Il tuo indirizzo email non sarà pubblicato.