26 maggio 2011

[Labs] Correlazione di dati reali con ricerche Google

Ieri Google ha annunciato un nuovo straordinario servizio sperimentale: Google Correlate.
L'idea è partita nel 2008 quando Google si è resa conto di una forte correlazione tra alcuni termini e l'effettiva diffusione dell'influenza. In base a questa intuizione è stato lanciato Google Flu Trends, un servizio che permette di tenere sott'occhio i trend influenzali nel mondo.
Da allora sono stati fatti diverse sperimentazioni relative alla correlazione di dati reali con termini di ricerca.
Sino ad oggi mancava un vero e proprio strumento unificato che permettesse di sfruttare i dati aggregati delle ricerche Google per scopi di correlazione con serie storiche relative ad eventi del mondo reale. Sono state applicate tecniche combinate con Google Insights for Search e Google Trends ma questi strumenti non erano stati progettati con lo scopo di inserire serie di dati reali e vedere quali termini di ricerca si correlavano meglio.
Google Correlate rende possibile questo ed altro ancora.


E' possibile per chiunque voglia fare una ricerca di questo tipo effettuare l'upload dei propri dati sui server di Google e vedere quali termini di ricerca si correlano meglio -per popolarità, ovvero volume di ricerche- ad essi.
Nell'immagine sottostante, riportata come esempio da Google, potete vedere come i dati ufficiali dei trend influenzali negli Stati Uniti in diversi anni si correlano con la chiave di ricerca [cold or flu]. La correlazione è impressionante.



Nella pagina di Google Correlate è presente anche un fumetto che spiega in modo molto simpatico e semplice le potenzialità di questo servizio.
In particolare Google si è sforzata di rendere Correlate usabile anche da chi non possiede serie di dati da caricare su server.
Nel classico box di ricerca è possibile inserire la propria chiave di ricerca ed osservare le correlazioni dei termini con quella particolare parola chiave. In breve il funzionamento prevede che il termine di ricerca inserito venga dapprima trasformato in una serie storica di dati relativi alle ricerche per detto termine e successivamente la serie di dati viene utilizzata per la correlazione.
Proviamo insieme un esempio di questo tipo.
Inseriamo la parola chiave Death Star nel box di ricerca e premiamo invio.


A questo punto -boom!- vedremo apparire quasi instantaneamente (la velocità a cui siamo abituati con le ricerche in Google) un grafico che mostra la correlazione temporale tra la nostra chiave di ricerca e altri termini di ricerca immessi in Google Search negli anni passati fino ad oggi.


Nel nostro caso, come potete vedere, Death Star si correla prima di tutto con la chiave di ricerca how to make star, cosa piuttosto preoccupante se pensate a come si creano le stelle :)
Sembra inoltre che la correlazione aumenti sempre più con il passare degli anni.
A questo punto possiamo fare diverse cose come per esempio vedere i dati rappresentati su un grafico a dispersione, possiamo osservare la correlazione di altre parole chiave ed aumentarle premendo show more, possiamo esportare i dati in csv per poi poterli manipolare a nostro piacimento, ed infine possiamo condividere il nostro trend su Twitter, Buzz, Facebook e Google Reader.

Ad oggi è possibile inoltre effettuare due tipi di ricerche e più precisamente confrontare i dati secondo serie storiche o secondo correlazione con i volumi di ricerca in tutti gli stati degli Stati Uniti.
Tornando al nostro caso questo secondo tipo di ricerca da' un risultato più rassicurante perché il termine di ricerca che meglio si correla è millenium falcon. Sotto potete vedere come questo risultato viene mostrato nel grafico degli stati.



Google ha anche pubblicato un whitepaper liberamente scaricabile che spiega in modo più approfondito il funzionamento di Correlate.
Sia nel fumetto che nel whitepaper Google sottolinea comunque che correlazione e causalità sono due cose ben diverse. Correlate può solo mostrare l'esistenza di una correlazione storica tra serie di dati e ricerche, non spiegarne la relazione.
Segnaliamo in ultimo che la portata per il mondo della ricerca di Google Correlate è così importante che questo strumento è stato oggetto di un articolo pubblicato da Google sulla rivista scientifica Nature.

Attualmente Correlate non sembra essere disponibile per termini di ricerca in italiano. Speriamo comunque che anche la nostra lingua venga presto supportata e che, in generale, le potenzialità di questo strumento possano essere espanse attraverso altre opzioni come ad esempio la possibilità di studiare altre dimensioni statistiche.

Nessun commento:

Posta un commento