7 maggio 2012

[BigQuery] Analizzare i dati di GitHub con BigQuery

Iniziano già a comparire i primi siti che sfruttano Google BigQuery, infrastruttura di calcolo per l’analisi di grandi basi di dati (fino a miliardi di record) del quale abbiamo già parlato, e che è ormai da qualche tempo disponibile per chiunque abbia un account Google.


L’iscrizione è gratuita se si trattano dataset non piú grandi di 100GB, dimensione piú che sufficiente per applicazioni non professionali.

BigQuery può essere utilizzata sia come webservice, attraverso una ben documentata API REST, sia da una comoda interfaccia web che utilizza un linguaggio di richiesta strutturato che risulterà molto familiare a chiunque conosca un qualche linguaggio SQL.

Un utilizzo particolarmente interessante di questo servizio è quello che ci viene offerto da GitHub Archive. Come molti di voi sapranno, GitHub è uno dei molti servizi che offrono agli sviluppatori di software Open Source una piattaforma che integra i principali strumenti per mantenere il codice dei loro programmi e per scrivere codice in maniera collaborativa. Tra i vari servizi di questo tipo, GitHub è probabilmente quello piú orientato ad una struttura di social network.

GitHub Archive è un progetto che prende i dati dalla timeline pubblica di GitHub, e li rende scaricabili come stream JSON per permetterne una comoda analisi. I dati di GitHub, che ospita milioni di progetti software, sono un ottimo campione statistico per studiare le tendenze nel campo della programmazione: i linguaggi piú utilizzati, i tipi di programma su cui si lavora di piú, i gruppi di sviluppatori piú attivi, le nazioni che producono piú codice, o tutto quello che può venire in mente.



Fare analisi su questi dati richiederebbe la scrittura di programmi ad hoc, nemmeno banalissimi, per interrogare gli enormi file JSON ottenuti.

GitHub Archive ci viene in aiuto, permettendo l’accesso a quei dati direttamente online, attraverso BigQuery. Con semplici query SQL, e con l’aiuto di una comoda e intuitiva interfaccia web, diventa quindi possibile effettuare rapidamente e con grandissima semplicità analisi anche molto complesse e computazionalmente molto onerose.

Nell’attesa che altri sistemi online interessanti seguano quest’esempio, e in attesa che il web semantico permetta di scrivere sistemi che permettano di interrogare la rete stessa attraverso banali richieste SQL su BigQuery, chi si volesse divertire ad imparare l’utilizzo di questo sistema può semplicemente iscriversi e seguire le istruzioni di GitHub Archive (in inglese).  Se trovate qualcosa di interessante (entro il 21 maggio!) potete partecipare alla GitHub Data Challenge e provare a vincere qualche premio dal GitHub Shop!

Via | Google Developers Blog

Nessun commento:

Posta un commento