google-bigquery Tutorial => Inizia con google-bigquery

Osservazioni

Questa sezione fornisce una panoramica di cosa sia google-bigquery e perché uno sviluppatore potrebbe volerlo utilizzare.

Dovrebbe anche menzionare qualsiasi argomento di grandi dimensioni all'interno di google-bigquery e collegarsi agli argomenti correlati. Poiché la documentazione di google-bigquery è nuova, potrebbe essere necessario creare versioni iniziali di tali argomenti correlati.

Installazione o configurazione

Istruzioni dettagliate su come installare o installare google-bigquery.

Analizzando 50 miliardi di visualizzazioni di pagina in Wikipedia in 5 secondi (tutorial per principianti su BigQuery)

Ciao a tutti! Questa è una demo che amo correre per le persone che iniziano con BigQuery. Così corriamo alcune semplici domande per iniziare.

Impostare

Avrai bisogno di un progetto Google Cloud:

Vai a http://bigquery.cloud.google.com/ .
Se ti dice di creare un progetto, segui il link per creare un progetto e crea un progetto.
Torna su http://bigquery.cloud.google.com/ .

Gli appunti:

Non hai bisogno di una carta di credito. Ognuno riceve 1 TB gratuito per l'analisi ogni mese.
Tariffe BigQuery per query. Prima di eseguire una query sarai in grado di vedere quanto costa ogni query.

Cerchiamo

Trova le visualizzazioni di pagina per maggio 2015 all'indirizzo https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Nota : Google protegge i tuoi dati con i più elevati standard di sicurezza (PCI, ISO, HIPAA, SOC, ecc.), Ma è anche facile condividere i dati se lo desideri, come ho fatto qui. https://cloud.google.com/security/

Questa tabella ha 5 colonne: datehour richieste di titoli linguistici content_size . Fondamentalmente dicono "questa pagina di wikipedia in questa lingua ha avuto molte richieste a quest'ora".
Questa tabella ha quasi 6 miliardi di righe (379 GB di dati).
Per scoprire quante visualizzazioni di pagina hanno avuto Wikipedia nel mese di maggio, puoi sommare tutte le 6 miliardi di righe di richieste:
```
 SELECT SUM(requests) 
 FROM [fh-bigquery:wikipedia.pagecounts_201505]
```
Hai notato quanto è stato veloce? (Passati 1,8 secondi, 43,1 GB elaborati per me)

Facciamo qualcosa di più complesso. Eseguiamo un'espressione regolare su questi 6 miliardi di righe. Quanto potrebbe essere veloce?

 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201505] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100

Quanto è stato veloce per te? Hai trovato Reddit nei risultati?

Analisi dei costi

Quest'ultima query ha elaborato 269 GB: più di un quarto del terabyte mensile gratuito. Perché?
BigQuery esamina le colonne che elaborate sulla vostra query. 'title' è una grande colonna - contiene testo. La colonna "richieste" è solo 43,1 GB.
Per far durare il terabyte gratuito, estrai i dati in tabelle più piccole. Ad esempio, ho una tabella con solo le prime 65.000 pagine di pagine di Wikipedia in inglese . La stessa query elabora solo 1,18 GB: è possibile eseguire quasi un migliaio di questi gratuitamente per un mese.
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100 
```
Non è possibile creare tabelle con il terabyte mensile gratuito: è solo per analisi. Attiva i $ 300 gratuiti per i nuovi account Google Cloud Platform o chiedi a me di fare un estratto per te. Sarò felice di farlo.

Caricamento dei dati in BigQuery

Per caricare i dati in BigQuery, dovrai attivare la fatturazione per il tuo progetto: provalo con $ 300 gratuiti per i nuovi account.

Creare un set di dati nel progetto per caricare i dati su: https://i.imgur.com/FRClJ3K.jpg .
Trova i log non elaborati condivisi da Wikipedia su https://dumps.wikimedia.org/other/pagecounts-raw/
wget uno di questi file nel tuo computer, come https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Installa lo strumento 'bq'. https://cloud.google.com/bigquery/bq-command-line-tool

Caricalo in BigQuery:

 bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer

Aspetta un paio di minuti. Mentre aspetti, lascia che ti spieghi questa riga: Questo non è un file CSV, è un file separato da spazi (-F "") che non usa virgolette (--quote ""), scegliamo una tabella di destinazione in un set di dati nel tuo progetto (ricordati di creare prima il set di dati), abbiamo scelto il file da caricare e definiamo le 4 colonne di questo file.
Nota che BigQuery ingerisce felicemente file .gz, fino a una certa dimensione. Per i file di grandi dimensioni è meglio decomprimerli e inserirli prima in Google Cloud Storage. Questo è quello che ho fatto con i commenti di reddit che / u / Stuck_In_The_Matrix hanno compilato. Quei file erano grandi, ma BigQuery li ha ingeriti in 2 minuti circa.

Per saperne di più

Pronto per esempi più avanzati? Vedi come interrogare Reddit e come interrogare tutti i viaggi in taxi di New York .

Segui ancora di più!

Iscriviti a / r / bigquery (e vedi la barra laterale per altri link).
Seguimi su https://twitter.com/felipehoffa

Modified text is an extract of the original Stack Overflow Documentation

Autorizzato sotto CC BY-SA 3.0

Non affiliato con Stack Overflow

google-bigquery Tutorial
Inizia con google-bigquery

Ricerca…