google-bigquery Tutorial
Inizia con google-bigquery
Ricerca…
Osservazioni
Questa sezione fornisce una panoramica di cosa sia google-bigquery e perché uno sviluppatore potrebbe volerlo utilizzare.
Dovrebbe anche menzionare qualsiasi argomento di grandi dimensioni all'interno di google-bigquery e collegarsi agli argomenti correlati. Poiché la documentazione di google-bigquery è nuova, potrebbe essere necessario creare versioni iniziali di tali argomenti correlati.
Installazione o configurazione
Istruzioni dettagliate su come installare o installare google-bigquery.
Analizzando 50 miliardi di visualizzazioni di pagina in Wikipedia in 5 secondi (tutorial per principianti su BigQuery)
Ciao a tutti! Questa è una demo che amo correre per le persone che iniziano con BigQuery. Così corriamo alcune semplici domande per iniziare.
Impostare
Avrai bisogno di un progetto Google Cloud:
- Vai a http://bigquery.cloud.google.com/ .
- Se ti dice di creare un progetto, segui il link per creare un progetto e crea un progetto.
- Torna su http://bigquery.cloud.google.com/ .
Gli appunti:
- Non hai bisogno di una carta di credito. Ognuno riceve 1 TB gratuito per l'analisi ogni mese.
- Tariffe BigQuery per query. Prima di eseguire una query sarai in grado di vedere quanto costa ogni query.
Cerchiamo
- Trova le visualizzazioni di pagina per maggio 2015 all'indirizzo https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505
Nota : Google protegge i tuoi dati con i più elevati standard di sicurezza (PCI, ISO, HIPAA, SOC, ecc.), Ma è anche facile condividere i dati se lo desideri, come ho fatto qui. https://cloud.google.com/security/
Questa tabella ha 5 colonne: datehour richieste di titoli linguistici content_size . Fondamentalmente dicono "questa pagina di wikipedia in questa lingua ha avuto molte richieste a quest'ora".
Questa tabella ha quasi 6 miliardi di righe (379 GB di dati).
Per scoprire quante visualizzazioni di pagina hanno avuto Wikipedia nel mese di maggio, puoi sommare tutte le 6 miliardi di righe di richieste:
SELECT SUM(requests) FROM [fh-bigquery:wikipedia.pagecounts_201505]Hai notato quanto è stato veloce? (Passati 1,8 secondi, 43,1 GB elaborati per me)
Facciamo qualcosa di più complesso. Eseguiamo un'espressione regolare su questi 6 miliardi di righe. Quanto potrebbe essere veloce?
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201505] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Quanto è stato veloce per te? Hai trovato Reddit nei risultati?
Analisi dei costi
Quest'ultima query ha elaborato 269 GB: più di un quarto del terabyte mensile gratuito. Perché?
BigQuery esamina le colonne che elaborate sulla vostra query. 'title' è una grande colonna - contiene testo. La colonna "richieste" è solo 43,1 GB.
Per far durare il terabyte gratuito, estrai i dati in tabelle più piccole. Ad esempio, ho una tabella con solo le prime 65.000 pagine di pagine di Wikipedia in inglese . La stessa query elabora solo 1,18 GB: è possibile eseguire quasi un migliaio di questi gratuitamente per un mese.
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Non è possibile creare tabelle con il terabyte mensile gratuito: è solo per analisi. Attiva i $ 300 gratuiti per i nuovi account Google Cloud Platform o chiedi a me di fare un estratto per te. Sarò felice di farlo.
Caricamento dei dati in BigQuery
Per caricare i dati in BigQuery, dovrai attivare la fatturazione per il tuo progetto: provalo con $ 300 gratuiti per i nuovi account.
Creare un set di dati nel progetto per caricare i dati su: https://i.imgur.com/FRClJ3K.jpg .
Trova i log non elaborati condivisi da Wikipedia su https://dumps.wikimedia.org/other/pagecounts-raw/
wget uno di questi file nel tuo computer, come https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Installa lo strumento 'bq'. https://cloud.google.com/bigquery/bq-command-line-tool
Caricalo in BigQuery:
bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integerAspetta un paio di minuti. Mentre aspetti, lascia che ti spieghi questa riga: Questo non è un file CSV, è un file separato da spazi (-F "") che non usa virgolette (--quote ""), scegliamo una tabella di destinazione in un set di dati nel tuo progetto (ricordati di creare prima il set di dati), abbiamo scelto il file da caricare e definiamo le 4 colonne di questo file.
Nota che BigQuery ingerisce felicemente file .gz, fino a una certa dimensione. Per i file di grandi dimensioni è meglio decomprimerli e inserirli prima in Google Cloud Storage. Questo è quello che ho fatto con i commenti di reddit che / u / Stuck_In_The_Matrix hanno compilato. Quei file erano grandi, ma BigQuery li ha ingeriti in 2 minuti circa.
Per saperne di più
Pronto per esempi più avanzati? Vedi come interrogare Reddit e come interrogare tutti i viaggi in taxi di New York .
Segui ancora di più!
- Iscriviti a / r / bigquery (e vedi la barra laterale per altri link).
- Seguimi su https://twitter.com/felipehoffa