google-bigquery Handledning => Komma igång med google-bigquery

Anmärkningar

Det här avsnittet ger en översikt över vad google-bigquery är och varför en utvecklare kanske vill använda den.

Det bör också nämna alla stora ämnen inom google-bigquery och länka till relaterade ämnen. Eftersom dokumentationen för google-bigquery är ny kan du behöva skapa initialversioner av relaterade ämnen.

Installation eller installation

Detaljerade instruktioner för att få Google-bigquery inställt eller installerat.

Analysera 50 miljarder Wikipedia sidvisningar på 5 sekunder (BigQuery nybörjarstudie)

Hej allihopa! Detta är en demo som jag älskar att köra för människor som kommer igång med BigQuery. Så låt oss köra några enkla frågor för att komma igång.

Uppstart

Du behöver ett Google Cloud-projekt:

Gå till http://bigquery.cloud.google.com/ .
Om det säger att du ska skapa ett projekt, följ länken för att skapa ett projekt och skapa ett projekt.
Kom tillbaka till http://bigquery.cloud.google.com/ .

Anmärkningar:

Du behöver inte kreditkort. Alla får en gratis 1 TB för analys varje månad.
BigQuery avgifter per fråga. Innan du kör en fråga kan du se hur mycket varje fråga kostar.

Låt oss fråga

Hitta sidvisningar för maj 2015 på https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Obs : Google skyddar dina data med de högsta säkerhetsstandarderna (PCI, ISO, HIPAA, SOC, etc), men det är också lätt att dela data om du vill - som jag gjorde här. https://cloud.google.com/security/

Den här tabellen har 5 kolumner: datumhur språktitel begär innehåll_storlek . De säger i princip "denna wikipedia-sida på det här språket hade så många förfrågningar på denna timme".
Denna tabell har nästan 6 miljarder rader (379 GB data).
För att ta reda på hur många sidvisningar Wikipedia hade under maj kan du lägga till alla 6 miljarder rader med förfrågningar:
```
 SELECT SUM(requests) 
 FROM [fh-bigquery:wikipedia.pagecounts_201505]
```
Visste du hur snabbt det var? (1,8 sekunders förlopp, 43,1 GB behandlades för mig)

Låt oss göra något mer komplicerat. Låt oss köra ett regelbundet uttryck över dessa 6 miljarder rader. Hur snabbt kan det här vara?

 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201505] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100

Hur snabbt var det för dig? Hittade du Reddit i resultaten?

Kostnadsanalys

Denna sista fråga bearbetades 269 GB: Mer än en fjärdedel av den kostnadsfria månatliga terabyten. Varför?
BigQuery tittar på de kolumner du bearbetar i din fråga. 'titel' är en stor kolumn - den innehåller text. Kolumnen "förfrågningar" är endast 43,1 GB.
För att få din gratis terabyte till sist, extrahera data till mindre tabeller. Till exempel har jag en tabell med endast de översta 65 000 engelska Wikipedia-sidorna . Samma fråga bearbetar bara 1,18 GB - du kan köra nästan 1 000 av dem gratis en månad.
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100 
```
Du kan inte skapa tabeller med den kostnadsfria månatliga terabyten - det är bara för analys. Aktivera dina gratis $ 300 för nya Google Cloud Platform-konton eller fråga mig här för att göra ett extrakt åt dig. Jag kommer gärna att göra det.

Laddar data i BigQuery

För att ladda data i BigQuery måste du aktivera fakturering för ditt projekt - prova det med dina gratis $ 300 för nya konton.

Skapa en dataset i ditt projekt för att ladda data till: https://i.imgur.com/FRClJ3K.jpg .
Hitta de råa loggarna som delas av Wikipedia på https://dumps.wikimedia.org/other/pagecounts-raw/
wget en av dessa filer i din dator, som https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Installera "bq" -verktyget. https://cloud.google.com/bigquery/bq-command-line-tool

Ladda den i BigQuery:

 bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer

Vänta ett par minuter. Medan du väntar, låt mig förklara den raden: Det här är inte en CSV-fil, det är en mellanseparerad fil (-F "") som inte använder citat (- citat ""), vi väljer en destinationstabell i ett dataset i ditt projekt (kom ihåg att skapa datasatsen först), vi valde filen att ladda och vi definierar de fyra kolumnerna som denna fil har.
Observera att BigQuery gärna tar in .gz-filer, upp till en viss storlek. För mycket stora filer är det bättre att komprimera dem och lägga dem i Google Cloud Storage först. Det var vad jag gjorde med reddit-kommentarerna som / u / Stuck_In_The_Matrix har sammanställt. Dessa filer var stora, men BigQuery tog in dem på två minuter eller så.

Läs mer

Är du redo för mer avancerade exempel? Se hur du frågar Reddit och hur du frågar alla taxiresor från NYC .

Följ för ännu mer!

Prenumerera på / r / bigquery (och se sidofältet för fler länkar).
Följ mig på https://twitter.com/felipehoffa

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow

google-bigquery Handledning
Komma igång med google-bigquery

Sök…