Sök…


Anmärkningar

Det här avsnittet ger en översikt över vad google-bigquery är och varför en utvecklare kanske vill använda den.

Det bör också nämna alla stora ämnen inom google-bigquery och länka till relaterade ämnen. Eftersom dokumentationen för google-bigquery är ny kan du behöva skapa initialversioner av relaterade ämnen.

Installation eller installation

Detaljerade instruktioner för att få Google-bigquery inställt eller installerat.

Analysera 50 miljarder Wikipedia sidvisningar på 5 sekunder (BigQuery nybörjarstudie)

Hej allihopa! Detta är en demo som jag älskar att köra för människor som kommer igång med BigQuery. Så låt oss köra några enkla frågor för att komma igång.

Uppstart

Du behöver ett Google Cloud-projekt:

  1. Gå till http://bigquery.cloud.google.com/ .
  2. Om det säger att du ska skapa ett projekt, följ länken för att skapa ett projekt och skapa ett projekt.
  3. Kom tillbaka till http://bigquery.cloud.google.com/ .

Anmärkningar:

  • Du behöver inte kreditkort. Alla får en gratis 1 TB för analys varje månad.
  • BigQuery avgifter per fråga. Innan du kör en fråga kan du se hur mycket varje fråga kostar.

Låt oss fråga

  1. Hitta sidvisningar för maj 2015 på https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Obs : Google skyddar dina data med de högsta säkerhetsstandarderna (PCI, ISO, HIPAA, SOC, etc), men det är också lätt att dela data om du vill - som jag gjorde här. https://cloud.google.com/security/

  1. Den här tabellen har 5 kolumner: datumhur språktitel begär innehåll_storlek . De säger i princip "denna wikipedia-sida på det här språket hade så många förfrågningar på denna timme".

  2. Denna tabell har nästan 6 miljarder rader (379 GB data).

  3. För att ta reda på hur många sidvisningar Wikipedia hade under maj kan du lägga till alla 6 miljarder rader med förfrågningar:

     SELECT SUM(requests) 
     FROM [fh-bigquery:wikipedia.pagecounts_201505]
    
  4. Visste du hur snabbt det var? (1,8 sekunders förlopp, 43,1 GB behandlades för mig)

  5. Låt oss göra något mer komplicerat. Låt oss köra ett regelbundet uttryck över dessa 6 miljarder rader. Hur snabbt kan det här vara?

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201505] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100     
    
  6. Hur snabbt var det för dig? Hittade du Reddit i resultaten?

Kostnadsanalys

  1. Denna sista fråga bearbetades 269 GB: Mer än en fjärdedel av den kostnadsfria månatliga terabyten. Varför?

  2. BigQuery tittar på de kolumner du bearbetar i din fråga. 'titel' är en stor kolumn - den innehåller text. Kolumnen "förfrågningar" är endast 43,1 GB.

  3. För att få din gratis terabyte till sist, extrahera data till mindre tabeller. Till exempel har jag en tabell med endast de översta 65 000 engelska Wikipedia-sidorna . Samma fråga bearbetar bara 1,18 GB - du kan köra nästan 1 000 av dem gratis en månad.

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100 
    
  4. Du kan inte skapa tabeller med den kostnadsfria månatliga terabyten - det är bara för analys. Aktivera dina gratis $ 300 för nya Google Cloud Platform-konton eller fråga mig här för att göra ett extrakt åt dig. Jag kommer gärna att göra det.

Laddar data i BigQuery

För att ladda data i BigQuery måste du aktivera fakturering för ditt projekt - prova det med dina gratis $ 300 för nya konton.

  1. Skapa en dataset i ditt projekt för att ladda data till: https://i.imgur.com/FRClJ3K.jpg .

  2. Hitta de råa loggarna som delas av Wikipedia på https://dumps.wikimedia.org/other/pagecounts-raw/

  3. wget en av dessa filer i din dator, som https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz

  4. Installera "bq" -verktyget. https://cloud.google.com/bigquery/bq-command-line-tool

  5. Ladda den i BigQuery:

     bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer
    
  6. Vänta ett par minuter. Medan du väntar, låt mig förklara den raden: Det här är inte en CSV-fil, det är en mellanseparerad fil (-F "") som inte använder citat (- citat ""), vi väljer en destinationstabell i ett dataset i ditt projekt (kom ihåg att skapa datasatsen först), vi valde filen att ladda och vi definierar de fyra kolumnerna som denna fil har.

  7. Observera att BigQuery gärna tar in .gz-filer, upp till en viss storlek. För mycket stora filer är det bättre att komprimera dem och lägga dem i Google Cloud Storage först. Det var vad jag gjorde med reddit-kommentarerna som / u / Stuck_In_The_Matrix har sammanställt. Dessa filer var stora, men BigQuery tog in dem på två minuter eller så.

Läs mer

Är du redo för mer avancerade exempel? Se hur du frågar Reddit och hur du frågar alla taxiresor från NYC .

Följ för ännu mer!



Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow