google-bigquery Samouczek => Pierwsze kroki z Google-Bigquery

Uwagi

Ta sekcja zawiera przegląd tego, czym jest Google-Bigquery i dlaczego deweloper może chcieć z niej skorzystać.

Powinien także wymieniać wszelkie duże tematy w Google-Bigquery i zawierać linki do powiązanych tematów. Ponieważ Dokumentacja dla google-bigquery jest nowa, może być konieczne utworzenie początkowych wersji tych powiązanych tematów.

Instalacja lub konfiguracja

Szczegółowe instrukcje dotyczące konfigurowania lub instalowania Google-Bigquery.

Analiza 50 miliardów odsłon strony w Wikipedii w 5 sekund (samouczek dla początkujących BigQuery)

Cześć wszystkim! To jest demo, które uwielbiam biegać dla osób, które zaczynają pracę z BigQuery. Warto więc przeprowadzić kilka prostych pytań, aby zacząć grę.

Ustawiać

Potrzebujesz projektu Google Cloud:

Wejdź na http://bigquery.cloud.google.com/ .
Jeśli wyświetli się monit o utworzenie projektu, kliknij link, aby utworzyć projekt i utworzyć projekt.
Wróć na http://bigquery.cloud.google.com/ .

Uwagi:

Nie potrzebujesz karty kredytowej. Każdy dostaje co miesiąc 1 TB do analizy.
Opłaty BigQuery za zapytanie. Przed uruchomieniem zapytania będziesz mógł zobaczyć, ile kosztuje każde zapytanie.

Zapytajmy

Znajdź odsłon strony z maja 2015 r. Na https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Uwaga : Google chroni Twoje dane zgodnie z najwyższymi standardami bezpieczeństwa (PCI, ISO, HIPAA, SOC itp.), Ale możesz również łatwo udostępniać dane, jeśli chcesz - tak jak ja tutaj. https://cloud.google.com/security/

Ta tabela ma 5 kolumn: data język tytuł żądań content_size . Mówią w zasadzie „ta strona wikipedii w tym języku miała tyle żądań o tej godzinie”.
Ta tabela ma prawie 6 miliardów wierszy (379 GB danych).
Aby dowiedzieć się, ile odsłon strony miała Wikipedia w maju, możesz dodać wszystkie 6 miliardów wierszy żądań:
```
 SELECT SUM(requests) 
 FROM [fh-bigquery:wikipedia.pagecounts_201505]
```
Zauważyłeś, jak szybko to było? (Minęło 1,8 s, przetworzono dla mnie 43,1 GB)

Zróbmy coś bardziej złożonego. Przeprowadźmy wyrażenie regularne dla tych 6 miliardów wierszy. Jak szybko to może być?

 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201505] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100

Jak szybko to było dla ciebie? Czy znalazłeś Reddit w wynikach?

Analiza kosztów

To ostatnie zapytanie przetworzyło 269 GB: ponad jedną czwartą bezpłatnego miesięcznego terabajta. Dlaczego?
BigQuery sprawdza kolumny przetwarzane w zapytaniu. „tytuł” to duża kolumna - zawiera tekst. Kolumna „wnioski” ma jedynie 43,1 GB.
Aby twój bezpłatny terabajt trwał, wyodrębnij dane do mniejszych tabel. Na przykład mam tabelę zawierającą tylko 65 000 odsłon strony w angielskiej Wikipedii . To samo zapytanie przetwarza tylko 1,18 GB - możesz uruchomić prawie 1000 z nich za darmo miesięcznie.
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100 
```
Nie możesz tworzyć tabel z bezpłatnym miesięcznym terabajtem - służy wyłącznie do analizy. Aktywuj swoje darmowe 300 USD na nowe konta Google Cloud Platform lub poproś mnie tutaj o wyciąg. Z przyjemnością to zrobię.

Ładowanie danych do BigQuery

Aby załadować dane do BigQuery, musisz aktywować fakturowanie dla swojego projektu - wypróbuj go z darmowymi 300 $ na nowe konta.

Utwórz zestaw danych w swoim projekcie, aby załadować dane do: https://i.imgur.com/FRClJ3K.jpg .
Znajdź surowe dzienniki udostępnione przez Wikipedię na https://dumps.wikimedia.org/other/pagecounts-raw/
wget jeden z tych plików na komputerze, na przykład https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Zainstaluj narzędzie „bq”. https://cloud.google.com/bigquery/bq-command-line-tool

Załaduj to do BigQuery:

 bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer

Poczekaj kilka minut. Podczas oczekiwania pozwól mi wyjaśnić ten wiersz: To nie jest plik CSV, to plik oddzielony spacjami (-F „”), który nie używa cudzysłowów (--quote „”), wybieramy tabelę docelową w zbiorze danych w twoim projekcie (pamiętaj, aby najpierw utworzyć zestaw danych), wybraliśmy plik do załadowania i zdefiniowaliśmy 4 kolumny, które ma ten plik.
Pamiętaj, że BigQuery z przyjemnością pobierze pliki .gz, do pewnego rozmiaru. W przypadku bardzo dużych plików lepiej jest je zdekompresować i umieścić na pierwszym miejscu w Google Cloud Storage. Tak właśnie zrobiłem z komentarzami reddit skompilowanymi przez / u / Stuck_In_The_Matrix. Te pliki były duże, ale BigQuery połknął je w około 2 minuty.

Ucz się więcej

Gotowy na bardziej zaawansowane przykłady? Zobacz, jak przesłać zapytanie do Reddit i jak przesłać zapytanie o wszystkie przejazdy taksówką w Nowym Jorku .

Śledź, aby uzyskać jeszcze więcej!

Subskrybuj / r / bigquery (i zobacz pasek boczny, aby uzyskać więcej linków).
Śledź mnie na https://twitter.com/felipehoffa

Modified text is an extract of the original Stack Overflow Documentation

Licencjonowany na podstawie CC BY-SA 3.0

Nie związany z Stack Overflow

google-bigquery Samouczek
Pierwsze kroki z Google-Bigquery

Szukaj…