google-bigquery Samouczek
Pierwsze kroki z Google-Bigquery
Szukaj…
Uwagi
Ta sekcja zawiera przegląd tego, czym jest Google-Bigquery i dlaczego deweloper może chcieć z niej skorzystać.
Powinien także wymieniać wszelkie duże tematy w Google-Bigquery i zawierać linki do powiązanych tematów. Ponieważ Dokumentacja dla google-bigquery jest nowa, może być konieczne utworzenie początkowych wersji tych powiązanych tematów.
Instalacja lub konfiguracja
Szczegółowe instrukcje dotyczące konfigurowania lub instalowania Google-Bigquery.
Analiza 50 miliardów odsłon strony w Wikipedii w 5 sekund (samouczek dla początkujących BigQuery)
Cześć wszystkim! To jest demo, które uwielbiam biegać dla osób, które zaczynają pracę z BigQuery. Warto więc przeprowadzić kilka prostych pytań, aby zacząć grę.
Ustawiać
Potrzebujesz projektu Google Cloud:
- Wejdź na http://bigquery.cloud.google.com/ .
- Jeśli wyświetli się monit o utworzenie projektu, kliknij link, aby utworzyć projekt i utworzyć projekt.
- Wróć na http://bigquery.cloud.google.com/ .
Uwagi:
- Nie potrzebujesz karty kredytowej. Każdy dostaje co miesiąc 1 TB do analizy.
- Opłaty BigQuery za zapytanie. Przed uruchomieniem zapytania będziesz mógł zobaczyć, ile kosztuje każde zapytanie.
Zapytajmy
- Znajdź odsłon strony z maja 2015 r. Na https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505
Uwaga : Google chroni Twoje dane zgodnie z najwyższymi standardami bezpieczeństwa (PCI, ISO, HIPAA, SOC itp.), Ale możesz również łatwo udostępniać dane, jeśli chcesz - tak jak ja tutaj. https://cloud.google.com/security/
Ta tabela ma 5 kolumn: data język tytuł żądań content_size . Mówią w zasadzie „ta strona wikipedii w tym języku miała tyle żądań o tej godzinie”.
Ta tabela ma prawie 6 miliardów wierszy (379 GB danych).
Aby dowiedzieć się, ile odsłon strony miała Wikipedia w maju, możesz dodać wszystkie 6 miliardów wierszy żądań:
SELECT SUM(requests) FROM [fh-bigquery:wikipedia.pagecounts_201505]Zauważyłeś, jak szybko to było? (Minęło 1,8 s, przetworzono dla mnie 43,1 GB)
Zróbmy coś bardziej złożonego. Przeprowadźmy wyrażenie regularne dla tych 6 miliardów wierszy. Jak szybko to może być?
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201505] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Jak szybko to było dla ciebie? Czy znalazłeś Reddit w wynikach?
Analiza kosztów
To ostatnie zapytanie przetworzyło 269 GB: ponad jedną czwartą bezpłatnego miesięcznego terabajta. Dlaczego?
BigQuery sprawdza kolumny przetwarzane w zapytaniu. „tytuł” to duża kolumna - zawiera tekst. Kolumna „wnioski” ma jedynie 43,1 GB.
Aby twój bezpłatny terabajt trwał, wyodrębnij dane do mniejszych tabel. Na przykład mam tabelę zawierającą tylko 65 000 odsłon strony w angielskiej Wikipedii . To samo zapytanie przetwarza tylko 1,18 GB - możesz uruchomić prawie 1000 z nich za darmo miesięcznie.
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Nie możesz tworzyć tabel z bezpłatnym miesięcznym terabajtem - służy wyłącznie do analizy. Aktywuj swoje darmowe 300 USD na nowe konta Google Cloud Platform lub poproś mnie tutaj o wyciąg. Z przyjemnością to zrobię.
Ładowanie danych do BigQuery
Aby załadować dane do BigQuery, musisz aktywować fakturowanie dla swojego projektu - wypróbuj go z darmowymi 300 $ na nowe konta.
Utwórz zestaw danych w swoim projekcie, aby załadować dane do: https://i.imgur.com/FRClJ3K.jpg .
Znajdź surowe dzienniki udostępnione przez Wikipedię na https://dumps.wikimedia.org/other/pagecounts-raw/
wget jeden z tych plików na komputerze, na przykład https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Zainstaluj narzędzie „bq”. https://cloud.google.com/bigquery/bq-command-line-tool
Załaduj to do BigQuery:
bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integerPoczekaj kilka minut. Podczas oczekiwania pozwól mi wyjaśnić ten wiersz: To nie jest plik CSV, to plik oddzielony spacjami (-F „”), który nie używa cudzysłowów (--quote „”), wybieramy tabelę docelową w zbiorze danych w twoim projekcie (pamiętaj, aby najpierw utworzyć zestaw danych), wybraliśmy plik do załadowania i zdefiniowaliśmy 4 kolumny, które ma ten plik.
Pamiętaj, że BigQuery z przyjemnością pobierze pliki .gz, do pewnego rozmiaru. W przypadku bardzo dużych plików lepiej jest je zdekompresować i umieścić na pierwszym miejscu w Google Cloud Storage. Tak właśnie zrobiłem z komentarzami reddit skompilowanymi przez / u / Stuck_In_The_Matrix. Te pliki były duże, ale BigQuery połknął je w około 2 minuty.
Ucz się więcej
Gotowy na bardziej zaawansowane przykłady? Zobacz, jak przesłać zapytanie do Reddit i jak przesłać zapytanie o wszystkie przejazdy taksówką w Nowym Jorku .
Śledź, aby uzyskać jeszcze więcej!
- Subskrybuj / r / bigquery (i zobacz pasek boczny, aby uzyskać więcej linków).
- Śledź mnie na https://twitter.com/felipehoffa