Szukaj…


Uwagi

Ta sekcja zawiera przegląd tego, czym jest Google-Bigquery i dlaczego deweloper może chcieć z niej skorzystać.

Powinien także wymieniać wszelkie duże tematy w Google-Bigquery i zawierać linki do powiązanych tematów. Ponieważ Dokumentacja dla google-bigquery jest nowa, może być konieczne utworzenie początkowych wersji tych powiązanych tematów.

Instalacja lub konfiguracja

Szczegółowe instrukcje dotyczące konfigurowania lub instalowania Google-Bigquery.

Analiza 50 miliardów odsłon strony w Wikipedii w 5 sekund (samouczek dla początkujących BigQuery)

Cześć wszystkim! To jest demo, które uwielbiam biegać dla osób, które zaczynają pracę z BigQuery. Warto więc przeprowadzić kilka prostych pytań, aby zacząć grę.

Ustawiać

Potrzebujesz projektu Google Cloud:

  1. Wejdź na http://bigquery.cloud.google.com/ .
  2. Jeśli wyświetli się monit o utworzenie projektu, kliknij link, aby utworzyć projekt i utworzyć projekt.
  3. Wróć na http://bigquery.cloud.google.com/ .

Uwagi:

  • Nie potrzebujesz karty kredytowej. Każdy dostaje co miesiąc 1 TB do analizy.
  • Opłaty BigQuery za zapytanie. Przed uruchomieniem zapytania będziesz mógł zobaczyć, ile kosztuje każde zapytanie.

Zapytajmy

  1. Znajdź odsłon strony z maja 2015 r. Na https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Uwaga : Google chroni Twoje dane zgodnie z najwyższymi standardami bezpieczeństwa (PCI, ISO, HIPAA, SOC itp.), Ale możesz również łatwo udostępniać dane, jeśli chcesz - tak jak ja tutaj. https://cloud.google.com/security/

  1. Ta tabela ma 5 kolumn: data język tytuł żądań content_size . Mówią w zasadzie „ta strona wikipedii w tym języku miała tyle żądań o tej godzinie”.

  2. Ta tabela ma prawie 6 miliardów wierszy (379 GB danych).

  3. Aby dowiedzieć się, ile odsłon strony miała Wikipedia w maju, możesz dodać wszystkie 6 miliardów wierszy żądań:

     SELECT SUM(requests) 
     FROM [fh-bigquery:wikipedia.pagecounts_201505]
    
  4. Zauważyłeś, jak szybko to było? (Minęło 1,8 s, przetworzono dla mnie 43,1 GB)

  5. Zróbmy coś bardziej złożonego. Przeprowadźmy wyrażenie regularne dla tych 6 miliardów wierszy. Jak szybko to może być?

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201505] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100     
    
  6. Jak szybko to było dla ciebie? Czy znalazłeś Reddit w wynikach?

Analiza kosztów

  1. To ostatnie zapytanie przetworzyło 269 GB: ponad jedną czwartą bezpłatnego miesięcznego terabajta. Dlaczego?

  2. BigQuery sprawdza kolumny przetwarzane w zapytaniu. „tytuł” to duża kolumna - zawiera tekst. Kolumna „wnioski” ma jedynie 43,1 GB.

  3. Aby twój bezpłatny terabajt trwał, wyodrębnij dane do mniejszych tabel. Na przykład mam tabelę zawierającą tylko 65 000 odsłon strony w angielskiej Wikipedii . To samo zapytanie przetwarza tylko 1,18 GB - możesz uruchomić prawie 1000 z nich za darmo miesięcznie.

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100 
    
  4. Nie możesz tworzyć tabel z bezpłatnym miesięcznym terabajtem - służy wyłącznie do analizy. Aktywuj swoje darmowe 300 USD na nowe konta Google Cloud Platform lub poproś mnie tutaj o wyciąg. Z przyjemnością to zrobię.

Ładowanie danych do BigQuery

Aby załadować dane do BigQuery, musisz aktywować fakturowanie dla swojego projektu - wypróbuj go z darmowymi 300 $ na nowe konta.

  1. Utwórz zestaw danych w swoim projekcie, aby załadować dane do: https://i.imgur.com/FRClJ3K.jpg .

  2. Znajdź surowe dzienniki udostępnione przez Wikipedię na https://dumps.wikimedia.org/other/pagecounts-raw/

  3. wget jeden z tych plików na komputerze, na przykład https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz

  4. Zainstaluj narzędzie „bq”. https://cloud.google.com/bigquery/bq-command-line-tool

  5. Załaduj to do BigQuery:

     bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer
    
  6. Poczekaj kilka minut. Podczas oczekiwania pozwól mi wyjaśnić ten wiersz: To nie jest plik CSV, to plik oddzielony spacjami (-F „”), który nie używa cudzysłowów (--quote „”), wybieramy tabelę docelową w zbiorze danych w twoim projekcie (pamiętaj, aby najpierw utworzyć zestaw danych), wybraliśmy plik do załadowania i zdefiniowaliśmy 4 kolumny, które ma ten plik.

  7. Pamiętaj, że BigQuery z przyjemnością pobierze pliki .gz, do pewnego rozmiaru. W przypadku bardzo dużych plików lepiej jest je zdekompresować i umieścić na pierwszym miejscu w Google Cloud Storage. Tak właśnie zrobiłem z komentarzami reddit skompilowanymi przez / u / Stuck_In_The_Matrix. Te pliki były duże, ale BigQuery połknął je w około 2 minuty.

Ucz się więcej

Gotowy na bardziej zaawansowane przykłady? Zobacz, jak przesłać zapytanie do Reddit i jak przesłać zapytanie o wszystkie przejazdy taksówką w Nowym Jorku .

Śledź, aby uzyskać jeszcze więcej!



Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow