Поиск…


замечания

В этом разделе представлен обзор того, что такое google-bigquery, и почему разработчик может захотеть его использовать.

В нем также должны быть указаны любые большие темы в google-bigquery и ссылки на связанные темы. Поскольку документация для google-bigquery является новой, вам может потребоваться создать начальные версии этих связанных тем.

Установка или настройка

Подробные инструкции по настройке или установке google-bigquery.

Анализ 50 миллиардов просмотров страниц в Википедии через 5 секунд (учебник для начинающих BigQuery)

Всем привет! Это демонстрация, которую я люблю работать для людей, которые начинают работу с BigQuery. Итак, давайте запустим несколько простых запросов, чтобы вы начали.

Настроить

Вам понадобится проект Google Cloud:

  1. Перейдите на страницу http://bigquery.cloud.google.com/ .
  2. Если он подскажет вам создать проект, перейдите по ссылке, чтобы создать проект и создать проект.
  3. Вернитесь на http://bigquery.cloud.google.com/ .

Заметки:

  • Вам не нужна кредитная карта. Каждый получает бесплатный 1 ТБ для анализа каждый месяц.
  • Плата за BigQuery за запрос. Перед запуском запроса вы сможете увидеть, сколько стоит каждый запрос.

Давайте запросим

  1. Найдите просмотры страниц для мая 2015 года на странице https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505.

Примечание . Google защищает ваши данные с самыми высокими стандартами безопасности (PCI, ISO, HIPAA, SOC и т. Д.), Но также легко обмениваться данными, если вы этого хотите, - как я здесь. https://cloud.google.com/security/

  1. В этой таблице есть 5 столбцов: запрос на получение названия языка на сегодняшний день content_size . Они в основном говорят, что «эта страница википедии на этом языке имела эти многочисленные запросы в этот час».

  2. Эта таблица имеет почти 6 миллиардов строк (379 ГБ данных).

  3. Чтобы узнать, сколько страниц Википедии было в мае, вы можете добавить все 6 миллиардов строк запросов:

     SELECT SUM(requests) 
     FROM [fh-bigquery:wikipedia.pagecounts_201505]
    
  4. Вы заметили, как быстро это было? (1,8 с, 43,1 ГБ обработано для меня)

  5. Давайте сделаем что-то более сложное. Давайте запустим регулярное выражение над этими 6 миллиардами строк. Как быстро это может быть?

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201505] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100     
    
  6. Как быстро это было для вас? Вы нашли Reddit в результатах?

Анализ цен

  1. Этот последний запрос обработан 269 ГБ: более четверти бесплатных ежемесячных терабайт. Зачем?

  2. BigQuery просматривает столбцы, которые вы обрабатываете по вашему запросу. «title» - большой столбец - он содержит текст. Столбец «запросы» составляет всего 43,1 ГБ.

  3. Чтобы сделать ваш бесплатный терабайт последним, извлеките данные на меньшие таблицы. Например, у меня есть таблица с только 65 000 английскими страницами страниц Википедии . Тот же запрос обрабатывает только 1,18 ГБ - вы можете запускать почти 1000 из них бесплатно месяц.

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100 
    
  4. Вы не можете создавать таблицы с бесплатным ежемесячным терабайтом - это только для анализа. Активируйте бесплатные 300 долларов США для новых учетных записей Google Cloud Platform или попросите меня здесь сделать выписку для вас. Я буду рад сделать это.

Загрузка данных в BigQuery

Чтобы загрузить данные в BigQuery, вам нужно активировать биллинг для своего проекта - попробуйте с бесплатными $ 300 для новых учетных записей.

  1. Создайте в своем проекте набор данных, чтобы загрузить данные: https://i.imgur.com/FRClJ3K.jpg .

  2. Найдите необработанные журналы, общие для Википедии, на странице https://dumps.wikimedia.org/other/pagecounts-raw/

  3. wget один из этих файлов на ваш компьютер, например https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz

  4. Установите инструмент «bq». https://cloud.google.com/bigquery/bq-command-line-tool

  5. Загрузите его в BigQuery:

     bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer
    
  6. Подождите пару минут. Пока вы ждете, позвольте мне объяснить эту строку: это не файл CSV, это файл, разделенный пробелом (-F ""), который не использует кавычки (--quote ""), мы выбираем таблицу назначения в наборе данных в вашем проекте (не забудьте сначала создать набор данных), мы выбрали файл для загрузки, и мы определяем 4 столбца, которые этот файл имеет.

  7. Обратите внимание, что BigQuery будет радостно глотать файлы .gz, до определенного размера. Для очень больших файлов лучше сжать их и перенести в Google Cloud Storage. Это то, что я сделал с комментариями reddit, которые скомпилированы / u / Stuck_In_The_Matrix. Эти файлы были большими, но BigQuery проглотил их через 2 минуты или около того.

Учить больше

Готовы к более продвинутым примерам? Узнайте, как запросить Reddit и как запросить все поездки такси в Нью-Йорке .

Следуйте за еще большим!



Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow