google-bigquery учебник
Начало работы с google-bigquery

firebase Java Language JavaScript MySQL Node.js PHP Python Language R Language Regular Expressions SQL

замечания

В этом разделе представлен обзор того, что такое google-bigquery, и почему разработчик может захотеть его использовать.

В нем также должны быть указаны любые большие темы в google-bigquery и ссылки на связанные темы. Поскольку документация для google-bigquery является новой, вам может потребоваться создать начальные версии этих связанных тем.

Установка или настройка

Подробные инструкции по настройке или установке google-bigquery.

Анализ 50 миллиардов просмотров страниц в Википедии через 5 секунд (учебник для начинающих BigQuery)

Всем привет! Это демонстрация, которую я люблю работать для людей, которые начинают работу с BigQuery. Итак, давайте запустим несколько простых запросов, чтобы вы начали.

Настроить

Вам понадобится проект Google Cloud:

Перейдите на страницу http://bigquery.cloud.google.com/ .
Если он подскажет вам создать проект, перейдите по ссылке, чтобы создать проект и создать проект.
Вернитесь на http://bigquery.cloud.google.com/ .

Заметки:

Вам не нужна кредитная карта. Каждый получает бесплатный 1 ТБ для анализа каждый месяц.
Плата за BigQuery за запрос. Перед запуском запроса вы сможете увидеть, сколько стоит каждый запрос.

Давайте запросим

Найдите просмотры страниц для мая 2015 года на странице https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505.

Примечание . Google защищает ваши данные с самыми высокими стандартами безопасности (PCI, ISO, HIPAA, SOC и т. Д.), Но также легко обмениваться данными, если вы этого хотите, - как я здесь. https://cloud.google.com/security/

В этой таблице есть 5 столбцов: запрос на получение названия языка на сегодняшний день content_size . Они в основном говорят, что «эта страница википедии на этом языке имела эти многочисленные запросы в этот час».
Эта таблица имеет почти 6 миллиардов строк (379 ГБ данных).
Чтобы узнать, сколько страниц Википедии было в мае, вы можете добавить все 6 миллиардов строк запросов:
```
 SELECT SUM(requests) 
 FROM [fh-bigquery:wikipedia.pagecounts_201505]
```
Вы заметили, как быстро это было? (1,8 с, 43,1 ГБ обработано для меня)
Давайте сделаем что-то более сложное. Давайте запустим регулярное выражение над этими 6 миллиардами строк. Как быстро это может быть?
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201505] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100     
```
Как быстро это было для вас? Вы нашли Reddit в результатах?

Анализ цен

Этот последний запрос обработан 269 ГБ: более четверти бесплатных ежемесячных терабайт. Зачем?
BigQuery просматривает столбцы, которые вы обрабатываете по вашему запросу. «title» - большой столбец - он содержит текст. Столбец «запросы» составляет всего 43,1 ГБ.
Чтобы сделать ваш бесплатный терабайт последним, извлеките данные на меньшие таблицы. Например, у меня есть таблица с только 65 000 английскими страницами страниц Википедии . Тот же запрос обрабатывает только 1,18 ГБ - вы можете запускать почти 1000 из них бесплатно месяц.
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100 
```
Вы не можете создавать таблицы с бесплатным ежемесячным терабайтом - это только для анализа. Активируйте бесплатные 300 долларов США для новых учетных записей Google Cloud Platform или попросите меня здесь сделать выписку для вас. Я буду рад сделать это.

Загрузка данных в BigQuery

Чтобы загрузить данные в BigQuery, вам нужно активировать биллинг для своего проекта - попробуйте с бесплатными $ 300 для новых учетных записей.

Создайте в своем проекте набор данных, чтобы загрузить данные: https://i.imgur.com/FRClJ3K.jpg .
Найдите необработанные журналы, общие для Википедии, на странице https://dumps.wikimedia.org/other/pagecounts-raw/
wget один из этих файлов на ваш компьютер, например https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Установите инструмент «bq». https://cloud.google.com/bigquery/bq-command-line-tool

Загрузите его в BigQuery:

 bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer

Подождите пару минут. Пока вы ждете, позвольте мне объяснить эту строку: это не файл CSV, это файл, разделенный пробелом (-F ""), который не использует кавычки (--quote ""), мы выбираем таблицу назначения в наборе данных в вашем проекте (не забудьте сначала создать набор данных), мы выбрали файл для загрузки, и мы определяем 4 столбца, которые этот файл имеет.
Обратите внимание, что BigQuery будет радостно глотать файлы .gz, до определенного размера. Для очень больших файлов лучше сжать их и перенести в Google Cloud Storage. Это то, что я сделал с комментариями reddit, которые скомпилированы / u / Stuck_In_The_Matrix. Эти файлы были большими, но BigQuery проглотил их через 2 минуты или около того.

Учить больше

Готовы к более продвинутым примерам? Узнайте, как запросить Reddit и как запросить все поездки такси в Нью-Йорке .

Следуйте за еще большим!

Подпишитесь на / r / bigquery (и см. Боковую панель для получения дополнительных ссылок).
Следуйте за мной по адресу https://twitter.com/felipehoffa

Modified text is an extract of the original Stack Overflow Documentation

Лицензировано согласно CC BY-SA 3.0

Не связан с Stack Overflow