google-bigquery учебник
Начало работы с google-bigquery
Поиск…
замечания
В этом разделе представлен обзор того, что такое google-bigquery, и почему разработчик может захотеть его использовать.
В нем также должны быть указаны любые большие темы в google-bigquery и ссылки на связанные темы. Поскольку документация для google-bigquery является новой, вам может потребоваться создать начальные версии этих связанных тем.
Установка или настройка
Подробные инструкции по настройке или установке google-bigquery.
Анализ 50 миллиардов просмотров страниц в Википедии через 5 секунд (учебник для начинающих BigQuery)
Всем привет! Это демонстрация, которую я люблю работать для людей, которые начинают работу с BigQuery. Итак, давайте запустим несколько простых запросов, чтобы вы начали.
Настроить
Вам понадобится проект Google Cloud:
- Перейдите на страницу http://bigquery.cloud.google.com/ .
- Если он подскажет вам создать проект, перейдите по ссылке, чтобы создать проект и создать проект.
- Вернитесь на http://bigquery.cloud.google.com/ .
Заметки:
- Вам не нужна кредитная карта. Каждый получает бесплатный 1 ТБ для анализа каждый месяц.
- Плата за BigQuery за запрос. Перед запуском запроса вы сможете увидеть, сколько стоит каждый запрос.
Давайте запросим
- Найдите просмотры страниц для мая 2015 года на странице https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505.
Примечание . Google защищает ваши данные с самыми высокими стандартами безопасности (PCI, ISO, HIPAA, SOC и т. Д.), Но также легко обмениваться данными, если вы этого хотите, - как я здесь. https://cloud.google.com/security/
В этой таблице есть 5 столбцов: запрос на получение названия языка на сегодняшний день content_size . Они в основном говорят, что «эта страница википедии на этом языке имела эти многочисленные запросы в этот час».
Эта таблица имеет почти 6 миллиардов строк (379 ГБ данных).
Чтобы узнать, сколько страниц Википедии было в мае, вы можете добавить все 6 миллиардов строк запросов:
SELECT SUM(requests) FROM [fh-bigquery:wikipedia.pagecounts_201505]Вы заметили, как быстро это было? (1,8 с, 43,1 ГБ обработано для меня)
Давайте сделаем что-то более сложное. Давайте запустим регулярное выражение над этими 6 миллиардами строк. Как быстро это может быть?
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201505] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Как быстро это было для вас? Вы нашли Reddit в результатах?
Анализ цен
Этот последний запрос обработан 269 ГБ: более четверти бесплатных ежемесячных терабайт. Зачем?
BigQuery просматривает столбцы, которые вы обрабатываете по вашему запросу. «title» - большой столбец - он содержит текст. Столбец «запросы» составляет всего 43,1 ГБ.
Чтобы сделать ваш бесплатный терабайт последним, извлеките данные на меньшие таблицы. Например, у меня есть таблица с только 65 000 английскими страницами страниц Википедии . Тот же запрос обрабатывает только 1,18 ГБ - вы можете запускать почти 1000 из них бесплатно месяц.
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Вы не можете создавать таблицы с бесплатным ежемесячным терабайтом - это только для анализа. Активируйте бесплатные 300 долларов США для новых учетных записей Google Cloud Platform или попросите меня здесь сделать выписку для вас. Я буду рад сделать это.
Загрузка данных в BigQuery
Чтобы загрузить данные в BigQuery, вам нужно активировать биллинг для своего проекта - попробуйте с бесплатными $ 300 для новых учетных записей.
Создайте в своем проекте набор данных, чтобы загрузить данные: https://i.imgur.com/FRClJ3K.jpg .
Найдите необработанные журналы, общие для Википедии, на странице https://dumps.wikimedia.org/other/pagecounts-raw/
wget один из этих файлов на ваш компьютер, например https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Установите инструмент «bq». https://cloud.google.com/bigquery/bq-command-line-tool
Загрузите его в BigQuery:
bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integerПодождите пару минут. Пока вы ждете, позвольте мне объяснить эту строку: это не файл CSV, это файл, разделенный пробелом (-F ""), который не использует кавычки (--quote ""), мы выбираем таблицу назначения в наборе данных в вашем проекте (не забудьте сначала создать набор данных), мы выбрали файл для загрузки, и мы определяем 4 столбца, которые этот файл имеет.
Обратите внимание, что BigQuery будет радостно глотать файлы .gz, до определенного размера. Для очень больших файлов лучше сжать их и перенести в Google Cloud Storage. Это то, что я сделал с комментариями reddit, которые скомпилированы / u / Stuck_In_The_Matrix. Эти файлы были большими, но BigQuery проглотил их через 2 минуты или около того.
Учить больше
Готовы к более продвинутым примерам? Узнайте, как запросить Reddit и как запросить все поездки такси в Нью-Йорке .
Следуйте за еще большим!
- Подпишитесь на / r / bigquery (и см. Боковую панель для получения дополнительных ссылок).
- Следуйте за мной по адресу https://twitter.com/felipehoffa