google-bigquery Tutorial
Empezando con google-bigquery
Buscar..
Observaciones
Esta sección proporciona una descripción general de qué es google-bigquery y por qué un desarrollador puede querer usarlo.
También debe mencionar cualquier tema importante dentro de google-bigquery, y vincular a los temas relacionados. Dado que la Documentación para google-bigquery es nueva, es posible que deba crear versiones iniciales de esos temas relacionados.
Instalación o configuración
Instrucciones detalladas para configurar o instalar google-bigquery.
Analizando 50 mil millones de páginas vistas de Wikipedia en 5 segundos (tutorial para principiantes de BigQuery)
¡Hola a todos! Esta es una demostración que me encanta ejecutar para personas que comienzan con BigQuery. Así que vamos a ejecutar algunas consultas simples para ayudarle a empezar.
Preparar
Necesitará un proyecto de Google Cloud:
- Vaya a http://bigquery.cloud.google.com/ .
- Si le dice que cree un proyecto, siga el enlace para crear un proyecto y cree un proyecto.
- Vuelve a http://bigquery.cloud.google.com/ .
Notas:
- No necesitas una tarjeta de crédito. Todos obtienen un 1TB gratis para el análisis cada mes.
- BigQuery cobra por consulta. Antes de ejecutar una consulta, podrá ver cuánto cuesta cada consulta.
Vamos a consultar
- Encuentre las páginas vistas para mayo de 2015 en https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505
Nota : Google protege sus datos con los más altos estándares de seguridad (PCI, ISO, HIPAA, SOC, etc.), pero también es fácil compartir datos si así lo desea, como lo hice aquí. https://cloud.google.com/security/
Esta tabla tiene 5 columnas: el título de la fecha y hora solicita el contenido de tamaño . Básicamente dicen "esta página de wikipedia en este idioma tenía tantas solicitudes a esta hora".
Esta tabla tiene casi 6 mil millones de filas (379 GB de datos).
Para saber cuántas páginas vistas tuvo Wikipedia durante mayo, puede sumar todas las 6 mil millones de líneas de solicitudes:
SELECT SUM(requests) FROM [fh-bigquery:wikipedia.pagecounts_201505]¿Te diste cuenta de lo rápido que era eso? (1.8s transcurridos, 43.1 GB procesados para mí)
Hagamos algo más complejo. Ejecutemos una expresión regular sobre estos 6 mil millones de filas. ¿Qué tan rápido podría ser esto?
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201505] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100¿Qué tan rápido fue para ti? ¿Encontraste Reddit en los resultados?
Análisis de costos
Esta última consulta procesó 269 GB: más de un cuarto del terabyte mensual gratuito. ¿Por qué?
BigQuery analiza las columnas que procesa en su consulta. 'título' es una gran columna que contiene texto. La columna de 'solicitudes' solo tiene 43.1 GB.
Para que su terabyte libre dure, extraiga los datos en tablas más pequeñas. Por ejemplo, tengo una tabla con solo las 65,000 páginas de páginas de Wikipedia en inglés más visitadas . La misma consulta procesa solo 1.18 GB, puede ejecutar casi 1000 de ellos gratis por mes.
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100No se pueden crear tablas con el terabyte mensual gratuito, solo para análisis. Active sus $ 300 gratuitos para las nuevas cuentas de Google Cloud Platform, o pídame que haga un extracto por usted. Estaré feliz de hacerlo.
Cargando datos en BigQuery
Para cargar datos en BigQuery, deberá activar la facturación de su proyecto; pruébelo con sus $ 300 gratuitos para nuevas cuentas.
Cree un conjunto de datos en su proyecto para cargar los datos en: https://i.imgur.com/FRClJ3K.jpg .
Encuentre los registros sin procesar compartidos por Wikipedia en https://dumps.wikimedia.org/other/pagecounts-raw/
ingrese uno de estos archivos en su computadora, como https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Instala la herramienta 'bq'. https://cloud.google.com/bigquery/bq-command-line-tool
Cargarlo en BigQuery:
bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integerEspera un par de minutos. Mientras espera, déjeme explicarle esa línea: este no es un archivo CSV, es un archivo separado por espacios (-F "") que no usa comillas (--quote ""), elegimos una tabla de destino en un conjunto de datos en su proyecto (recuerde crear el conjunto de datos primero), elegimos el archivo para cargar y definimos las 4 columnas que tiene este archivo.
Tenga en cuenta que BigQuery felizmente ingerirá archivos .gz, hasta cierto tamaño. Para archivos muy grandes, es mejor descomprimirlos y colocarlos en Google Cloud Storage primero. Eso es lo que hice con los comentarios de reddit que / u / Stuck_In_The_Matrix compiló. Esos archivos eran grandes, pero BigQuery los ingirió en aproximadamente 2 minutos.
Aprende más
Listo para ejemplos más avanzados? Vea cómo consultar Reddit y cómo consultar todos los viajes en taxi de Nueva York .
¡Sigue por más!
- Suscríbase a / r / bigquery (y vea la barra lateral para obtener más enlaces).
- Sígueme en https://twitter.com/felipehoffa