google-bigquery Tutoriel
Démarrer avec Google-Bigquery
Recherche…
Remarques
Cette section fournit une vue d'ensemble de ce qu'est Google-Bigquery et pourquoi un développeur peut vouloir l'utiliser.
Il devrait également mentionner tous les grands sujets dans Google-Bigquery, et établir un lien vers les sujets connexes. La documentation de Google-bigquery étant nouvelle, vous devrez peut-être créer des versions initiales de ces rubriques connexes.
Installation ou configuration
Instructions détaillées sur la configuration ou l'installation de Google-bigquery.
Analyser 50 milliards de pages de Wikipedia vues en 5 secondes (tutoriel de débutant BigQuery)
Salut à tous! C'est une démo que j'adore courir pour les gens qui ont commencé avec BigQuery. Alors lancez quelques requêtes simples pour vous aider à démarrer.
Installer
Vous aurez besoin d'un projet Google Cloud:
- Accédez à http://bigquery.cloud.google.com/ .
- S'il vous dit de créer un projet, suivez le lien pour créer un projet et créez un projet.
- Revenez à http://bigquery.cloud.google.com/ .
Remarques:
- Vous n'avez pas besoin d'une carte de crédit. Tout le monde obtient un 1 To gratuit pour l'analyse chaque mois.
- BigQuery charge par requête. Avant de lancer une requête, vous pourrez voir le coût de chaque requête.
Interroge
- Recherchez les pages vues pour mai 2015 sur https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505
Remarque : Google protège vos données avec les normes de sécurité les plus strictes (PCI, ISO, HIPAA, SOC, etc.), mais il est également facile de partager des données si vous le souhaitez, comme je l’ai fait ici. https://cloud.google.com/security/
Ce tableau comporte 5 colonnes: le titre de la langue datehour demande content_size . Ils disent essentiellement "cette page wikipédia dans cette langue avait ces nombreuses demandes à cette heure".
Ce tableau compte près de 6 milliards de lignes (379 Go de données).
Pour savoir combien de pages Wikipedia a eu en mai, vous pouvez ajouter les 6 milliards de lignes de demandes:
SELECT SUM(requests) FROM [fh-bigquery:wikipedia.pagecounts_201505]Avez-vous remarqué à quelle vitesse c'était? (1.8s écoulés, 43.1 Go traités pour moi)
Faisons quelque chose de plus complexe. Exécutons une expression régulière sur ces 6 milliards de lignes. À quelle vitesse cela pourrait-il être?
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201505] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100À quelle vitesse était-ce pour vous? Avez-vous trouvé Reddit dans les résultats?
Analyse de coût
Cette dernière requête a traité 269 Go: plus du quart du téraoctet mensuel gratuit. Pourquoi?
BigQuery examine les colonnes que vous traitez dans votre requête. 'title' est une grande colonne - il contient du texte. La colonne "Demandes" ne contient que 43,1 Go.
Pour rendre votre téraoctet gratuit en dernier, extrayez les données dans des tables plus petites. Par exemple, j'ai une table avec seulement 65 000 pages vues de pages de Wikipédia en anglais . La même requête ne traite que 1,18 Go - vous pouvez en exécuter près de 1 000 gratuitement par mois.
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100Vous ne pouvez pas créer de tables avec le téraoctet mensuel gratuit - c'est uniquement pour l'analyse. Activez vos 300 $ gratuits pour les nouveaux comptes Google Cloud Platform, ou demandez-moi ici de faire un extrait pour vous. Je serai heureux de le faire.
Chargement de données dans BigQuery
Pour charger des données dans BigQuery, vous devrez activer la facturation pour votre projet - essayez-le avec vos 300 $ gratuits pour les nouveaux comptes.
Créez un jeu de données dans votre projet pour charger les données sur: https://i.imgur.com/FRClJ3K.jpg .
Trouvez les logs bruts partagés par Wikipedia sur https://dumps.wikimedia.org/other/pagecounts-raw/
wget un de ces fichiers sur votre ordinateur, comme https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
Installez l'outil 'bq'. https://cloud.google.com/bigquery/bq-command-line-tool
Chargez-le dans BigQuery:
bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integerAttendez quelques minutes. Pendant que vous attendez, laissez-moi vous expliquer cette ligne: Ce n’est pas un fichier CSV, c’est un fichier séparé par des espaces (-F "") qui n’utilise pas de guillemets (--quote ""), nous choisissons une table de destination dans un jeu de données dans votre projet (n'oubliez pas de créer d'abord le jeu de données), nous avons choisi le fichier à charger et nous avons défini les 4 colonnes de ce fichier.
Notez que BigQuery ingérera avec plaisir des fichiers .gz, jusqu'à une certaine taille. Pour les fichiers très volumineux, il est préférable de les décompresser et de les placer d'abord dans Google Cloud Storage. C'est ce que j'ai fait avec les commentaires reddit compilés par / u / Stuck_In_The_Matrix. Ces fichiers étaient volumineux, mais BigQuery les a ingérés en 2 minutes environ.
Apprendre encore plus
Prêt pour des exemples plus avancés? Voir comment interroger Reddit et comment interroger tous les trajets en taxi de NYC .
Suivez pour encore plus!
- Abonnez-vous à / r / bigquery (et consultez la barre latérale pour plus de liens).
- Suivez-moi sur https://twitter.com/felipehoffa