google-bigquery ट्यूटोरियल
Google-bigquery से आरंभ करना
खोज…
टिप्पणियों
यह अनुभाग बताता है कि Google-bigquery क्या है और एक डेवलपर इसका उपयोग क्यों करना चाहता है।
इसमें google-bigquery के भीतर किसी भी बड़े विषय का उल्लेख करना चाहिए, और संबंधित विषयों के लिए लिंक करना चाहिए। चूंकि Google-bigquery के लिए दस्तावेज़ीकरण नया है, इसलिए आपको उन संबंधित विषयों के प्रारंभिक संस्करण बनाने की आवश्यकता हो सकती है।
स्थापना या सेटअप
Google-bigquery को स्थापित करने या स्थापित करने के बारे में विस्तृत निर्देश।
5 सेकंड में 50 बिलियन विकिपीडिया पेजव्यू का विश्लेषण (BigQuery शुरुआती ट्यूटोरियल)
हेलो सब लोग! यह एक डेमो है जो मुझे उन लोगों के लिए चल रहा है जो BigQuery से शुरू करते हैं। तो चलिए आपको शुरू करने के लिए कुछ सरल प्रश्नों को चलाते हैं।
सेट अप
आपको Google क्लाउड प्रोजेक्ट की आवश्यकता होगी:
- Http://bigquery.cloud.google.com/ पर जाएं।
- यदि यह आपको एक परियोजना बनाने के लिए कहता है, तो एक परियोजना बनाने के लिए लिंक का पालन करें, और एक परियोजना बनाएँ।
- Http://bigquery.cloud.google.com/ पर वापस आएं।
टिप्पणियाँ:
- आपको क्रेडिट कार्ड की आवश्यकता नहीं है। हर किसी को हर महीने विश्लेषण के लिए मुफ्त 1TB मिलता है।
- प्रति प्रश्न BigQuery शुल्क। क्वेरी चलाने से पहले आप देख पाएंगे कि प्रत्येक क्वेरी की लागत कितनी है।
चलिए क्वेरी करते हैं
- मई २०१५ के लिए https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505 पर पेजव्यू खोजें
नोट : Google आपके डेटा को उच्चतम सुरक्षा मानकों (PCI, ISO, HIPAA, SOC, आदि) के साथ सुरक्षित रखता है, लेकिन यदि आप ऐसा चाहते हैं तो डेटा साझा करना भी आसान है। https://cloud.google.com/security/
इस तालिका में 5 कॉलम हैं: डेटहॉर भाषा शीर्षक content_size का अनुरोध करता है । वे मूल रूप से कहते हैं "इस भाषा में इस विकिपीडिया पृष्ठ में इस समय इन कई अनुरोध थे"।
इस तालिका में लगभग 6 बिलियन पंक्तियाँ (379 GB डेटा) हैं।
यह जानने के लिए कि मई के दौरान विकिपीडिया के कितने पृष्ठ साक्षात्कार थे, आप सभी 6 बिलियन पंक्तियों को जोड़ सकते हैं:
SELECT SUM(requests) FROM [fh-bigquery:wikipedia.pagecounts_201505]क्या आपने देखा कि कितनी तेजी से था? (1.8s बीत गया, 43.1 GB मेरे लिए संसाधित)
चलो कुछ और जटिल करते हैं। आइए इन 6 बिलियन पंक्तियों पर एक नियमित अभिव्यक्ति चलाते हैं। यह कितनी तेजी से हो सकता है?
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201505] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100आपके लिए यह कितनी जल्दी थी? क्या आपको परिणामों में Reddit मिला?
लागत विश्लेषण
यह अंतिम क्वेरी 269 जीबी संसाधित करती है: मुफ्त मासिक टेराबाइट के एक चौथाई से अधिक। क्यों?
BigQuery आपके क्वेरी पर आपके द्वारा संसाधित किए गए कॉलम को देखता है। 'शीर्षक' एक बड़ा स्तंभ है - इसमें पाठ शामिल है। The अनुरोध ’कॉलम केवल 43.1 जीबी का है।
अपने निःशुल्क टेराबाइट को अंतिम बनाने के लिए, डेटा को छोटी तालिकाओं में निकालें। उदाहरण के लिए, मेरे पास एक तालिका है जिसमें केवल शीर्ष 65,000 अंग्रेज़ी विकिपीडिया पृष्ठ पृष्ठ साक्षात्कार हैं । एक ही क्वेरी की प्रक्रिया केवल 1.18 जीबी है - आप उनमें से लगभग 1000 को एक महीने के लिए मुफ्त में चला सकते हैं।
SELECT SUM(requests) req, title FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] WHERE REGEXP_MATCH(title, 'Red.*t') GROUP BY title ORDER BY req DESC LIMIT 100आप मुफ्त मासिक टेराबाइट के साथ टेबल नहीं बना सकते हैं - यह केवल विश्लेषण के लिए है। नए Google क्लाउड प्लेटफ़ॉर्म खातों के लिए अपने निशुल्क $ 300 को सक्रिय करें, या मुझे यहां आपके लिए एक अर्क करने के लिए कहें। मुझे ऐसा करने में खुशी होगी।
BigQuery में डेटा लोड हो रहा है
BigQuery में डेटा लोड करने के लिए, आपको अपनी परियोजना के लिए बिलिंग को सक्रिय करना होगा - नए खातों के लिए अपने $ 300 के साथ इसे आज़माएं।
डेटा लोड करने के लिए अपनी परियोजना में डेटासेट बनाएँ: https://i.imgur.com/FRClJ3K.jpg ।
विकिपीडिया द्वारा साझा किए गए कच्चे लॉग https://dumps.wikimedia.org/other/pagecounts-raw/ पर प्राप्त करें
अपने कंप्यूटर में इन फ़ाइलों में से एक को भूल जाइए, जैसे https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
'Bq' टूल इंस्टॉल करें। https://cloud.google.com/bigquery/bq-command-line-tool
इसे BigQuery में लोड करें:
bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integerकुछ मिनट रुकिए। जब आप प्रतीक्षा करते हैं, तो मुझे उस पंक्ति की व्याख्या करने दें: यह एक CSV फ़ाइल नहीं है, यह एक अलग की गई फ़ाइल (-F "") है जो उद्धरण (--quote "") का उपयोग नहीं करती है, हम डेटासेट में एक गंतव्य तालिका चुनते हैं आपकी परियोजना में (पहले डेटासेट बनाना याद रखें), हमने फ़ाइल को लोड करने के लिए चुना है, और इस फ़ाइल में हमने 4 कॉलम परिभाषित किए हैं।
ध्यान दें कि BigQuery एक निश्चित आकार तक .gz फ़ाइलों को खुशी से निगलेगा। बहुत बड़ी फ़ाइलों के लिए उन्हें पहले से अन-कंप्रेस करना और उन्हें Google क्लाउड स्टोरेज में डालना बेहतर है। यही मैंने लाल टिप्पणियों के साथ किया है जो / u / Stuck_In_The_Matrix संकलित है। वे फाइलें बड़ी थीं, लेकिन BigQuery ने उन्हें 2 मिनट या उससे अधिक समय में निगला।
और अधिक जानें
अधिक उन्नत उदाहरणों के लिए तैयार हैं? देखें कि Reddit को कैसे क्वेरी करें और सभी NYC टैक्सी यात्राओं को कैसे क्वेरी करें ।
और भी अधिक के लिए पालन करें!
- / R / bigquery की सदस्यता लें (और अधिक लिंक के लिए साइडबार देखें)।
- मुझे https://twitter.com/felipehoffa पर फॉलो करें