google-bigquery ट्यूटोरियल
Google-bigquery से आरंभ करना

firebase Java Language JavaScript MySQL Node.js PHP Python Language R Language Regular Expressions SQL

टिप्पणियों

यह अनुभाग बताता है कि Google-bigquery क्या है और एक डेवलपर इसका उपयोग क्यों करना चाहता है।

इसमें google-bigquery के भीतर किसी भी बड़े विषय का उल्लेख करना चाहिए, और संबंधित विषयों के लिए लिंक करना चाहिए। चूंकि Google-bigquery के लिए दस्तावेज़ीकरण नया है, इसलिए आपको उन संबंधित विषयों के प्रारंभिक संस्करण बनाने की आवश्यकता हो सकती है।

स्थापना या सेटअप

Google-bigquery को स्थापित करने या स्थापित करने के बारे में विस्तृत निर्देश।

5 सेकंड में 50 बिलियन विकिपीडिया पेजव्यू का विश्लेषण (BigQuery शुरुआती ट्यूटोरियल)

हेलो सब लोग! यह एक डेमो है जो मुझे उन लोगों के लिए चल रहा है जो BigQuery से शुरू करते हैं। तो चलिए आपको शुरू करने के लिए कुछ सरल प्रश्नों को चलाते हैं।

सेट अप

आपको Google क्लाउड प्रोजेक्ट की आवश्यकता होगी:

Http://bigquery.cloud.google.com/ पर जाएं।
यदि यह आपको एक परियोजना बनाने के लिए कहता है, तो एक परियोजना बनाने के लिए लिंक का पालन करें, और एक परियोजना बनाएँ।
Http://bigquery.cloud.google.com/ पर वापस आएं।

टिप्पणियाँ:

आपको क्रेडिट कार्ड की आवश्यकता नहीं है। हर किसी को हर महीने विश्लेषण के लिए मुफ्त 1TB मिलता है।
प्रति प्रश्न BigQuery शुल्क। क्वेरी चलाने से पहले आप देख पाएंगे कि प्रत्येक क्वेरी की लागत कितनी है।

चलिए क्वेरी करते हैं

मई २०१५ के लिए https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505 पर पेजव्यू खोजें

नोट : Google आपके डेटा को उच्चतम सुरक्षा मानकों (PCI, ISO, HIPAA, SOC, आदि) के साथ सुरक्षित रखता है, लेकिन यदि आप ऐसा चाहते हैं तो डेटा साझा करना भी आसान है। https://cloud.google.com/security/

इस तालिका में 5 कॉलम हैं: डेटहॉर भाषा शीर्षक content_size का अनुरोध करता है । वे मूल रूप से कहते हैं "इस भाषा में इस विकिपीडिया पृष्ठ में इस समय इन कई अनुरोध थे"।
इस तालिका में लगभग 6 बिलियन पंक्तियाँ (379 GB डेटा) हैं।
यह जानने के लिए कि मई के दौरान विकिपीडिया के कितने पृष्ठ साक्षात्कार थे, आप सभी 6 बिलियन पंक्तियों को जोड़ सकते हैं:
```
 SELECT SUM(requests) 
 FROM [fh-bigquery:wikipedia.pagecounts_201505]
```
क्या आपने देखा कि कितनी तेजी से था? (1.8s बीत गया, 43.1 GB मेरे लिए संसाधित)
चलो कुछ और जटिल करते हैं। आइए इन 6 बिलियन पंक्तियों पर एक नियमित अभिव्यक्ति चलाते हैं। यह कितनी तेजी से हो सकता है?
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201505] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100     
```
आपके लिए यह कितनी जल्दी थी? क्या आपको परिणामों में Reddit मिला?

लागत विश्लेषण

यह अंतिम क्वेरी 269 जीबी संसाधित करती है: मुफ्त मासिक टेराबाइट के एक चौथाई से अधिक। क्यों?
BigQuery आपके क्वेरी पर आपके द्वारा संसाधित किए गए कॉलम को देखता है। 'शीर्षक' एक बड़ा स्तंभ है - इसमें पाठ शामिल है। The अनुरोध ’कॉलम केवल 43.1 जीबी का है।
अपने निःशुल्क टेराबाइट को अंतिम बनाने के लिए, डेटा को छोटी तालिकाओं में निकालें। उदाहरण के लिए, मेरे पास एक तालिका है जिसमें केवल शीर्ष 65,000 अंग्रेज़ी विकिपीडिया पृष्ठ पृष्ठ साक्षात्कार हैं । एक ही क्वेरी की प्रक्रिया केवल 1.18 जीबी है - आप उनमें से लगभग 1000 को एक महीने के लिए मुफ्त में चला सकते हैं।
```
 SELECT SUM(requests) req, title
 FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
 WHERE REGEXP_MATCH(title, 'Red.*t')
 GROUP BY title
 ORDER BY req DESC
 LIMIT 100 
```
आप मुफ्त मासिक टेराबाइट के साथ टेबल नहीं बना सकते हैं - यह केवल विश्लेषण के लिए है। नए Google क्लाउड प्लेटफ़ॉर्म खातों के लिए अपने निशुल्क $ 300 को सक्रिय करें, या मुझे यहां आपके लिए एक अर्क करने के लिए कहें। मुझे ऐसा करने में खुशी होगी।

BigQuery में डेटा लोड हो रहा है

BigQuery में डेटा लोड करने के लिए, आपको अपनी परियोजना के लिए बिलिंग को सक्रिय करना होगा - नए खातों के लिए अपने $ 300 के साथ इसे आज़माएं।

डेटा लोड करने के लिए अपनी परियोजना में डेटासेट बनाएँ: https://i.imgur.com/FRClJ3K.jpg ।
विकिपीडिया द्वारा साझा किए गए कच्चे लॉग https://dumps.wikimedia.org/other/pagecounts-raw/ पर प्राप्त करें
अपने कंप्यूटर में इन फ़ाइलों में से एक को भूल जाइए, जैसे https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz
'Bq' टूल इंस्टॉल करें। https://cloud.google.com/bigquery/bq-command-line-tool

इसे BigQuery में लोड करें:

 bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer

कुछ मिनट रुकिए। जब आप प्रतीक्षा करते हैं, तो मुझे उस पंक्ति की व्याख्या करने दें: यह एक CSV फ़ाइल नहीं है, यह एक अलग की गई फ़ाइल (-F "") है जो उद्धरण (--quote "") का उपयोग नहीं करती है, हम डेटासेट में एक गंतव्य तालिका चुनते हैं आपकी परियोजना में (पहले डेटासेट बनाना याद रखें), हमने फ़ाइल को लोड करने के लिए चुना है, और इस फ़ाइल में हमने 4 कॉलम परिभाषित किए हैं।
ध्यान दें कि BigQuery एक निश्चित आकार तक .gz फ़ाइलों को खुशी से निगलेगा। बहुत बड़ी फ़ाइलों के लिए उन्हें पहले से अन-कंप्रेस करना और उन्हें Google क्लाउड स्टोरेज में डालना बेहतर है। यही मैंने लाल टिप्पणियों के साथ किया है जो / u / Stuck_In_The_Matrix संकलित है। वे फाइलें बड़ी थीं, लेकिन BigQuery ने उन्हें 2 मिनट या उससे अधिक समय में निगला।

और अधिक जानें

अधिक उन्नत उदाहरणों के लिए तैयार हैं? देखें कि Reddit को कैसे क्वेरी करें और सभी NYC टैक्सी यात्राओं को कैसे क्वेरी करें ।

और भी अधिक के लिए पालन करें!

/ R / bigquery की सदस्यता लें (और अधिक लिंक के लिए साइडबार देखें)।
मुझे https://twitter.com/felipehoffa पर फॉलो करें

Modified text is an extract of the original Stack Overflow Documentation

के तहत लाइसेंस प्राप्त है CC BY-SA 3.0

से संबद्ध नहीं है Stack Overflow