खोज…


टिप्पणियों

यह अनुभाग बताता है कि Google-bigquery क्या है और एक डेवलपर इसका उपयोग क्यों करना चाहता है।

इसमें google-bigquery के भीतर किसी भी बड़े विषय का उल्लेख करना चाहिए, और संबंधित विषयों के लिए लिंक करना चाहिए। चूंकि Google-bigquery के लिए दस्तावेज़ीकरण नया है, इसलिए आपको उन संबंधित विषयों के प्रारंभिक संस्करण बनाने की आवश्यकता हो सकती है।

स्थापना या सेटअप

Google-bigquery को स्थापित करने या स्थापित करने के बारे में विस्तृत निर्देश।

5 सेकंड में 50 बिलियन विकिपीडिया पेजव्यू का विश्लेषण (BigQuery शुरुआती ट्यूटोरियल)

हेलो सब लोग! यह एक डेमो है जो मुझे उन लोगों के लिए चल रहा है जो BigQuery से शुरू करते हैं। तो चलिए आपको शुरू करने के लिए कुछ सरल प्रश्नों को चलाते हैं।

सेट अप

आपको Google क्लाउड प्रोजेक्ट की आवश्यकता होगी:

  1. Http://bigquery.cloud.google.com/ पर जाएं।
  2. यदि यह आपको एक परियोजना बनाने के लिए कहता है, तो एक परियोजना बनाने के लिए लिंक का पालन करें, और एक परियोजना बनाएँ।
  3. Http://bigquery.cloud.google.com/ पर वापस आएं।

टिप्पणियाँ:

  • आपको क्रेडिट कार्ड की आवश्यकता नहीं है। हर किसी को हर महीने विश्लेषण के लिए मुफ्त 1TB मिलता है।
  • प्रति प्रश्न BigQuery शुल्क। क्वेरी चलाने से पहले आप देख पाएंगे कि प्रत्येक क्वेरी की लागत कितनी है।

चलिए क्वेरी करते हैं

  1. मई २०१५ के लिए https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505 पर पेजव्यू खोजें

नोट : Google आपके डेटा को उच्चतम सुरक्षा मानकों (PCI, ISO, HIPAA, SOC, आदि) के साथ सुरक्षित रखता है, लेकिन यदि आप ऐसा चाहते हैं तो डेटा साझा करना भी आसान है। https://cloud.google.com/security/

  1. इस तालिका में 5 कॉलम हैं: डेटहॉर भाषा शीर्षक content_size का अनुरोध करता है । वे मूल रूप से कहते हैं "इस भाषा में इस विकिपीडिया पृष्ठ में इस समय इन कई अनुरोध थे"।

  2. इस तालिका में लगभग 6 बिलियन पंक्तियाँ (379 GB डेटा) हैं।

  3. यह जानने के लिए कि मई के दौरान विकिपीडिया के कितने पृष्ठ साक्षात्कार थे, आप सभी 6 बिलियन पंक्तियों को जोड़ सकते हैं:

     SELECT SUM(requests) 
     FROM [fh-bigquery:wikipedia.pagecounts_201505]
    
  4. क्या आपने देखा कि कितनी तेजी से था? (1.8s बीत गया, 43.1 GB मेरे लिए संसाधित)

  5. चलो कुछ और जटिल करते हैं। आइए इन 6 बिलियन पंक्तियों पर एक नियमित अभिव्यक्ति चलाते हैं। यह कितनी तेजी से हो सकता है?

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201505] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100     
    
  6. आपके लिए यह कितनी जल्दी थी? क्या आपको परिणामों में Reddit मिला?

लागत विश्लेषण

  1. यह अंतिम क्वेरी 269 जीबी संसाधित करती है: मुफ्त मासिक टेराबाइट के एक चौथाई से अधिक। क्यों?

  2. BigQuery आपके क्वेरी पर आपके द्वारा संसाधित किए गए कॉलम को देखता है। 'शीर्षक' एक बड़ा स्तंभ है - इसमें पाठ शामिल है। The अनुरोध ’कॉलम केवल 43.1 जीबी का है।

  3. अपने निःशुल्क टेराबाइट को अंतिम बनाने के लिए, डेटा को छोटी तालिकाओं में निकालें। उदाहरण के लिए, मेरे पास एक तालिका है जिसमें केवल शीर्ष 65,000 अंग्रेज़ी विकिपीडिया पृष्ठ पृष्ठ साक्षात्कार हैं । एक ही क्वेरी की प्रक्रिया केवल 1.18 जीबी है - आप उनमें से लगभग 1000 को एक महीने के लिए मुफ्त में चला सकते हैं।

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100 
    
  4. आप मुफ्त मासिक टेराबाइट के साथ टेबल नहीं बना सकते हैं - यह केवल विश्लेषण के लिए है। नए Google क्लाउड प्लेटफ़ॉर्म खातों के लिए अपने निशुल्क $ 300 को सक्रिय करें, या मुझे यहां आपके लिए एक अर्क करने के लिए कहें। मुझे ऐसा करने में खुशी होगी।

BigQuery में डेटा लोड हो रहा है

BigQuery में डेटा लोड करने के लिए, आपको अपनी परियोजना के लिए बिलिंग को सक्रिय करना होगा - नए खातों के लिए अपने $ 300 के साथ इसे आज़माएं।

  1. डेटा लोड करने के लिए अपनी परियोजना में डेटासेट बनाएँ: https://i.imgur.com/FRClJ3K.jpg

  2. विकिपीडिया द्वारा साझा किए गए कच्चे लॉग https://dumps.wikimedia.org/other/pagecounts-raw/ पर प्राप्त करें

  3. अपने कंप्यूटर में इन फ़ाइलों में से एक को भूल जाइए, जैसे https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz

  4. 'Bq' टूल इंस्टॉल करें। https://cloud.google.com/bigquery/bq-command-line-tool

  5. इसे BigQuery में लोड करें:

     bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer
    
  6. कुछ मिनट रुकिए। जब आप प्रतीक्षा करते हैं, तो मुझे उस पंक्ति की व्याख्या करने दें: यह एक CSV फ़ाइल नहीं है, यह एक अलग की गई फ़ाइल (-F "") है जो उद्धरण (--quote "") का उपयोग नहीं करती है, हम डेटासेट में एक गंतव्य तालिका चुनते हैं आपकी परियोजना में (पहले डेटासेट बनाना याद रखें), हमने फ़ाइल को लोड करने के लिए चुना है, और इस फ़ाइल में हमने 4 कॉलम परिभाषित किए हैं।

  7. ध्यान दें कि BigQuery एक निश्चित आकार तक .gz फ़ाइलों को खुशी से निगलेगा। बहुत बड़ी फ़ाइलों के लिए उन्हें पहले से अन-कंप्रेस करना और उन्हें Google क्लाउड स्टोरेज में डालना बेहतर है। यही मैंने लाल टिप्पणियों के साथ किया है जो / u / Stuck_In_The_Matrix संकलित है। वे फाइलें बड़ी थीं, लेकिन BigQuery ने उन्हें 2 मिनट या उससे अधिक समय में निगला।

और अधिक जानें

अधिक उन्नत उदाहरणों के लिए तैयार हैं? देखें कि Reddit को कैसे क्वेरी करें और सभी NYC टैक्सी यात्राओं को कैसे क्वेरी करें

और भी अधिक के लिए पालन करें!



Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow