खोज…


परिचय

वेब स्क्रैपिंग एक स्वचालित, प्रोग्रामेटिक प्रक्रिया है जिसके माध्यम से डेटा को वेबपेजों से लगातार 'स्क्रैप' किया जा सकता है। स्क्रीन स्क्रैपिंग या वेब कटाई के रूप में भी जाना जाता है, वेब स्क्रैपिंग किसी भी सार्वजनिक रूप से सुलभ वेबपेज से तत्काल डेटा प्रदान कर सकता है। कुछ वेबसाइटों पर, वेब स्क्रैपिंग अवैध हो सकती है।

टिप्पणियों

वेब स्क्रैपिंग (वर्णमाला क्रम) के लिए उपयोगी पायथन पैकेज

अनुरोध करना और डेटा एकत्र करना

requests

HTTP अनुरोध करने के लिए एक सरल, लेकिन शक्तिशाली पैकेज।

requests-cache

requests लिए कैशिंग; कैशिंग डेटा बहुत उपयोगी है। विकास में, इसका मतलब है कि आप किसी साइट को अनावश्यक रूप से मारने से बच सकते हैं। वास्तविक संग्रह चलाते समय, इसका मतलब है कि यदि आपका खुरचन किसी कारण से दुर्घटनाग्रस्त हो जाता है (हो सकता है कि आपने साइट पर कुछ असामान्य सामग्री को हैंडल नहीं किया हो ...? शायद साइट नीचे चली गई ...?) आप संग्रह को बहुत जल्दी दोहरा सकते हैं? जहां से आप रवाना हुए।

scrapy

वेब क्रॉलर के निर्माण के लिए उपयोगी, जहां आपको पृष्ठों का उपयोग requests और पृष्ठों के माध्यम से पुनरावृत्ति requests तुलना में अधिक शक्तिशाली कुछ की आवश्यकता होती है।

selenium

ब्राउज़र ऑटोमेशन के लिए सेलेनियम वेबड्राइवर के लिए पायथन बाइंडिंग। वेबपृष्ठों को पुनः प्राप्त करने के लिए HTTP अनुरोधों को सीधे करने के requests का उपयोग करना सरल है। हालांकि, यह एक उपयोगी उपकरण बना हुआ है जब अकेले requests का उपयोग करके किसी साइट के वांछित व्यवहार को दोहराने के लिए संभव नहीं है, खासकर जब जावास्क्रिप्ट को एक पृष्ठ पर तत्वों को प्रस्तुत करना आवश्यक होता है।

HTML पार्सिंग

BeautifulSoup

क्वेरी HTML और XML दस्तावेज, विभिन्न पारसर्स के एक नंबर का उपयोग कर (अजगर के अंतर्निहित एचटीएमएल पार्सर, html5lib , lxml या lxml.html )

lxml

HTML और XML को प्रोसेस करता है। सीएसएस चयनकर्ताओं और XPath के माध्यम से HTML दस्तावेजों से सामग्री को क्वेरी और चयन करने के लिए इस्तेमाल किया जा सकता है।

कुछ डेटा खंगालने के लिए अनुरोधों और lxml का उपयोग करने का मूल उदाहरण

# For Python 2 compatibility.
from __future__ import print_function

import lxml.html
import requests


def main():
    r = requests.get("https://httpbin.org")
    html_source = r.text
    root_element = lxml.html.fromstring(html_source)
    # Note root_element.xpath() gives a *list* of results.
    # XPath specifies a path to the element we want.
    page_title = root_element.xpath('/html/head/title/text()')[0]
    print(page_title)

if __name__ == '__main__':
    main()

अनुरोधों के साथ वेब-स्क्रैपिंग सत्र बनाए रखना

कुकीज़ और अन्य मापदंडों को जारी रखने के लिए वेब-स्क्रैपिंग सत्र को बनाए रखना एक अच्छा विचार है। इसके अतिरिक्त, यह एक प्रदर्शन में सुधार में परिणाम कर सकते हैं क्योंकि requests.Session एक मेजबान के लिए अंतर्निहित TCP कनेक्शन पुनः उपयोग कर लेता:

import requests

with requests.Session() as session:
    # all requests through session now have User-Agent header set
    session.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'}

    # set cookies
    session.get('http://httpbin.org/cookies/set?key=value')

    # get cookies
    response = session.get('http://httpbin.org/cookies')
    print(response.text)

स्क्रेपी ढांचे का उपयोग करके स्क्रैपिंग

सबसे पहले आपको एक नया Scrapy प्रोजेक्ट सेट करना होगा। एक निर्देशिका दर्ज करें, जहाँ आप अपना कोड संग्रहीत करना चाहते हैं:

scrapy startproject projectName

परिमार्जन करने के लिए हमें मकड़ी चाहिए। मकड़ियों को परिभाषित करता है कि एक निश्चित साइट कैसे स्क्रैप की जाएगी। यहाँ एक मकड़ी के लिए कोड है जो StackOverflow पर शीर्ष मतदान वाले प्रश्नों के लिंक का अनुसरण करता है और प्रत्येक पृष्ठ ( स्रोत ) से कुछ डेटा को स्क्रैप करता है:

import scrapy

class StackOverflowSpider(scrapy.Spider):
    name = 'stackoverflow'  # each spider has a unique name
    start_urls = ['http://stackoverflow.com/questions?sort=votes']  # the parsing starts from a specific set of urls

    def parse(self, response):  # for each request this generator yields, its response is sent to parse_question
        for href in response.css('.question-summary h3 a::attr(href)'):  # do some scraping stuff using css selectors to find question urls 
            full_url = response.urljoin(href.extract())
            yield scrapy.Request(full_url, callback=self.parse_question)

    def parse_question(self, response): 
        yield {
            'title': response.css('h1 a::text').extract_first(),
            'votes': response.css('.question .vote-count-post::text').extract_first(),
            'body': response.css('.question .post-text').extract_first(),
            'tags': response.css('.question .post-tag::text').extract(),
            'link': response.url,
        }

अपने मकड़ी के वर्गों को projectName\spiders निर्देशिका में सहेजें। इस स्थिति में - projectName\spiders\stackoverflow_spider.py

अब आप अपने मकड़ी का उपयोग कर सकते हैं। उदाहरण के लिए, दौड़ने का प्रयास करें (परियोजना की निर्देशिका में):

scrapy crawl stackoverflow

स्क्रेपी उपयोगकर्ता एजेंट को संशोधित करें

कभी-कभी डिफ़ॉल्ट स्क्रैपी उपयोगकर्ता एजेंट ( "Scrapy/VERSION (+http://scrapy.org)" ) मेजबान द्वारा अवरुद्ध होता है। डिफ़ॉल्ट उपयोगकर्ता एजेंट को बदलने के लिए सेटिंग्स को खोलें, आप क्या चाहते हैं , के लिए निम्न लाइन को अनइंस्टॉल करें और संपादित करें।

#USER_AGENT = 'projectName (+http://www.yourdomain.com)'

उदाहरण के लिए

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'

सुंदर का उपयोग कर स्क्रैपिंग 4

from bs4 import BeautifulSoup
import requests

# Use the requests module to obtain a page
res = requests.get('https://www.codechef.com/problems/easy')

# Create a BeautifulSoup object
page = BeautifulSoup(res.text, 'lxml')   # the text field contains the source of the page

# Now use a CSS selector in order to get the table containing the list of problems
datatable_tags = page.select('table.dataTable')  # The problems are in the <table> tag,
                                                 # with class "dataTable"
# We extract the first tag from the list, since that's what we desire
datatable = datatable_tags[0]
# Now since we want problem names, they are contained in <b> tags, which are
# directly nested under <a> tags
prob_tags = datatable.select('a > b')
prob_names = [tag.getText().strip() for tag in prob_tags]

print prob_names

सेलेनियम वेबड्राइवर का उपयोग करके स्क्रैपिंग

कुछ वेबसाइटों को स्क्रैप किया जाना पसंद नहीं है। इन मामलों में आपको ब्राउज़र के साथ काम करने वाले एक वास्तविक उपयोगकर्ता को अनुकरण करने की आवश्यकता हो सकती है। सेलेनियम एक वेब ब्राउज़र को लॉन्च और नियंत्रित करता है।

from selenium import webdriver

browser = webdriver.Firefox()  # launch firefox browser

browser.get('http://stackoverflow.com/questions?sort=votes')  # load url

title = browser.find_element_by_css_selector('h1').text  # page title (first h1 element)

questions = browser.find_elements_by_css_selector('.question-summary')  # question list

for question in questions:  # iterate over questions
    question_title = question.find_element_by_css_selector('.summary h3 a').text
    question_excerpt = question.find_element_by_css_selector('.summary .excerpt').text
    question_vote = question.find_element_by_css_selector('.stats .vote .votes .vote-count-post').text
    
    print "%s\n%s\n%s votes\n-----------\n" % (question_title, question_excerpt, question_vote) 

सेलेनियम बहुत अधिक कर सकते हैं। यह ब्राउज़र की कुकीज़ को संशोधित कर सकता है, फॉर्म भर सकता है, माउस क्लिक को अनुकरण कर सकता है, वेब पेजों के स्क्रीनशॉट ले सकता है और कस्टम जावास्क्रिप्ट चला सकता है।

सरल वेब सामग्री urllib.request के साथ डाउनलोड करें

मानक लाइब्रेरी मॉड्यूल urllib.request का उपयोग वेब सामग्री को डाउनलोड करने के लिए किया जा सकता है:

from urllib.request import urlopen

response = urlopen('http://stackoverflow.com/questions?sort=votes')    
data = response.read()

# The received bytes should usually be decoded according the response's character set
encoding = response.info().get_content_charset()
html = data.decode(encoding)

एक समान मॉड्यूल पायथन 2 में भी उपलब्ध है

कर्ल के साथ स्क्रैपिंग

आयात:

from subprocess import Popen, PIPE
from lxml import etree
from io import StringIO

डाउनलोड कर रहा है:

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'
url = 'http://stackoverflow.com'
get = Popen(['curl', '-s', '-A', user_agent, url], stdout=PIPE)
result = get.stdout.read().decode('utf8')

-s : मूक डाउनलोड

-A : उपयोगकर्ता एजेंट झंडा

पार्स:

tree = etree.parse(StringIO(result), etree.HTMLParser())
divs = tree.xpath('//div')


Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow