खोज…


वाक्य - विन्यास

  • क्रॉलर को इनिशियलाइज़ करने के लिए Anemone :: Core.new (url, options) का उपयोग करें
  • विज़िट किए गए प्रत्येक पृष्ठ पर कोड चलाने के लिए on_every_page ब्लॉक का उपयोग करें
  • क्रॉल शुरू करने के लिए .run विधि का उपयोग करें। कोई भी कोड पहले से कोई GET कॉल शुरू नहीं करेगा।

पैरामीटर

पैरामीटर विवरण
यूआरएल URL (प्रोटोकॉल क्रॉल करने के लिए)
विकल्प वैकल्पिक हैश, यहां सभी विकल्प देखें

टिप्पणियों

  • क्रॉलर केवल उन लिंक पर जाएगा जो शुरुआती URL के समान डोमेन पर हैं। इस तरह के रूप में पता करने के लिए जब सामग्री उप डोमेन के साथ काम महत्वपूर्ण है media.domain.com बाद से वे ध्यान नहीं दिया जाएगा जब रेंगने domain.com
  • क्रॉलर HTTP / HTTPS से परिचित है और प्रारंभिक प्रोटोकॉल पर डिफ़ॉल्ट रूप से रहेगा और उसी डोमेन पर अन्य लिंक पर नहीं जाएगा
  • page on_every_page ब्लॉक के ऊपर स्थित ऑब्जेक्ट में एक .doc विधि है जो पृष्ठ के HTML निकाय के लिए Nokogiri दस्तावेज़ लौटाता है। इसका मतलब है कि आप on_every_page ब्लॉक जैसे page.doc.css('div#id') अंदर on_every_page चयनकर्ताओं का उपयोग कर सकते हैं
  • शुरू करने के लिए अन्य जानकारी यहां पाई जा सकती है

मूल साइट क्रॉल

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow