rubygems
रत्नज्योति
खोज…
वाक्य - विन्यास
- क्रॉलर को इनिशियलाइज़ करने के लिए Anemone :: Core.new (url, options) का उपयोग करें
- विज़िट किए गए प्रत्येक पृष्ठ पर कोड चलाने के लिए on_every_page ब्लॉक का उपयोग करें
- क्रॉल शुरू करने के लिए .run विधि का उपयोग करें। कोई भी कोड पहले से कोई GET कॉल शुरू नहीं करेगा।
पैरामीटर
| पैरामीटर | विवरण |
|---|---|
| यूआरएल | URL (प्रोटोकॉल क्रॉल करने के लिए) |
| विकल्प | वैकल्पिक हैश, यहां सभी विकल्प देखें |
टिप्पणियों
- क्रॉलर केवल उन लिंक पर जाएगा जो शुरुआती URL के समान डोमेन पर हैं। इस तरह के रूप में पता करने के लिए जब सामग्री उप डोमेन के साथ काम महत्वपूर्ण है
media.domain.comबाद से वे ध्यान नहीं दिया जाएगा जब रेंगनेdomain.com - क्रॉलर HTTP / HTTPS से परिचित है और प्रारंभिक प्रोटोकॉल पर डिफ़ॉल्ट रूप से रहेगा और उसी डोमेन पर अन्य लिंक पर नहीं जाएगा
-
pageon_every_pageब्लॉक के ऊपर स्थित ऑब्जेक्ट में एक.docविधि है जो पृष्ठ के HTML निकाय के लिए Nokogiri दस्तावेज़ लौटाता है। इसका मतलब है कि आपon_every_pageब्लॉक जैसेpage.doc.css('div#id')अंदरon_every_pageचयनकर्ताओं का उपयोग कर सकते हैं - शुरू करने के लिए अन्य जानकारी यहां पाई जा सकती है
मूल साइट क्रॉल
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow