rubygems
Anemone
Suche…
Syntax
- Verwenden Sie Anemone :: Core.new (URL, Optionen), um den Crawler zu initialisieren
- Verwenden Sie den on_every_page-Block, um Code auf jeder besuchten Seite auszuführen
- Verwenden Sie die .run-Methode, um die Durchforstung zu starten. Kein vorheriger Code startet tatsächlich GET-Aufrufe.
Parameter
| Parameter | Einzelheiten |
|---|---|
| URL | URL (einschließlich des zu durchsuchenden Protokolls) |
| Optionen | optionaler Hash, siehe alle Optionen hier |
Bemerkungen
- Der Crawler besucht nur Links, die sich in derselben Domäne befinden wie die Start-URL. Dies ist wichtig, wenn Sie mit Subdomains von Inhalten wie
media.domain.comda sie beimdomain.comignoriertdomain.com - Der Crawler ist HTTP / HTTPS-fähig und behält standardmäßig das ursprüngliche Protokoll bei und besucht keine anderen Links in derselben Domäne
- Die
pageObjekt imon_every_pageBlock hat oben ein.docVerfahren, das das Nokogiri Dokument für den HTML - Body der Seite zurückkehrt. Das heißt, Sie können Nokogiri-Selektoren innerhalb deson_every_pageBlocks verwenden, beispielsweisepage.doc.css('div#id') - Weitere Informationen zum Start finden Sie hier
Grundlegender Site-Crawl
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow