rubygems => Anemone

Syntax

Verwenden Sie Anemone :: Core.new (URL, Optionen), um den Crawler zu initialisieren
Verwenden Sie den on_every_page-Block, um Code auf jeder besuchten Seite auszuführen
Verwenden Sie die .run-Methode, um die Durchforstung zu starten. Kein vorheriger Code startet tatsächlich GET-Aufrufe.

Parameter	Einzelheiten
URL	URL (einschließlich des zu durchsuchenden Protokolls)
Optionen	optionaler Hash, siehe alle Optionen hier

Der Crawler besucht nur Links, die sich in derselben Domäne befinden wie die Start-URL. Dies ist wichtig, wenn Sie mit Subdomains von Inhalten wie media.domain.com da sie beim domain.com ignoriert domain.com
Der Crawler ist HTTP / HTTPS-fähig und behält standardmäßig das ursprüngliche Protokoll bei und besucht keine anderen Links in derselben Domäne
Die page Objekt im on_every_page Block hat oben ein .doc Verfahren, das das Nokogiri Dokument für den HTML - Body der Seite zurückkehrt. Das heißt, Sie können Nokogiri-Selektoren innerhalb des on_every_page Blocks verwenden, beispielsweise page.doc.css('div#id')
Weitere Informationen zum Start finden Sie hier

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Lizenziert unter CC BY-SA 3.0

Nicht angeschlossen an Stack Overflow