Suche…


Syntax

  • Verwenden Sie Anemone :: Core.new (URL, Optionen), um den Crawler zu initialisieren
  • Verwenden Sie den on_every_page-Block, um Code auf jeder besuchten Seite auszuführen
  • Verwenden Sie die .run-Methode, um die Durchforstung zu starten. Kein vorheriger Code startet tatsächlich GET-Aufrufe.

Parameter

Parameter Einzelheiten
URL URL (einschließlich des zu durchsuchenden Protokolls)
Optionen optionaler Hash, siehe alle Optionen hier

Bemerkungen

  • Der Crawler besucht nur Links, die sich in derselben Domäne befinden wie die Start-URL. Dies ist wichtig, wenn Sie mit Subdomains von Inhalten wie media.domain.com da sie beim domain.com ignoriert domain.com
  • Der Crawler ist HTTP / HTTPS-fähig und behält standardmäßig das ursprüngliche Protokoll bei und besucht keine anderen Links in derselben Domäne
  • Die page Objekt im on_every_page Block hat oben ein .doc Verfahren, das das Nokogiri Dokument für den HTML - Body der Seite zurückkehrt. Das heißt, Sie können Nokogiri-Selektoren innerhalb des on_every_page Blocks verwenden, beispielsweise page.doc.css('div#id')
  • Weitere Informationen zum Start finden Sie hier

Grundlegender Site-Crawl

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow