rubygems => Anemone

Sintassi

Utilizza Anemone :: Core.new (url, options) per inizializzare il crawler
Utilizza il blocco on_every_page per eseguire il codice su ogni pagina visitata
Utilizza il metodo .run per avviare la scansione. Nessun codice in anticipo inizierà effettivamente alcuna chiamata GET.

Parametro	Dettagli
url	URL (incluso il protocollo da sottoporre a scansione)
opzioni	hash opzionale, vedi tutte le opzioni qui

Il crawler visiterà solo i collegamenti che si trovano nello stesso dominio dell'URL iniziale. È importante sapere quando si tratta di sottodomini di contenuti come media.domain.com poiché verranno ignorati durante la scansione di domain.com
Il crawler è consapevole di HTTP / HTTPS e per impostazione predefinita rimarrà sul protocollo iniziale e non visiterà altri collegamenti nello stesso dominio
L'oggetto page nel blocco on_every_page sopra ha un metodo .doc che restituisce il documento Nokogiri per il corpo HTML della pagina. Ciò significa che è possibile utilizzare selettori Nokogiri all'interno del on_every_page blocco come page.doc.css('div#id')
Altre informazioni per iniziare possono essere trovate qui

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Autorizzato sotto CC BY-SA 3.0

Non affiliato con Stack Overflow