Ricerca…


Sintassi

  • Utilizza Anemone :: Core.new (url, options) per inizializzare il crawler
  • Utilizza il blocco on_every_page per eseguire il codice su ogni pagina visitata
  • Utilizza il metodo .run per avviare la scansione. Nessun codice in anticipo inizierà effettivamente alcuna chiamata GET.

Parametri

Parametro Dettagli
url URL (incluso il protocollo da sottoporre a scansione)
opzioni hash opzionale, vedi tutte le opzioni qui

Osservazioni

  • Il crawler visiterà solo i collegamenti che si trovano nello stesso dominio dell'URL iniziale. È importante sapere quando si tratta di sottodomini di contenuti come media.domain.com poiché verranno ignorati durante la scansione di domain.com
  • Il crawler è consapevole di HTTP / HTTPS e per impostazione predefinita rimarrà sul protocollo iniziale e non visiterà altri collegamenti nello stesso dominio
  • L'oggetto page nel blocco on_every_page sopra ha un metodo .doc che restituisce il documento Nokogiri per il corpo HTML della pagina. Ciò significa che è possibile utilizzare selettori Nokogiri all'interno del on_every_page blocco come page.doc.css('div#id')
  • Altre informazioni per iniziare possono essere trovate qui

Scansione di base del sito

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow