rubygems
Anemone
Ricerca…
Sintassi
- Utilizza Anemone :: Core.new (url, options) per inizializzare il crawler
- Utilizza il blocco on_every_page per eseguire il codice su ogni pagina visitata
- Utilizza il metodo .run per avviare la scansione. Nessun codice in anticipo inizierà effettivamente alcuna chiamata GET.
Parametri
| Parametro | Dettagli |
|---|---|
| url | URL (incluso il protocollo da sottoporre a scansione) |
| opzioni | hash opzionale, vedi tutte le opzioni qui |
Osservazioni
- Il crawler visiterà solo i collegamenti che si trovano nello stesso dominio dell'URL iniziale. È importante sapere quando si tratta di sottodomini di contenuti come
media.domain.compoiché verranno ignorati durante la scansione didomain.com - Il crawler è consapevole di HTTP / HTTPS e per impostazione predefinita rimarrà sul protocollo iniziale e non visiterà altri collegamenti nello stesso dominio
- L'oggetto
pagenel bloccoon_every_pagesopra ha un metodo.docche restituisce il documento Nokogiri per il corpo HTML della pagina. Ciò significa che è possibile utilizzare selettori Nokogiri all'interno delon_every_pageblocco comepage.doc.css('div#id') - Altre informazioni per iniziare possono essere trovate qui
Scansione di base del sito
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow