rubygems
Anemon
Sök…
Syntax
- Använd Anemone :: Core.new (url, alternativ) för att initialisera sökroboten
- Använd on_every_page-blocket för att köra kod på alla besökta sidor
- Använd .run-metoden för att starta genomsökningen. Ingen kod i förväg startar faktiskt några GET-samtal.
parametrar
| Parameter | detaljer |
|---|---|
| url | URL (inklusive protokoll som ska genomsökas) |
| alternativ | valfri hash, se alla alternativ här |
Anmärkningar
- Genomsökaren kommer endast att besöka länkar som finns på samma domän som start-URL. Detta är viktigt att veta när man hanterar underdomener med innehåll som
media.domain.comeftersom de ignoreras vid genomsökning avdomain.com - Sökroboten är medveten om HTTP / HTTPS och kommer som standard att stanna kvar på det ursprungliga protokollet och inte besöka andra länkar på samma domän
- Den
pageobjektet ion_every_pageblocket ovan har en.docmetod som returnerar Nokogiri dokumentet för HTML-kroppen på sidan. Detta betyder att du kan använda Nokogiri-väljare ion_every_pageblocket, t.ex.page.doc.css('div#id') - Annan information att starta kan hittas här
Grundläggande webbplatssökning
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow