rubygems => Anemon

Syntax

Använd Anemone :: Core.new (url, alternativ) för att initialisera sökroboten
Använd on_every_page-blocket för att köra kod på alla besökta sidor
Använd .run-metoden för att starta genomsökningen. Ingen kod i förväg startar faktiskt några GET-samtal.

Parameter	detaljer
url	URL (inklusive protokoll som ska genomsökas)
alternativ	valfri hash, se alla alternativ här

Genomsökaren kommer endast att besöka länkar som finns på samma domän som start-URL. Detta är viktigt att veta när man hanterar underdomener med innehåll som media.domain.com eftersom de ignoreras vid genomsökning av domain.com
Sökroboten är medveten om HTTP / HTTPS och kommer som standard att stanna kvar på det ursprungliga protokollet och inte besöka andra länkar på samma domän
Den page objektet i on_every_page blocket ovan har en .doc metod som returnerar Nokogiri dokumentet för HTML-kroppen på sidan. Detta betyder att du kan använda Nokogiri-väljare i on_every_page blocket, t.ex. page.doc.css('div#id')
Annan information att starta kan hittas här

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow