Sök…


Syntax

  • Använd Anemone :: Core.new (url, alternativ) för att initialisera sökroboten
  • Använd on_every_page-blocket för att köra kod på alla besökta sidor
  • Använd .run-metoden för att starta genomsökningen. Ingen kod i förväg startar faktiskt några GET-samtal.

parametrar

Parameter detaljer
url URL (inklusive protokoll som ska genomsökas)
alternativ valfri hash, se alla alternativ här

Anmärkningar

  • Genomsökaren kommer endast att besöka länkar som finns på samma domän som start-URL. Detta är viktigt att veta när man hanterar underdomener med innehåll som media.domain.com eftersom de ignoreras vid genomsökning av domain.com
  • Sökroboten är medveten om HTTP / HTTPS och kommer som standard att stanna kvar på det ursprungliga protokollet och inte besöka andra länkar på samma domän
  • Den page objektet i on_every_page blocket ovan har en .doc metod som returnerar Nokogiri dokumentet för HTML-kroppen på sidan. Detta betyder att du kan använda Nokogiri-väljare i on_every_page blocket, t.ex. page.doc.css('div#id')
  • Annan information att starta kan hittas här

Grundläggande webbplatssökning

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow