rubygems => Anemoon

Syntaxis

Gebruik Anemone :: Core.new (url, opties) om de crawler te initialiseren
Gebruik on_every_page block om code uit te voeren op elke bezochte pagina
Gebruik de .run-methode om het crawlen te starten. Geen code vooraf zal daadwerkelijk GET-oproepen starten.

Parameter	Details
url	URL (inclusief te crawlen protocol)
opties	optioneel hash, kunt u alle opties hier

De crawler bezoekt alleen links die zich in hetzelfde domein bevinden als de start-URL. Dit is belangrijk om te weten bij het omgaan met inhoudssubdomeinen zoals media.domain.com omdat deze worden genegeerd bij het crawlen van domain.com
De crawler is HTTP / HTTPS-bewust en blijft standaard op het oorspronkelijke protocol en bezoekt geen andere links op hetzelfde domein
Het page object in het blok on_every_page hierboven heeft een .doc methode die het Nokogiri-document retourneert voor de HTML-inhoud van de pagina. Dit betekent dat u Nokogiri-selectors in het on_every_page blok kunt gebruiken, zoals page.doc.css('div#id')
Overige informatie start kan worden gevonden hier

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Licentie onder CC BY-SA 3.0

Niet aangesloten bij Stack Overflow