Zoeken…


Syntaxis

  • Gebruik Anemone :: Core.new (url, opties) om de crawler te initialiseren
  • Gebruik on_every_page block om code uit te voeren op elke bezochte pagina
  • Gebruik de .run-methode om het crawlen te starten. Geen code vooraf zal daadwerkelijk GET-oproepen starten.

parameters

Parameter Details
url URL (inclusief te crawlen protocol)
opties optioneel hash, kunt u alle opties hier

Opmerkingen

  • De crawler bezoekt alleen links die zich in hetzelfde domein bevinden als de start-URL. Dit is belangrijk om te weten bij het omgaan met inhoudssubdomeinen zoals media.domain.com omdat deze worden genegeerd bij het crawlen van domain.com
  • De crawler is HTTP / HTTPS-bewust en blijft standaard op het oorspronkelijke protocol en bezoekt geen andere links op hetzelfde domein
  • Het page object in het blok on_every_page hierboven heeft een .doc methode die het Nokogiri-document retourneert voor de HTML-inhoud van de pagina. Dit betekent dat u Nokogiri-selectors in het on_every_page blok kunt gebruiken, zoals page.doc.css('div#id')
  • Overige informatie start kan worden gevonden hier

Eenvoudige sitecrawl

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow