rubygems
Anemoon
Zoeken…
Syntaxis
- Gebruik Anemone :: Core.new (url, opties) om de crawler te initialiseren
- Gebruik on_every_page block om code uit te voeren op elke bezochte pagina
- Gebruik de .run-methode om het crawlen te starten. Geen code vooraf zal daadwerkelijk GET-oproepen starten.
parameters
| Parameter | Details |
|---|---|
| url | URL (inclusief te crawlen protocol) |
| opties | optioneel hash, kunt u alle opties hier |
Opmerkingen
- De crawler bezoekt alleen links die zich in hetzelfde domein bevinden als de start-URL. Dit is belangrijk om te weten bij het omgaan met inhoudssubdomeinen zoals
media.domain.comomdat deze worden genegeerd bij het crawlen vandomain.com - De crawler is HTTP / HTTPS-bewust en blijft standaard op het oorspronkelijke protocol en bezoekt geen andere links op hetzelfde domein
- Het
pageobject in het blokon_every_pagehierboven heeft een.docmethode die het Nokogiri-document retourneert voor de HTML-inhoud van de pagina. Dit betekent dat u Nokogiri-selectors in heton_every_pageblok kunt gebruiken, zoalspage.doc.css('div#id') - Overige informatie start kan worden gevonden hier
Eenvoudige sitecrawl
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow