rubygems => Anemon

Składnia

Użyj Anemone :: Core.new (adres URL, opcje), aby zainicjować przeszukiwacz
Użyj bloku on_every_page, aby uruchomić kod na każdej odwiedzanej stronie
Użyj metody .run, aby rozpocząć indeksowanie. Żaden kod wcześniej nie uruchomi żadnych wywołań GET.

Parametr	Detale
URL	URL (w tym protokół do przeszukania)
opcje	opcjonalny skrót, zobacz wszystkie opcje tutaj

Robot indeksujący będzie odwiedzał tylko linki znajdujące się w tej samej domenie co początkowy adres URL. To jest ważne, aby wiedzieć, kiedy do czynienia z subdomen treści, takie jak media.domain.com ponieważ zostaną one zignorowane podczas przemierzania domain.com
Przeszukiwacz obsługuje protokół HTTP / HTTPS i domyślnie pozostanie w protokole początkowym i nie będzie odwiedzał innych łączy w tej samej domenie
Obiekt page w on_every_page bloku on_every_page ma metodę .doc , która zwraca dokument Nokogiri dla treści HTML strony. Oznacza to, że możesz używać selektorów on_every_page bloku on_every_page , takim jak page.doc.css('div#id')
Inne informacje na początek można znaleźć tutaj

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Licencjonowany na podstawie CC BY-SA 3.0

Nie związany z Stack Overflow