Szukaj…


Składnia

  • Użyj Anemone :: Core.new (adres URL, opcje), aby zainicjować przeszukiwacz
  • Użyj bloku on_every_page, aby uruchomić kod na każdej odwiedzanej stronie
  • Użyj metody .run, aby rozpocząć indeksowanie. Żaden kod wcześniej nie uruchomi żadnych wywołań GET.

Parametry

Parametr Detale
URL URL (w tym protokół do przeszukania)
opcje opcjonalny skrót, zobacz wszystkie opcje tutaj

Uwagi

  • Robot indeksujący będzie odwiedzał tylko linki znajdujące się w tej samej domenie co początkowy adres URL. To jest ważne, aby wiedzieć, kiedy do czynienia z subdomen treści, takie jak media.domain.com ponieważ zostaną one zignorowane podczas przemierzania domain.com
  • Przeszukiwacz obsługuje protokół HTTP / HTTPS i domyślnie pozostanie w protokole początkowym i nie będzie odwiedzał innych łączy w tej samej domenie
  • Obiekt page w on_every_page bloku on_every_page ma metodę .doc , która zwraca dokument Nokogiri dla treści HTML strony. Oznacza to, że możesz używać selektorów on_every_page bloku on_every_page , takim jak page.doc.css('div#id')
  • Inne informacje na początek można znaleźć tutaj

Podstawowe indeksowanie witryny

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow