rubygems => анемон

Синтаксис

Используйте Anemone :: Core.new (url, options) для инициализации искателя
Используйте блок on_every_page для запуска кода на каждой посещаемой странице.
Используйте метод .run для запуска обхода. Никакой код заранее не запустит никаких вызовов GET.

параметр	подробности
URL	URL (включая протокол, подлежащий обходу)
опции	дополнительный хэш, см. все параметры здесь

Искатель будет использовать только ссылки, которые находятся в том же домене, что и исходный URL. Это важно знать при работе с поддоменами контента , такими как media.domain.com , так как они будут игнорироваться при сканировании domain.com
Обходчик - это протокол HTTP / HTTPS, который будет по умолчанию оставаться на исходном протоколе, а не посещать другие ссылки в том же домене
Объект page в блоке on_every_page выше имеет метод .doc который возвращает документ Nokogiri для HTML-страницы страницы. Это означает, что вы можете использовать селектора on_every_page внутри блока on_every_page такие как page.doc.css('div#id')
Другую информацию для начала можно найти здесь

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Лицензировано согласно CC BY-SA 3.0

Не связан с Stack Overflow