rubygems
анемон
Поиск…
Синтаксис
- Используйте Anemone :: Core.new (url, options) для инициализации искателя
- Используйте блок on_every_page для запуска кода на каждой посещаемой странице.
- Используйте метод .run для запуска обхода. Никакой код заранее не запустит никаких вызовов GET.
параметры
| параметр | подробности |
|---|---|
| URL | URL (включая протокол, подлежащий обходу) |
| опции | дополнительный хэш, см. все параметры здесь |
замечания
- Искатель будет использовать только ссылки, которые находятся в том же домене, что и исходный URL. Это важно знать при работе с поддоменами контента , такими как
media.domain.com, так как они будут игнорироваться при сканированииdomain.com - Обходчик - это протокол HTTP / HTTPS, который будет по умолчанию оставаться на исходном протоколе, а не посещать другие ссылки в том же домене
- Объект
pageв блокеon_every_pageвыше имеет метод.docкоторый возвращает документ Nokogiri для HTML-страницы страницы. Это означает, что вы можете использовать селектораon_every_pageвнутри блокаon_every_pageтакие какpage.doc.css('div#id') - Другую информацию для начала можно найти здесь
Сканирование основного сайта
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow