rubygems
Anemon
Szukaj…
Składnia
- Użyj Anemone :: Core.new (adres URL, opcje), aby zainicjować przeszukiwacz
- Użyj bloku on_every_page, aby uruchomić kod na każdej odwiedzanej stronie
- Użyj metody .run, aby rozpocząć indeksowanie. Żaden kod wcześniej nie uruchomi żadnych wywołań GET.
Parametry
| Parametr | Detale |
|---|---|
| URL | URL (w tym protokół do przeszukania) |
| opcje | opcjonalny skrót, zobacz wszystkie opcje tutaj |
Uwagi
- Robot indeksujący będzie odwiedzał tylko linki znajdujące się w tej samej domenie co początkowy adres URL. To jest ważne, aby wiedzieć, kiedy do czynienia z subdomen treści, takie jak
media.domain.componieważ zostaną one zignorowane podczas przemierzaniadomain.com - Przeszukiwacz obsługuje protokół HTTP / HTTPS i domyślnie pozostanie w protokole początkowym i nie będzie odwiedzał innych łączy w tej samej domenie
- Obiekt
pagewon_every_pageblokuon_every_pagema metodę.doc, która zwraca dokument Nokogiri dla treści HTML strony. Oznacza to, że możesz używać selektorówon_every_pageblokuon_every_page, takim jakpage.doc.css('div#id') - Inne informacje na początek można znaleźć tutaj
Podstawowe indeksowanie witryny
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow