rubygems
アネモネ
サーチ…
構文
- Anemone :: Core.new(url、options)を使用してクローラを初期化する
- on_every_pageブロックを使用して、訪問したすべてのページでコードを実行する
- .runメソッドを使用してクロールを開始します。あらかじめ実際にGET呼び出しを開始するコードはありません。
パラメーター
| パラメータ | 詳細 |
|---|---|
| URL | URL(クロールするプロトコルを含む) |
| オプション | オプションのハッシュ、すべてのオプションをここに表示 |
備考
- クローラは、開始URLと同じドメインにある訪問リンクのみを使用します。
media.domain.comようなコンテンツサブドメインを扱うときは、domain.comクロールするときに無視されるため、これは重要です - クローラはHTTP / HTTPSを認識しており、デフォルトで初期プロトコルに留まり、同じドメインの他のリンクを訪問しません
- 上の
on_every_pageブロックのpageオブジェクトには、ページのHTML本体のon_every_pageドキュメントを返す.docメソッドがあります。つまり、page.doc.css('div#id')などのon_every_pageブロック内でon_every_pageセレクタを使用できます。 - 開始するその他の情報はここにあります
基本的なサイトクロール
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow