rubygems => アネモネ

構文

Anemone :: Core.new（url、options）を使用してクローラを初期化する
on_every_pageブロックを使用して、訪問したすべてのページでコードを実行する
.runメソッドを使用してクロールを開始します。あらかじめ実際にGET呼び出しを開始するコードはありません。

パラメーター

パラメータ	詳細
URL	URL（クロールするプロトコルを含む）
オプション	オプションのハッシュ、すべてのオプションをここに表示

備考

クローラは、開始URLと同じドメインにある訪問リンクのみを使用します。 media.domain.comようなコンテンツサブドメインを扱うときは、 domain.comクロールするときに無視されるため、これは重要です
クローラはHTTP / HTTPSを認識しており、デフォルトで初期プロトコルに留まり、同じドメインの他のリンクを訪問しません
上のon_every_pageブロックのpageオブジェクトには、ページのHTML本体のon_every_pageドキュメントを返す.docメソッドがあります。つまり、 page.doc.css('div#id')などのon_every_pageブロック内でon_every_pageセレクタを使用できます。
開始するその他の情報はここにあります

基本的なサイトクロール

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

ライセンスを受けた CC BY-SA 3.0

所属していない Stack Overflow