サーチ…


構文

  • Anemone :: Core.new(url、options)を使用してクローラを初期化する
  • on_every_pageブロックを使用して、訪問したすべてのページでコードを実行する
  • .runメソッドを使用してクロールを開始します。あらかじめ実際にGET呼び出しを開始するコードはありません。

パラメーター

パラメータ詳細
URL URL(クロールするプロトコルを含む)
オプションオプションのハッシュ、すべてのオプションをここに表示

備考

  • クローラは、開始URLと同じドメインにある訪問リンクのみを使用します。 media.domain.comようなコンテンツサブドメインを扱うときは、 domain.comクロールするときに無視されるため、これは重要です
  • クローラはHTTP / HTTPSを認識しており、デフォルトで初期プロトコルに留まり、同じドメインの他のリンクを訪問しません
  • 上のon_every_pageブロックのpageオブジェクトには、ページのHTML本体のon_every_pageドキュメントを返す.docメソッドがあります。つまり、 page.doc.css('div#id')などのon_every_pageブロック内でon_every_pageセレクタを使用できます。
  • 開始するその他の情報はここにあります

基本的なサイトクロール

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow