수색…


통사론

  • Anemone :: Core.new (url, options)를 사용하여 크롤러를 초기화하십시오.
  • on_every_page 블록을 사용하여 방문한 모든 페이지에서 코드 실행
  • .run 메서드를 사용하여 크롤링을 시작합니다. 미리 코드는 실제로 GET 호출을 시작하지 않습니다.

매개 변수

매개 변수 세부
url URL (크롤링 할 프로토콜 포함)
옵션들 옵션 해시, 모든 옵션을 보려면 여기

비고

  • 크롤러는 시작 URL과 동일한 도메인에있는 방문 링크 만 사용합니다. media.domain.com 과 같은 콘텐츠 하위 도메인을 처리 할 때 domain.com 크롤링 할 때 무시되므로 중요합니다.
  • 크롤러는 HTTP / HTTPS를 인식하며 기본적으로 초기 프로토콜을 유지하고 동일한 도메인의 다른 링크를 방문하지 않습니다.
  • 위의 on_every_page 블록의 page 객체에는 page 의 HTML 본문에 대한 Nokogiri 문서를 반환하는 .doc 메소드가 있습니다. 즉, on_every_page page.doc.css('div#id') 와 같이 on_every_page 블록 내에서 Nokogiri 선택기를 사용할 수 있습니다.
  • 시작할 다른 정보는 여기 에서 찾을 수 있습니다.

기본 사이트 크롤링

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
아래 라이선스 CC BY-SA 3.0
와 제휴하지 않음 Stack Overflow