rubygems
아네모네
수색…
통사론
- Anemone :: Core.new (url, options)를 사용하여 크롤러를 초기화하십시오.
- on_every_page 블록을 사용하여 방문한 모든 페이지에서 코드 실행
- .run 메서드를 사용하여 크롤링을 시작합니다. 미리 코드는 실제로 GET 호출을 시작하지 않습니다.
매개 변수
| 매개 변수 | 세부 |
|---|---|
| url | URL (크롤링 할 프로토콜 포함) |
| 옵션들 | 옵션 해시, 모든 옵션을 보려면 여기 |
비고
- 크롤러는 시작 URL과 동일한 도메인에있는 방문 링크 만 사용합니다.
media.domain.com과 같은 콘텐츠 하위 도메인을 처리 할 때domain.com크롤링 할 때 무시되므로 중요합니다. - 크롤러는 HTTP / HTTPS를 인식하며 기본적으로 초기 프로토콜을 유지하고 동일한 도메인의 다른 링크를 방문하지 않습니다.
- 위의
on_every_page블록의page객체에는page의 HTML 본문에 대한 Nokogiri 문서를 반환하는.doc메소드가 있습니다. 즉,on_every_pagepage.doc.css('div#id')와 같이on_every_page블록 내에서 Nokogiri 선택기를 사용할 수 있습니다. - 시작할 다른 정보는 여기 에서 찾을 수 있습니다.
기본 사이트 크롤링
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
아래 라이선스 CC BY-SA 3.0
와 제휴하지 않음 Stack Overflow