rubygems
Anémona
Buscar..
Sintaxis
- Use Anemone :: Core.new (url, opciones) para inicializar el rastreador
- Utilice el bloque on_every_page para ejecutar el código en cada página visitada
- Utilice el método .run para iniciar el rastreo. Ningún código de antemano iniciará realmente ninguna llamada GET.
Parámetros
| Parámetro | Detalles |
|---|---|
| url | URL (incluido el protocolo a rastrear) |
| opciones | hash opcional, ver todas las opciones aquí |
Observaciones
- El rastreador solo visitará los enlaces que se encuentran en el mismo dominio que la URL de inicio. Esto es importante saber cuando se trata de subdominios de contenido, tales como
media.domain.comya que se ignoran cuando se arrastradomain.com - El rastreador es HTTP / HTTPS y permanecerá por defecto en el protocolo inicial y no visitará otros enlaces en el mismo dominio.
- El objeto de
pageen el bloqueon_every_pageanterior tiene un método.docque devuelve el documento de Nokogiri para el cuerpo HTML de la página. Esto significa que puede usar los selectores deon_every_pagedentro del bloquepage.doc.css('div#id')comopage.doc.css('div#id') - Otra información para comenzar se puede encontrar aquí.
Rastreo básico del sitio
pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
results << page.url
end
crawler.run
Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow