rubygems => Anémona

Sintaxis

Use Anemone :: Core.new (url, opciones) para inicializar el rastreador
Utilice el bloque on_every_page para ejecutar el código en cada página visitada
Utilice el método .run para iniciar el rastreo. Ningún código de antemano iniciará realmente ninguna llamada GET.

Parámetro	Detalles
url	URL (incluido el protocolo a rastrear)
opciones	hash opcional, ver todas las opciones aquí

El rastreador solo visitará los enlaces que se encuentran en el mismo dominio que la URL de inicio. Esto es importante saber cuando se trata de subdominios de contenido, tales como media.domain.com ya que se ignoran cuando se arrastra domain.com
El rastreador es HTTP / HTTPS y permanecerá por defecto en el protocolo inicial y no visitará otros enlaces en el mismo dominio.
El objeto de page en el bloque on_every_page anterior tiene un método .doc que devuelve el documento de Nokogiri para el cuerpo HTML de la página. Esto significa que puede usar los selectores de on_every_page dentro del bloque page.doc.css('div#id') como page.doc.css('div#id')
Otra información para comenzar se puede encontrar aquí.

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run

Modified text is an extract of the original Stack Overflow Documentation

Licenciado bajo CC BY-SA 3.0