Articles of nokogiri

¿Cómo abro el iframe de revisiones de Amazon con Nokogiri?

Puedo get la URL iframe de reseñas de Amazon::AWS::ItemSearch pero tengo problemas para cargar el contenido del iframe en Nokogiri. iframe_url = "http://www.amazon.com/reviews/iframe?[…snip…]" iframe = Nokogiri::HTML(open(iframe_url)) Esto da un error 403: OpenURI::HTTPError: 403 Forbidden Si pego la url en mi browser, la página está en blanco. Sin embargo, si lo coloco en un iframe en […]

Eliminación de HTML del text que contiene <y> caracteres con Loofah y Nokogiri

Me imagino que esto es tan común que es un problema resuelto, pero siendo un novato con Loofah y Nokogiri no he encontrado la solución todavía. Estoy usando Loofah, una biblioteca de depuradores HTML que envuelve a Nokogiri, para borrar text HTML para su visualización. Sin embargo, ese text a veces sucede a cosas como […]

¿Cómo puedo cambiar este código de Nokogiri para que devuelva HTML y no el contenido?

Tengo este HTML: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE en-note SYSTEM "http://xml.evernote.com/pub/enml2.dtd"> <en-note><div><strong>this is note 2</strong>. it has a url.</div></en-note> Quiero extraer esto de esto: <div><strong>this is note 2</strong>. it has a url.</div> Por el momento, estoy haciendo esto: html_doc.xpath('//en-note').each do |a_tag| p a_tag.content end Lo cual me da esto: "this is note 2. it has a […]

Nokogiri: Búsqueda Regex

He visto los diversos hilos de Nokogiri Regex, y este Nokogiri: buscando <div> usando XPath dice que nokogiri no lo admite (en 2009). ¿Nokogiri permite los selectores de regex css todavía?

Obtener text de un párrafo con todo el marcado (y su contenido) eliminado

¿Cómo puedo get solo el text del nodo <p> que tiene otras tags en él como: <p>hello my website is <a href="www.website.com">click here</a> <b>test</b></p> Solo quiero " hello my website is " Esto es lo que intenté: begin node = html_doc.css('p') node.each do |node| node.children.remove end return (node.nil?) ? '' : node.text rescue return '' […]

Extrayendo enlaces en una class

doc.xpath("//div[@id='Ci_']").each_with_index do |div,i| parse_file.puts "#{div.at_xpath("./*[@class='class1']").text}" parse_file.puts "#{div.at_xpath("./*[@class='class2']").text}" Hay dos enlaces en class2 y necesito extraer el text que pertenece a estos enlaces, por separado. ¿Cómo puedo hacer eso?

Nokogiri Xpath Double Looping

Lo que estoy tratando de hacer es pul el bloque de código que contiene el td con la class pnetworkingeterminada. Esto funciona perfectamente bien. Pero luego tengo que orderar las diferentes partes del bloque de código. Cuando trato de hacer esto con la segunda llamada xpath lo que hace es cada vez que imprime todas […]

Nokogiri no quiere leer todo el file

El código de Ruby: require 'nokogiri' f = open("doc2.xml") # f.each { |line| puts line} # <– works, so it's reading the whole file @doc = Nokogiri::XML(f) puts @doc.xpath("//2") # Nokogiri doesn't bother to get any nodes other than the first one. El documento XML: <?xml version="1.0"?> <1> T </1> <2> U </2> <3> V […]

cómo encontrar todos los enlaces a la misma profundidad con un ancestro más cercano con nokogiri

d=<<"EOM" <ul> <li><a id=t href="t">a</a></li> <li><a id=b href="b">b</a></li> <li> <ul> <li><a href="inner">don't want inner</a></li> <li><a href="inner">don't want inner</a></li> </ul> </li> <li><a id=c href="c">c</a></li> </ul> <ul> <li><a href="d">don't want</a></li> </ul> EOM doc = Nokogiri.HTML(d) t = doc.css("#t")[0] ¿Cómo puedo get todos los hrefs que tienen el mismo contenedor externo que "t" y están a la misma […]

raspando files javascript externos usando Ruby

Necesito rastrear varias URL y tomar sus contenidos en una database. los datos rastreados deben contener tanto el HTML como los files CSS y JS externos. Utilicé Nokogiri para capturar CSS sin problemas, pero no puedo get el Javacript tan fácilmente. aquí está mi código relevante: … arrJS = [] page = Nokogiri::HTML(open(url)) page.css('script').map {|link| […]