这篇文章主要介绍了Ruby的XML格式数据解析库Nokogiri的使用进阶,文中对其从HTML/XML中抓取字段还有特别是命名空间的用法进行了深入讲解,需要的朋友可以参考下


一、基础语法
1.直接以字符串形式获取nokogiri对象:

html_doc = Nokogiri::HTML("<html><body><h1>Mr. Belvedere Fan Club</h1></body></html>")
xml_doc = Nokogiri::XML("<root><aliens><alien><name>Alf</name></alien></aliens></root>")

pk10开奖结果这里的html_doc和xml_doc就是nokogiri文件

2.也可以通过文件句柄获取nokogiri对象:

f = File.open("blossom.xml")
doc = Nokogiri::XML(f)
f.close

3.还可以直接从网站获取:

require 'open-uri'
doc = Nokogiri::HTML(open("http://www.xxx.com/"))

二、XML文件解析实例
从XML/HTML文件里抓取字段的常用方法:

现在有一个名为shows.xml的文件,内容如下:

<root>
 <sitcoms>
  <sitcom>
   <name>Married with Children</name>
   <characters>
    <character>Al Bundy</character>
    <character>Bud Bundy</character>
    <character>Marcy Darcy</character>
   </characters>
  </sitcom>
  <sitcom>
   <name>Perfect Strangers</name>
   <characters>
    <character>Larry Appleton</character>
    <character>Balki Bartokomous</character>
   </characters>
  </sitcom>
 </sitcoms>
 <dramas>
  <drama>
   <name>The A-Team</name>
   <characters>
    <character>John "Hannibal" Smith</character>
    <character>Templeton "Face" Peck</character>
    <character>"B.A." Baracus</character>
    <character>"Howling Mad" Murdock</character>
   </characters>
  </drama>
 </dramas>
</root>

如果想把所有character标签的内容查找出来,可以这样处理:

@doc = Nokogiri::XML(File.open("shows.xml"))
@doc.xpath("//character")

xpath和css方法,返回的是一个结点列表,类似于一个数组,它的内容就是从文件中查找出来的符合匹配规则的结点.

把dramas结点里的character结点列表查出来:

@doc.xpath("//dramas//character")

更有可读性的css方法:

characters = @doc.css("sitcoms name")
# => ["<name>Married with Children</name>", "<name>Perfect Strangers</name>"]

当已知查询结果唯一时,如果想直接返回这个结果,而不是列表,可以直接使用at_xpath或at_css:

@doc.css("dramas name").first # => "<name>The A-Team</name>"
@doc.at_css("dramas name")  # => "<name>The A-Team</name>"

三、Namespaces
对于有多个标签的情况,命名空间就起到非常大的作用了.
例如有这样一个parts.xml文件:

<parts>
 <!-- Alice's Auto Parts Store -->
 <inventory xmlns="http://alicesautoparts.com/">
  <tire>all weather</tire>
  <tire>studded</tire>
  <tire>extra wide</tire>
 </inventory>

 <!-- Bob's Bike Shop -->
 <inventory xmlns="http://bobsbikes.com/">
  <tire>street</tire>
  <tire>mountain</tire>
 </inventory>
</parts>

可以使用唯一的URL作为namespaces,以区分不同的tires标签:

@doc = Nokogiri::XML(File.read("parts.xml"))
car_tires = @doc.xpath('//car:tire', 'car' => 'http://alicesautoparts.com/')
bike_tires = @doc.xpath('//bike:tire', 'bike' => 'http://bobsbikes.com/')

为了让namespace的使用更方便,nokogiri会自动绑定在根结点上找到的合适的任何namespace.
nokogiri会自动关联提供的URL,这个惯例可以代码量.
例如有这样一个atom.xml文件:

<feed xmlns="http://www.w3.org/2005/Atom">

 <title>Example Feed</title>
 <link href="http://example.org/"/>
 <updated>2003-12-13T18:30:02Z</updated>
 <author>
  <name>John Doe</name>
 </author>
 <id>urn:uuid:60a76c80-d399-11d9-b93C-0003939e0af6</id>

 <entry>
  <title>Atom-Powered Robots Run Amok</title>
  <link href="http://example.org/2003/12/13/atom03"/>
  <id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id>
  <updated>2003-12-13T18:30:02Z</updated>
  <summary>Some text.</summary>
 </entry>
</feed>

遵循上面提到的惯例,xmlns已被自动绑定,不用再手动为xmlns赋值:

@doc.xpath('//xmlns:title')
# => ["<title>Example Feed</title>", "<title>Atom-Powered Robots Run Amok</title>"]

同样情况,css的用法:

@doc.css('xmlns|title')

并且在使用css方式时,如果namespaces名字是xmlns,那么连这个词本身都可以忽略掉:

@doc.css('title')


最新资讯
电子烟野蛮生长:争议仍存,资本竞逐行业或加速洗牌

电子烟野蛮生长:争议仍

孙巍认为,对消费者来说,吸烟有害健康,但也能给人精神满足
赛曼投资被诉暴力催收 实控人为名创优品联合创始人

赛曼投资被诉暴力催收

缺钱么的运营主体公司,是由广东赛曼投资有限公司(以下简
小盒科技CEO刘夜谈AI课:技术背后 人文很重要

小盒科技CEO刘夜谈AI

近日作业盒子举办品牌升级暨战略发布会,宣布了“作业盒
阿里回港二次上市:将和港股“股王”腾讯强势对垒?

阿里回港二次上市:将和

时间倒回至5年前,2014年9月15日,阿里在纽交所递交IPO申
人类登月50周年:致敬那些为登月献出的生命

人类登月50周年:致敬那

整整50年了,距离人类首次登上月球。
又一暴雪联合创始人宣布离职:结束28年暴雪工作生涯

又一暴雪联合创始人宣

今天上午,暴雪娱乐的联合创始人之一Frank Pearce宣布正
最新文章
Ruby编写HTML脚本替换小程序的实例分享

Ruby编写HTML脚本替换

这篇文章主要介绍了Ruby编写HTML脚本替换小程序的实例
解析proxy代理模式在Ruby设计模式开发中的运用

解析proxy代理模式在R

这篇文章主要介绍了proxy代理模式在Ruby设计模式开发
Ruby on Rails中Rack中间件的基础学习教程

pk10开奖结果Ruby on Rails中Rack

Rack是一个连接Ruby程序与服务器程序之间的中间件,甚
以MVC的思维方式来理解Ruby on Rails框架的设计结构

以MVC的思维方式来理

RubyonRails是Ruby世界中Web开发框架的代名词,人气相
Ruby基本的环境变量设置以及常用解释器命令介绍

Ruby基本的环境变量设

这篇文章主要介绍了Ruby基本的环境变量设置以及常用解
Ruby的基础语法入门学习教程

Ruby的基础语法入门学

这篇文章主要介绍了Ruby的基础语法入门学习教程,包括
pk10开奖结果_jBUXGPC pk10开奖结果_B9u2P3E pk10开奖结果_QNre2g pk10开奖结果_Ud5S7 pk10开奖结果_3KTvYBw pk10开奖结果pk10开奖结果_vtHoY1 pk10开奖结果_UuZ1Dd pk10开奖结果_GP3Hq pk10开奖结果_tGc4L pk10开奖结果_SsoKq