利用Perl解析XML文件 [转]

   2023-02-09 学习力0
核心提示:  当在Perl中使用XML时,你会有将近五百个CPAN模块可以选择,每一个都支持整合Web服务的不同方面。此外,Perl的核心库包括多个支持XML的模块。这篇文章就关注于一个最早期且涉及最频繁的核心模块:XML::Parser.  XML::解析器系列  最初的Perl解析器XML:

  当在Perl中使用XML时,你会有将近五百个CPAN模块可以选择,每一个都支持整合Web服务的不同方面。此外,Perl的核心库包括多个支持XML的模块。这篇文章就关注于一个最早期且涉及最频繁的核心模块:XML::Parser.

  XML::解析器系列

  最初的Perl解析器XML::Parser::Expat由Larry Wall在几年前编写并由Clark Cooper保持延续。模块作为Expat XML parser的界面由James Clark用C语言编写且已经被一些脚本语言所采用。

  Expat是一个以事件为基础的解析器,意味着特定条件触发处理功能。例如,一个开始或结尾标记将触发适当的用户定义子程序。XML::Parser模块在Expat功能的基础上为普通应用所建构。

  注意Expat在解析之前不会使XML生效且在遇到错误出现时会失效。这些限制会使XML::Parser模块速度非常之快。

  XML::Parser简介

  任何人都可以在Perl中编写一个XML解析器。毕竟你只是处理具有已知格式的文本。但由于XML::Parser模块是用C编写的,他比任何你可以实现的纯Perl应用要更有效的多。而且既然他已经被编写出来,你就可以把时间花在其他更有用的事情上。

  XML::Parser的Expat的功能允许你定义所使用的解析器的样式。最普遍使用的样式是Tree和Stream,Tree处理XML的输入,创建含有文件中的元素和数据的成套数组,这样你就可以按照你的意愿控制这个结构。Stream将分析行为划分层级,在一个事件的开始做处理,要使用Stream,你必须在你对模块做例示并将其与描述事件出现时如何处理的子程序相关联时定义处理器。

  其它样式还包括:Sub,允许你特定地对一种XML标记定义其功能。Debug,将文件显示未标准输出。Object,与Tree相似但是返回对象。你也可以通过在XML::Parser类中定义一个子类来设定一个客制样式。

  这个例子中,我将使用XML::Parser类来创建一个Stream解析。我将带出一个将XML文件解析为标准输出的简单脚本程序,你可以在表A中看到脚本程序(xmlparse.pl),在表B中看到XML文件(data.xml)。这里,由于这是一个命令行脚本,我选择不解析URL元素。要执行这个脚本程序,在命令提示下,键入:

  perl xmlparse.pl data.xml

  脚本先参照适当的模块:

  use XML::Parser;

  接着,从命令提示输入抓取文件:

  my $xmlfile = shift;die "Cannot find file \"$xmlfile\""

  unless -f $xmlfile;

  脚本设置一些初始变量:

  $count = 0;$tag = "";

  然后是创建解析器实例:

  my $parser = new XML::Parser;

  现在我们定义事件处理器。我设置了开始标记,结束标记,特性数据的处理器。而仅仅因为是例子,我还加入了一个缺省处理器,它将对全部进行解析而不被其他事件处理器的定义所明显覆盖。如果你计划丢弃额外数据,缺省处理器将自动执行而不需要定义。
$parser->setHandlers( Start => \&startElement,

  End => \&endElement,

  Char => \&characterData,

  Default => \&default);
脚本的主要部分通过指示解析器实例而变得紧凑来通过XML数据文件:

  $parser->parsefile($xmlfile);

  剩下的就是定义在每个事件情况下如何进行处理。

  当脚本程序遇到一个开始标记时将执行这个子程序,这在上面的setHandlers方式中进行了定义。我选择跳过去并显示每个元素中我感兴趣的文本。

  接下来我定义的变量自动地被XML::Parser模块所传递。对于开始标记处理器,这些变量代表解析器实例,标记名和标记可能会有的属性数组。如果标记没有属性,则一个空数组将被传递至子程序。
sub startElement {

  my( $parseinst, $element, %attrs ) = @_;

  SWITCH: {

  if ($element eq "article") {

  $count++;

  $tag = "article";

  print "Article $count:\n";

  last SWITCH;

  }

  if ($element eq "title") {

  print "Title: ";

  $tag = "title";

  last SWITCH;

  }

  if ($element eq "summary") {

  print "Summary: ";

  $tag = "summary";

  last SWITCH;

  }

  }}
在XML数据文件中遇到一个结束标记,endElement子程序就会被调用。这里,我要提供一些线中断。在这里被XML::Parser所传递的变量是解析器实例和标记名称。
sub endElement {

  my( $parseinst, $element ) = @_;

  if ($element eq "article") {

  print "\n\n";

  } elsif ($element eq "title") {

  print "\n";

  }}
由于我们处在命令行,我使用特性数据处理器来去掉可能已经包括在XML数据文件中的任一行和标签格式并选择显示内容(如果他来自一个标题或摘要标记)。
sub characterData {

  my( $parseinst, $data ) = @_;

  if (($tag eq "title") || ($tag eq "summary")) {

  $data =~ s/\n|\t//g;

  print "$data";

  }}
最后,我定义了一个子程序来处理所有可能遇到的其它类型的元素。其中包括特性编码定义,文件类型定义和评注。所有不被开始标记,结束标记和特性数据事件处理器所明确覆盖的都包括在这里面。
sub default {

  my( $parseinst, $data ) = @_;

  # you could do something here}

  小结

  你对XML::Parser的Expat功能熟悉之后,你可以将其作为接触几百个可用的CPAN XML模块的跳板。我们这里的Stream样式是唯一一个可用的XML::Parser模块中的解析类型。你可能会发现其他的会更适合你的工作任务。Perl几乎从第一个工程方案推出时就具有XML功能,不论你的需要如何,他都是一个很好的选择。

 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • Linux下安装Perl和Perl的DBI模块
    今天在虚拟机测试shell脚本的时候,有些命令使用不了。比如说 mysqlhotcopy ,它提示Perl的版本太低。我用的 RedHat9 的Perl才5.8.0版本。。。(2002年以前的)严重过时。所以重新安装了新版本的 Perl,过程记录如下: 1、在官方网站下载新版本的源码包:http:
    03-16
  • Perl 与Form
    说明事项: 這個範例用來說明如何經由網頁上的HTML form 表單元件來呼叫伺服器端的perl 程式。这个范例用来说明如何经由网页上的HTML form 表单元件来呼叫伺服器端的perl 程式。首先在網頁上設計表單元件,這個範例是設計一個按鈕,其原始碼如下:首先在网页
    02-10
  • Perl学习 perl培训
    http://www.sun126.com/perl5/perl5-1.htm翻译: flamephoenix 第一章 概述一、Perl是什么?二、Perl在哪里?三、运行四、注释一、Perl是什么?  Perl是Practical Extraction and Report Language的缩写,它是由Larry Wall设计的,并由他不断更新和维护,用
    02-10
  • - calm_水手">Perl中的箭头符-> - calm_水手
    Perl中的箭头符-2012-05-21 17:14 calm_水手 阅读(623) 评论(0) 编辑 收藏 举报  有两种用法,都和解引用有关。第一种用法,就是解引用。根据 - 后面跟的符号的不同,解不同类型的引用,-[] 表示解数组引用,-{} 表示解散列引用,-() 表示解子程序引
    02-09
  • Regex in Perl
    Regex in Perl
    regex literal   代表正则文字, 就是 m/regex/ 部分中的 regex, 这部分有自己的解析规则. 用 Perl 的行话就是 "表示正则含义的双引号字符串(regx-aware double-quoted string)", 及处理后传递给正则引擎的结果. 正则文字支持的特性:  1. 变量插值.    
    02-09
  • perl脚本语言学习 perl脚本调用perl脚本
    来公司的第二个星期便看了一下perl语言,发现掌握一门脚本语言还是非常有用的。到现在为止已经入职两个月,用perl脚本做了这些活:1. 修改了公司的一个爬取网页源代码的脚本2. 改进了一个出特征库的脚本,根据svn status的状态,来优化,将只需要添加的DB的数
    02-09
  • Perl模块的安装方法 perl 安装模块
    1. 下载离线安装包 *.tar.gz的形式解包后,#perl Makefile.PL#make#make install2. 在联网的情况下,通过CPAN安装# perl -MCPAN -e shellcpan install PAR::Packer 
    02-09
  • Perl像C一样强大,像awk、sed等脚本描述语言一
    Perl是由Larry Wall设计的,并由他不断更新和维护的编程语言。Perl具有高级语言(如C)的强大能力和灵活性。事实上,你将看到,它的许多特性是从C语言中借用来的。Perl与 脚本语言一样,Perl不需要编译器和链接器来运行代码,你要做的只是写出程序并告诉Perl
    02-09
  • 27-Perl 进程管理
    1.Perl 进程管理Perl 中你可以以不同的方法来创建进程。本教程将讨论一些进程的管理方法。你可以使用特殊变量 $$ 或 $PROCESS_ID 来获取进程 ID。%ENV 哈希存放了父进程,也就是shell中的环境变量,在Perl中可以修改这些变量。exit() 通常用于退出子进程,主
    02-09
  • 在perl中简单的正则匹配 正则匹配或的使用
    (一)、在perl中关于元字符的匹配元字符代表含义点号( .)匹配处换行符以外的任何单字符星号(*)匹配前面的内容零次或多次反斜线屏蔽元字符的特殊含义。\\代表\,\.匹配点号.*匹配所有的字符串加号(+)匹配前一个条目一次以上问号(?)表示前面一个条目可
    02-09
点击排行