用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - perl代码库

HTML::Parser

2012-10-18 作者: 神马举报

[perl]代码库

解析HTML。本例为找出一个html文本中的所有图片的地址。(即IMG标签中的src)

子程序start中的"$tag =~ /^img$/"为过滤出img标签。
如果换为"$tag =~ /^a$/",即是找出所有的链接地址。

详细的方法介绍,请见`perldoc HTML::Parser`



QUOTE:
#!/usr/bin/perl

use LWP::Simple;
use HTML::Parser;

my $url = shift || "http://www.chinaunix.net";
my $content = LWP::Simple::get ( $url ) or die ( "unknown url\n" );

my $parser = HTML::Parser->new (
                 start_h => [&start, "tagname, attr"],
             );

$parser->parse ( $content );
exit 0;

sub start
{
	my ( $tag, $attr, $dtext, $origtext ) = @_;
	if ( $tag =~ /^img$/ )
	{
		if ( defined $attr-> {'src'} )
		{
			print "$attr->{'src'}\n";
		}
	}
}


网友评论    (发表评论)

共1 条评论 1/1页

发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...