解析HTML。本例为找出一个html文本中的所有图片的地址。(即IMG标签中的src) |
子程序start中的 "$tag =~ /^img$/" 为过滤出img标签。 |
如果换为 "$tag =~ /^a$/" ,即是找出所有的链接地址。 |
详细的方法介绍,请见`perldoc HTML::Parser` |
QUOTE: |
#!/usr/bin/perl |
use LWP::Simple; |
use HTML::Parser; |
my $url = shift || "http://www.chinaunix.net" ; |
my $content = LWP::Simple::get ( $url ) or die ( "unknown url\n" ); |
my $parser = HTML::Parser->new ( |
start_h => [&start, "tagname, attr" ], |
); |
$parser ->parse ( $content ); |
exit 0; |
sub start |
{ |
my ( $tag , $attr , $dtext , $origtext ) = @_ ; |
if ( $tag =~ /^img$/ ) |
{ |
if ( defined $attr -> { 'src' } ) |
{ |
print "$attr->{'src'}\n" ; |
} |
} |
} |
by: 发表于:2017-09-11 11:51:26 顶(0) | 踩(0) 回复
??
回复评论