HTML::Perser 简单实例

最新推荐文章于 2021-11-20 13:40:45 发布

转载最新推荐文章于 2021-11-20 13:40:45 发布 · 189 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://blog.51cto.com/jinpeng/489940

本文介绍使用Perl的HTML::Parser模块解析HTML文件的方法。通过具体示例展示了如何提取HTML链接及文本内容，适合初学者了解Perl在网页数据抓取中的应用。

原因：今天想做一个网站数据的摘取脚本，需要对html文件进行解析。这个功能原本是通过正则表达式来实现的，今天想使用perl模块方式已实现更好的可读性，也利于修改再使用。

CPAN上HTML解析的模块有很多，HTML::TreeBuilder，HTML::TreeBuilder::XPath， HTML::TableExtractHTML网上很多介绍。我今天就简单的介绍一下HTML:: Perser模块，

我也是研究阶段，不求讲的有多深刻，只希望对大家理解这个模块的使用上有帮助。当然举例一定能用。

先看实例：

#! /usr/local/bin/perl
use LWP::Simple;
use Data::Dumper;
use HTML::Parser;

my $content = <<EOHTML;
<A HREF="index.html">This is 1 link</A>
<A HREF="index.html">This is 2 link</A>
<A HREF="index.html">This is 3 link</A>
<A HREF="index.html">This is 4 link</A>
<A HREF="index.html">This is 5 link</A>
EOHTML

my $parser = HTML::Parser->new(
        api_version => 3,
        start_h =>[\&start,"tagname,attr"],
        text_h =>[\&text,"text"],
);

$parser->parse($content);
$parser->eof;

sub start{
my($tag,$attr) = @_;
};
sub text{
my($text) = @_;

print $text;
};

转载于:https://blog.51cto.com/jinpeng/489940

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34318956

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Meta-PerSER：让语音情绪识别“懂你的心”

帅小柏的博客

08-30

Meta-PerSER是语音情绪识别领域的一项重要进展。它首次实现了基于元学习的听众个性化情绪识别，解决了传统SER系统忽略个体差异的问题。通过结合预训练语音模型和多种优化策略，Meta-PerSER在极少量标注数据下仍能实现高性能表现。未来，Meta-PerSER有望在个性化语音助手、心理健康监测、客户体验优化等多个领域发挥重要作用。如果你对情绪识别、个性化AI、元学习感兴趣，Meta-PerSER无疑是一个值得关注的研究方向。

【搜索引擎】HtmlParser - org.htmlperser.Parser(1)

zgljl2012的专栏

02-09

1183

HtmlParser包里最重要的类Parser，下面是它的初始化（其中之一）以及初步应用，仅仅只是把目标网址里的文本内容提取出来： package ParserStudy; import org.htmlparser.Parser; import org.htmlparser.util.ParserException; import org.htmlparser.visitors.Text

参与评论您还未登录，请先登录后发表或查看评论

http_parser

weixin_30815469的博客

09-03

336

　　最近读了 http_parser的源码，记录下。　有意思的地方：　　　　1) 协议解析可以不完全解析完，但是当前 parser会记录解析状态，这样可以继续解析　　　　2) 协议解析首要还是要了解协议本身，我是边读源码边学协议，比较笨，解析的思想就是解析字符，记录当前解析状态，更新解析器的值　　　　3) parser是一次性的，数据转移或处理要解析器本...

body-parse的简单使用

热门推荐

周搏的博客

04-23

2万+

使用body-parser获取前端传送过来的数据首先第一步引入 const bodyParser = require('body-parser'); //对body-parser进行配置 app.use( bodyParser.urlencoded({extended: true}) ) //设置完毕之后，会在req对象上面新增一个req.body的一个对象再来说说node后台对这两种请求...

第四十六篇：MAC下使用 Node.js 实现一个 WebServer 服务器

青山绿水之辈专栏

09-08

5483

引序： Node.js 采用一系列“非阻塞”库来支持事件循环的方式。Node.js是一个服务器端 JavaScript 解释器 , 也就是说 Node.js 是一个支持 JavaScript 语法编写服务器代码的环境。 // 代码在 github 上的链接 QJWebServerDome 的 git 地址在这里在MAC下用命令安装 Node.js安装 Homebrew ruby -e

java使用htmlparser提取网页纯文本例子

茅坤宝骏氹的博客

06-14

2935

转载自 java使用htmlparser提取网页纯文本例子这篇文章主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下package com.test; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htm...

TensorFlow 2.0 模型：循环神经网络

weixin_40920183的博客

10-19

542

文 /李锡涵，Google Developers Expert本文节选自《简单粗暴 TensorFlow 2.0》上一篇文章中，我们介绍了在图像领域中广泛使用的卷积神经网络及其在 ...

http-server的简单使用

drawlessonsfrom的博客

11-20

7126

1. http-server 简介 http-server 是前端常使用的 http 服务器，非常实用。可以用做模拟数据，可以做静态资源服务器，也可以做调试、测试的前端服务器，可以不再依赖后端，同时也可以做代理转发等功能，解决平时开发的大部分后端需求。 http-server 是基于 node.js 的 http 服务器，它最大的好处就是可以使任意一个目录称为服务器的目录，完全抛开后台的沉重工程，直接运行想要的 js 代码。 2. http-server 使用场景在前端比较小型的项目中，若想要运

简单粗暴 TensorFlow（Xihan Li（雪麒））

CHEN_BR/BLOG

02-09

1523

简单粗暴TensorFlow | A Concise Handbook of TensorFlow 基于Eager Execution | Based on Eager Execution 在线阅读 | Read online : https://tf.wiki 备用地址 | Alternative URL：https://snowkylin.github.io/TensorFlow-cn/ 作者...

PyPI 官网下载 | asn1PERser-0.2.1-py3-none-any.whl

02-03

4. **易于使用**：通过简单的API，asn1PERser使得开发者可以快速地将asn.1数据结构集成到Python应用中，无需深入理解asn.1的复杂细节。 5. **兼容性**：asn1PERser-0.2.1-py3-none-any.whl表明它兼容Python 3.x版本...

PyPI官方最新Python库asn1PERser下载指南

资源摘要信息:"PyPI官网下载 | asn1PERser-0.2.1-py3-none-any.whl" 该文件是一个Python Wheel格式的安装包，文件名为asn1PERser-0.2.1-py3-none-any.whl。Wheel是Python的一种包安装格式，它以.zip压缩包的形式存在...

perser=argparse.ArgumentParser是什么意思

10-11

`parser=argparse.ArgumentParser` 是Python中用于处理命令行参数的一个常见语句，它通常出现在使用 argparse 库来构建命令行界面程序的情境中。`argparse` 是标准库的一部分，用于解析用户通过命令行提供的参数。...

body-parser 使用详解

u012732909的博客

08-18

9423

一、简介 github node.js body 解析中间件处理程序之前，在中间件中对传入的请求体进行解析（response body） body-parser 提供四种解析器 JSON body parser Raw body parser Text body parser URL-encoded form body parser 二、使用搭建一个简单的demo mkdir body-parser-demo cd body-parser-demo np...

美国职业棒球大联盟历史数据SQL数据库项目-19世纪至今的棒球比赛数据球队信息球员统计127个CSV文件相互关联-用于存储查询分析美国职业棒球大联盟从19世纪至今的完整历史数据支持.zip

09-10

fpga美国职业棒球大联盟历史数据SQL数据库项目_19世纪至今的棒球比赛数据球队信息球员统计127个CSV文件相互关联_用于存储查询分析美国职业棒球大联盟从19世纪至今的完整历史数据支持.zip

pyjson5-0.9.1-1.el8.tar.gz

09-10

# 适用操作系统：Centos8 #Step1、解压 tar -zxvf xxx.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

探寻数学活动经验的本质-助力学生深度学习.doc