《C#程序设计》第五次作业

本文记录了使用Html2Article软件从不同类型的网页中提取正文的过程。通过测试三个具有代表性的网页,探讨了该软件的提取效果及适用范围。特别地,对于QQ空间这类特殊网页的处理进行了说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开源项目“网页正文提取”的理解

目标1:下载测试Html2Article软件

(1)能够在自己电脑运行此程序。

(2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中: 
             http://blog.youkuaiyun.com/quailquailquail/article/details/45821703
             http://user.qzone.qq.com/303727350/blog/1430870007
             http://www.cnblogs.com/jasondan/p/4145305.html

(3)自己在完成作业过程中的感受、体会、克服困难的过程。


以下是三个网页的截图与说明:

网页一:http://blog.youkuaiyun.com/quailquailquail/article/details/45821703


这三个截图代表的是不同的工作模式,正文文本,带标签文本,原始网页


网页二:http://www.cnblogs.com/jasondan/p/4145305.html




网页三http://user.qzone.qq.com/303727350/blog/1430870007



由于QQ空间代码本身的隐蔽性,提取不了正文,只能显示原始网页



一开始将程序下载回来的时候,程序报错缺少某个引用的文件,也是在课堂听课的时候才听老师提到是在某个文件夹里面。对项目的不熟悉会让我们走很多弯路,甚至会让你产生放弃的念头。但踩坑是我们不可避免的成长之路,正视前面的坑,这才能让你有所提升。








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值