开源项目“网页正文提取”的理解
目标1:下载测试Html2Article软件
(1)能够在自己电脑运行此程序。
(2)测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:
http://blog.youkuaiyun.com/quailquailquail/article/details/45821703
http://user.qzone.qq.com/303727350/blog/1430870007
http://www.cnblogs.com/jasondan/p/4145305.html
(3)自己在完成作业过程中的感受、体会、克服困难的过程。
以下是三个网页的截图与说明:
网页一:http://blog.youkuaiyun.com/quailquailquail/article/details/45821703
这三个截图代表的是不同的工作模式,正文文本,带标签文本,原始网页
网页二:http://www.cnblogs.com/jasondan/p/4145305.html
网页三http://user.qzone.qq.com/303727350/blog/1430870007
由于QQ空间代码本身的隐蔽性,提取不了正文,只能显示原始网页
一开始将程序下载回来的时候,程序报错缺少某个引用的文件,也是在课堂听课的时候才听老师提到是在某个文件夹里面。对项目的不熟悉会让我们走很多弯路,甚至会让你产生放弃的念头。但踩坑是我们不可避免的成长之路,正视前面的坑,这才能让你有所提升。