有时候发现自己兴趣挺广的,编程,设计,图像处理视频分析,模式识别,文本分析之类,都有点兴趣。看这篇文章
http://blog.youkuaiyun.com/lanphaday/archive/2007/08/13/1741185.aspx, 这个想法确实不错:使用文本和HTML代码的密度来决定一行文件是否应该输出,如果选取的内容是正文,那么其中的HTML标签肯定不高。挺有意思的,有时间可以试试这个想法,做一下网页提纯的实验。
网页提纯
最新推荐文章于 2025-04-10 14:51:08 发布