目前网页正文提取有很多方法,本文是根据“基于统计的中文网页正文提取研究”这篇
论文提到的算法改编而来。希望有对此研究的同行一起来探讨附件中包括源码