程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行
实现以下功能:
1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨)
2.自动提取模板,同时可以人工修正(提供比较方便的编辑器)
3.自动标注语义(仅针对产品信息页面)
4.自动抽取数据,输出为xml文件
抽取系统图示:
模板编辑器图示:
介绍了一个基于Java6的网页信息自动抽取系统,该系统能够自动完成网页分类、模板提取及修正、语义标注和数据输出等功能,适用于产品信息页面的数据抽取。
程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行
实现以下功能:
1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨)
2.自动提取模板,同时可以人工修正(提供比较方便的编辑器)
3.自动标注语义(仅针对产品信息页面)
4.自动抽取数据,输出为xml文件
抽取系统图示:
模板编辑器图示:

被折叠的 条评论
为什么被折叠?