HTML在运用于web端,手机端越来越频繁。采用python等脚本语言,能够读取HTML代码。这里介绍采用java程序来读取HTML代码,由于java的通用性,可以很好的解析HTML中的数据,并存放到数据库中。读取网页中的HTML代码,见博客【JAVA】JAVA程序根据url请求网站HTML页面
【开发环境】
1.Eclipse ,JDK1.7,Windows。
2.第三方jar包,jsoup-1.8.2.jar。(MVN仓库,可以下载jar包)
3.源代码HtmlParser.java。
工程文件所在位置 git仓库
【开发流程】
1.通过Jsoup解析HTML的字符形式,生成Document类,该类具有一定的HTML文档格式;
2.Document通过select(String)方法或者getElementsByXxx(String)方法获取HTML标签,类型为Elements;
3..其中select方法中的String
如:<table id = "table1"></table> ,采用select(“#table1”)
&