如果我们不能够很好的把握htmlparser解析出来的页面结果的话,我们就不能很好的从页面中解析出我们想要的内容。那么怎么才能更清楚的知道htmlparser解析出来的页面的结构呢?
大家都知道htmlparser是将页面按照标签解析成树型结构,如果我们能看到这个树型结构的具体情况,我们就对其解析的内容和结构了如指掌了。那么怎样才能看到这个树呢?当然我们可以将其输出,但是我个人感觉这个办法不是很清晰。而我采用下面的方法。
我采用的是借助程序调试功能来查看解析的树的结构和内容。具体说就是先编写好一段用htmlparser解析要获取信息的代码,代码中要得到nodelist。然后在调试模式下运行程序,查看nodelist的结构和内容,而且可以查看字节点,如果存在,还可以查看字节点的字节点(如下图)······直到找到您要找的内容。

找到后记住节点的层次关系和节点的索引,在代码中就可以用getChildren(),elementAt()等方法访问要找的节点。
大家都知道htmlparser是将页面按照标签解析成树型结构,如果我们能看到这个树型结构的具体情况,我们就对其解析的内容和结构了如指掌了。那么怎样才能看到这个树呢?当然我们可以将其输出,但是我个人感觉这个办法不是很清晰。而我采用下面的方法。
我采用的是借助程序调试功能来查看解析的树的结构和内容。具体说就是先编写好一段用htmlparser解析要获取信息的代码,代码中要得到nodelist。然后在调试模式下运行程序,查看nodelist的结构和内容,而且可以查看字节点,如果存在,还可以查看字节点的字节点(如下图)······直到找到您要找的内容。

找到后记住节点的层次关系和节点的索引,在代码中就可以用getChildren(),elementAt()等方法访问要找的节点。
对事物的认知,要努力发现其本质。