用nekohtml来获取网页指定内容

用nekohtml来获取网页指定内容

下载地址 http://sourceforge.net/projects/nekohtml

package test;

import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.xml.sax.InputSource;

public class Test {
    
public static void main(String[] argv) throws Exception {
        //指定rul
        URL url = new URL(
                
"http://topic.youkuaiyun.com/u/20090521/11/db336c07-2dbc-4732-8229-cb99fcb9d10e.html");
       
        HttpURLConnection connection = (java.net.HttpURLConnection)url.openConnection();
        connection.connect();
        InputStream stream 
= connection.getInputStream();
        DOMParser parser 
= new DOMParser();
        //这行代码等同于html页面中的<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        parser.setProperty("http://cyberneko.org/html/properties/default-encoding","utf-8");
        parser.parse(
new InputSource(stream));
        Document doc 
= parser.getDocument();
        Node myNode
= doc.getElementById("reply57194353_body");
        print(myNode, 
"");
    } 

    
public static void print(Node node, String indent) {
        System.out.println(node.getTextContent());
    } 

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值