java 网页读取与存储

该博客介绍了如何使用Java从http://www.sina.com.cn读取网页内容,并以UTF-8编码将其输出到文件中,避免了由于不指定编码导致的中文乱码问题。

读入 http://www.sina.com.cn 网页的内容,并以可读形式将其输出到一个文件中去

import java.io.*;
import java.net.URL;

/**
 * Created by Wu on 2017/4/17.
 */
public class ReadURL {
    public static void main(String args[]) throws Exception{
        URL u = new URL("http://www.sina.com");
        InputStream is = u.openStream();
        is = new BufferedInputStream(is);
        Reader r = new InputStreamReader(is,"UTF-8");
        FileOutputStream fos = new FileOutputStream("./sina.html");
        OutputStreamWriter writer = new OutputStreamWriter(fos,"UTF-8");
        int c = 0;
        while((c = r.read())!=-1){
            writer.write(c);
        }
        writer.close();
    }
}

创建一个新浪url的InputStream类 is,再创建一个InputStreamReader r读取 is,此时注意要传入编码参数UTF-8,因为若是使用默认编码参数,会自动使用系统的编码方式。下图可以发现电脑的默认编码方式为GBK。(IntelliJ IDEA在settings->Editor->File Encodings 中查看)


因为网页的编码格式是UTF-8,所以若是不穿参的话会导致网页中文乱码。之后再创建FileOutputStream类和OutputWriter将网页写入文件。运行程序我们可得如下结果


打开此url

并未出现中文乱码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值