搜狗新闻语料库解析

本文介绍了如何处理搜狗新闻语料库的GBK编码问题,通过shell命令和Windows下分批转码解决乱码,并详细讲述了从.dat文件分割、转换到提取正文的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

搜集语料,考虑使用搜狗新闻语料库。但其采用了gbk编码,在ubuntu下打开为乱码,需要将编码格式转换为utf。
直接采用shell命令进行转码:

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>"  > a.txt

但得到的txt文件中会有些许乱码

想尝试在windows下打开(windows默认gbk编码格式)后转码保存,但文件解压后接近1.5G,记事本、写字板和word等都无法打开。又想直接使用转码工具进行转码,但文件是.dat格式,不能直接转码。

于是,先将.dat格式的文件分割为多个.txt文件,再使用小工具进行批量转码:

# -*- coding:utf8 -*- 
import re       
def split():
    p = re.compile('</doc>',re.S)
    end = '</doc>'
    fileContent = open('news_tensite_xml.dat','r').read();  #读文件内容
    paraList = p.split(fileContent)     #根据</doc>对文本进行切片
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值