
数据处理
TtingZh
这个作者很懒,什么都没留下…
展开
-
将txt格式文件转换为csv格式文件
#-*-coding:utf-8 -*-import csvwith open('file.csv', 'w+',newline='') as csvfile: spamwriter = csv.writer(csvfile, dialect='excel') # 读要转换的txt文件,文件每行各词间以@@@字符分隔 with open('1.txt', 'r',e...原创 2018-10-21 15:18:04 · 12812 阅读 · 2 评论 -
python解析XML,提取标签内容
import xml.dom.minidom as xmldomimport osxml_filepath = os.path.abspath("./originalData/train.xml")# xml_filepath=os.path.abspath("V5-13.xml")# 得到文件对象dom_obj = xmldom.parse(xml_filepath)# 得到元...原创 2018-10-25 10:37:49 · 26250 阅读 · 1 评论 -
python正则表达式处理文本内容
import reres = [ re.compile(r'<[^>]+>',re.S), re.compile(r'\&[a-zA-Z]+;',re.S), re.compile(r'\n|\t',re.S), re.compile(r'\[|\]|\(|\)',re.S), # r...原创 2018-10-25 11:34:09 · 8366 阅读 · 1 评论 -
python对txt文档内容去除重复行
import shutilreadPath='cnews.test1.txt'writePath='cnews.test2.txt'lines_seen=set()outfiile=open(writePath,'a+',encoding='utf-8')f=open(readPath,'r',encoding='utf-8')for line in f: if line n...原创 2018-10-25 11:37:49 · 15951 阅读 · 6 评论 -
更改文件后缀,将txt转换成xml格式文件
import osfiles = os.listdir("D:\\JustForNLP\\script\\contentAll")#列出当前目录下所有的文件# D:\JustForNLP\script\contentAllfor filename in files: portion = os.path.splitext(filename)#分离文件名字和后缀 print(...原创 2018-10-25 14:10:51 · 8047 阅读 · 4 评论 -
将一个txt中的数据根据标签进行分类输出到多个txt中
with open('weibo_test.txt', 'r', encoding='utf-8') as f: raw_data=f.readlines() for line in raw_data: label=line.split('\t')[0] content=line.split('\t')[1] # 1 ...原创 2018-10-25 14:16:58 · 650 阅读 · 0 评论 -
多个txt文件合并
import osroot='./jointFile'filelist=os.listdir('./jointFile')print(filelist)with open('all.txt','a+',encoding='utf-8') as newfile: for file in filelist: print(file) txt=open(o...原创 2018-10-25 14:17:47 · 1352 阅读 · 0 评论 -
读取excel中的数据到txt中
import openpyxlwb=openpyxl.load_workbook('fear2Expand.xlsx') #打开excel文件# sheet=wb.get_sheet_by_name('Sheet3') #获取工作表sheet=wb["sheet1"]for i in range(1,260,1): text=sheet.cell(row=i,column=...原创 2018-10-25 14:22:44 · 1147 阅读 · 0 评论