使用pandas读取文件并加工成DataFrame

数据来源,搜狗实验室新闻数据

http://www.sogou.com/labs/resource/ca.php

import pandas as pd
news = pd.read_csv('news.csv',header = None,encoding = 'GB18030')
# 分别读取url,content,contenttitle内容
url = []
content = []
contenttitle = []
# 遍历所有行第0列,拿到数据加入对应的列表
for i in range(news.shape[0]):
    if '<contenttitle>' in news[0][i]:
        contenttitle.append(news[0][i])
    if '<url>' in news[0][i]:
        url.append(news[0][i])
    if '<content>' in news[0][i]:
        content.append(news[0][i])
# 去掉前后标签
new_contenttitle = []
new_content = []
new_url = []
for i in range(len(url)):
    new_contenttitle.append(contenttitle[i].split('>')[1].split('<')[0])
    new_url.append(url[i].split('>')[1].split('<')[0])
    new_content.append(content[i].split('>')[1].split('<')[0])
new_news = pd.DataFrame({'url':new_url,'contenttitle':new_contenttitle,'content':new_content})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值