文章标题

7 6小结

date: 2017-07-06 17:22:59
tags:爬虫 扯淡

今天下午收到一个不幸的消息:昨天虫子抓取的数据不完全,需要重新采集。这意味着:我需要返工,改代码,我了个大槽,多么麻烦的一件事。
奈何,收人钱财,替人办事,只能硬着头皮上。
采集数据不难,蛋疼的数据清洗,字符串的操作。数据的导出也是一个大问题,必须找到高效的算法以减少计算机资源的占用,不然写出的代码又长效率又低。
这两天get到一个新姿势,从网络上采集的文档可以直接把源代码存为word的doc文件。
举个栗子:

#-*-coding:utf-8-*-
import requests
from bs4 import BeautifulSoup
res = requests.get(url)#url 目标网址
soup = BeautifulSoup(res.content)
text = soup.find('div', id='article_body')#获取目标文件所在的标签
with open(file.doc, 'w') as f:
    f.write(str(text))
    '''就这样,将我们需要的文字内容转化成了word文档'''
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值