7 6小结
date: 2017-07-06 17:22:59
tags:爬虫 扯淡
今天下午收到一个不幸的消息:昨天虫子抓取的数据不完全,需要重新采集。这意味着:我需要返工,改代码,我了个大槽,多么麻烦的一件事。
奈何,收人钱财,替人办事,只能硬着头皮上。
采集数据不难,蛋疼的数据清洗,字符串的操作。数据的导出也是一个大问题,必须找到高效的算法以减少计算机资源的占用,不然写出的代码又长效率又低。
这两天get到一个新姿势,从网络上采集的文档可以直接把源代码存为word的doc文件。
举个栗子:
#-*-coding:utf-8-*-
import requests
from bs4 import BeautifulSoup
res = requests.get(url)#url 目标网址
soup = BeautifulSoup(res.content)
text = soup.find('div', id='article_body')#获取目标文件所在的标签
with open(file.doc, 'w') as f:
f.write(str(text))
'''就这样,将我们需要的文字内容转化成了word文档'''