文章标题

最新推荐文章于 2025-11-29 14:22:41 发布

原创最新推荐文章于 2025-11-29 14:22:41 发布 · 289 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机 #数据 #爬虫

扯淡同时被 2 个专栏收录

1 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

7 6小结

date: 2017-07-06 17:22:59
tags:爬虫扯淡

今天下午收到一个不幸的消息：昨天虫子抓取的数据不完全，需要重新采集。这意味着：我需要返工，改代码，我了个大槽，多么麻烦的一件事。
奈何，收人钱财，替人办事，只能硬着头皮上。
采集数据不难，蛋疼的数据清洗，字符串的操作。数据的导出也是一个大问题，必须找到高效的算法以减少计算机资源的占用，不然写出的代码又长效率又低。
这两天get到一个新姿势，从网络上采集的文档可以直接把源代码存为word的doc文件。
举个栗子：

#-*-coding:utf-8-*-
import requests
from bs4 import BeautifulSoup
res = requests.get(url)#url 目标网址
soup = BeautifulSoup(res.content)
text = soup.find('div', id='article_body')#获取目标文件所在的标签
with open(file.doc, 'w') as f:
    f.write(str(text))
    '''就这样，将我们需要的文字内容转化成了word文档'''