
spider
coder_xiaozhao
一切都会好的,城南的花都会开的
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网络爬虫在抓取页面超时时候应该怎么处理?
我们可以设置一个超时时间,在发起请求的这个时间超过这个设置时间后抛出异常,我们对其进行处理 我在这里简单写一个 demo: from urllib import request from urllib import error import socket try: response = request.urlopen(url,timeout=0.01) except error.URL...原创 2018-10-13 17:45:13 · 3486 阅读 · 0 评论 -
怎么在知乎上爬取那些有趣并且有营养的问题?
我是个知乎粉,简直超级迷这款APP,在上面花费了好多时间,可以看好多有趣的问题,也能从中学习到好多有用的东西。 但有时候还是不过瘾,所以突发奇想,我想把我喜欢的问题的答案爬下来。 下面我把我的探索过程分享给大家,侵权即删!: 1.首先我是登陆的PC 端,仔细分析了页面,然后我发现了个 url很像返回的数据接口,我选取得是这个 url='https://www.zhihu.com/api/v...原创 2018-10-30 09:41:07 · 463 阅读 · 0 评论 -
迁移公司旧门户网站新闻到新的门户网站
年前接到的一个新需求,把公司旧门户网站的新闻迁移到新的门户网站上,我的公司的网址是 www.jylink.com 像这种好玩的事,怎么能少了我这种小机智,开始动手来做 我的目标是把从2012-2018年的公司的新闻存到数据库中.喏,就是这样的新闻,图片上有我们帅气的董事长 保存到如下两张数据表中: 先爬取每页的新闻列表保存到本地去 # 获取新闻列表并保存到本地 def g...原创 2019-02-04 16:20:27 · 679 阅读 · 0 评论