
python爬虫
ymd8005
机器学习、数据挖掘
展开
-
爬虫资料
采集爬虫中,解决网站限制IP的问题:http://blog.youkuaiyun.com/wendi_0506/article/details/44017683原创 2016-05-17 17:57:20 · 339 阅读 · 0 评论 -
scrapy和request、bs4的比较区别
最近有人问我scrapy和request、bs4的比较,个人觉得是如下的:reuqest 和 bs4(BeautifulSoup4)scrapyrequest和bs类似于一个空的大房子,你需要什么搬什么进去scrapy类似于大房子已经建立好了多个功能房,你需要什么,直接进去各自的房间,找出那个功能就好了如果爬虫很大(要有日志模块,或者其他的小功能之类的),request和bs的大房子可能会乱七...原创 2018-06-20 17:40:30 · 6080 阅读 · 1 评论 -
scrapy爬虫下载文件、重命名文件
scrapy下载文件并重命名文件,python下载文件并重命名文件目标:下载网页 http://www.zimuku.cn/search?q=&t=onlyst&p=1 上的字幕文件设计:涉及scrapy的文件下载中间件扩展:下载图片也是同样的原理代码:如下(1)爬虫模块# coding:utf-8import sysimport urllibimport osreloa...原创 2018-02-26 11:26:25 · 7203 阅读 · 4 评论 -
pycharm误删文件或者代码,找回的方法,看以前的代码记录
pycharm误删文件或者代码,找回的方法原创 2017-10-16 16:20:35 · 17411 阅读 · 2 评论 -
python scrapy 爬虫ImportError: No module named items
python scrapy 爬虫ImportError: No module named items原创 2017-09-22 09:17:17 · 4363 阅读 · 0 评论 -
squid的代理服务软件
服务器开代理,自建代理池,用于爬虫原创 2017-02-15 09:24:56 · 471 阅读 · 0 评论 -
python当爬虫遇到了防盗链_之_天涯图片下载andweibo微博图片下载
python当爬虫遇到了防盗链_之_天涯图片下载原创 2016-11-22 15:32:02 · 3649 阅读 · 2 评论 -
python爬去搜狐论坛笔记
今天搞了半天才搞定搜狐的爬虫,坑还蛮多的。特意记下来,方便自己下次捡起来。首先是搜狐论坛每个板块的url不一样,不能直接在得到的 【a/@href 】 加前缀。后来找到了介个,我用的是python的scrapy框架,搜狐的论坛上,每一层楼的数据是用get的方式得到的,所以response.xpath('//table[@class="viewpost"]').ext原创 2016-08-26 16:30:50 · 824 阅读 · 0 评论 -
转载自火车头,爬虫的基础
1. html基础 了解网页的基本知识,帮助分析网页结构 http://www.w3school.com.cn/html/index.asp2. 正则表达式的使用 http://www.regexlab.com/zh/regref.htm3. Http协议的相关知识 Http请求抓包的方法 http://www.fiddler2.com/fiddler2/4. Access,Mysql转载 2016-09-23 15:26:50 · 1818 阅读 · 0 评论 -
SyntaxError: Non-ASCII character '\xe7' in file
# -*- encoding:utf-8 -*-原创 2016-09-19 17:13:21 · 1040 阅读 · 0 评论 -
python连接mysql处理数据pymysql模块的使用
import pymysqlimport resql = 'select * from st'conn = pymysql.connect(host="128.0.0.1", user="root", passwd="password", db="st",charset='utf8')cur = conn.cursor()try: cur.execute(sql) it原创 2016-09-18 10:43:00 · 479 阅读 · 0 评论 -
json.loads 把str转换为json
爬虫常用函数 json.loads()In[44]: jsonStrOut[44]: u'{"retcode":"0","uid":"12312312","nick":"\\u60xx\\u60xx\\u806xx","crossDomainUrlList":["https:\\/\\/passport.weibo.com\\/wbsso\\/login?","https:原创 2016-08-12 11:04:49 · 976 阅读 · 0 评论 -
w3lib.html remove_tags()函数 去除html的tags
from w3lib.html import remove_tags#去除html的标签,可用于爬虫处理htmlIn[32]: remove_tags(u'1000')Out[32]: u'1000'In[33]: remove_tags(u'€')Out[33]: u'€'In[34]: remove_tags(原创 2016-08-22 09:46:11 · 3770 阅读 · 0 评论 -
python 时间戳与时间之间的转换
time_list = {u"昨天":time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()-60*60*24)), u"前天":time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()-60*60*24*2)),原创 2016-08-09 16:33:44 · 1631 阅读 · 0 评论 -
scrapy crawl xxx 利用scrapy.shell.inspect_response 输出爬虫运行信息
在scrapy框架中利用inspect_response在cmd上进入shellimport scrapyfrom scrapy.shell import inspect_responseclass MySpider(scrapy.Spider): name = "example" start_urls = [ "http://example.org"原创 2016-08-18 16:56:29 · 1893 阅读 · 0 评论 -
scrapyd部署scrapy工程
scrapyd部署scrapy工程原创 2018-08-09 08:31:04 · 382 阅读 · 1 评论