不错的技术网站

经典:

python分布式爬虫打造搜索引擎--------scrapy实现


http://www.cnblogs.com/jinxiao-pu/p/6706319.html



selenium+python+PhantomJS的使用

http://www.cnblogs.com/jinxiao-pu/p/6677782.html?utm_source=tuicool&utm_medium=referral




scrapy selenium phantomJS

http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment

http://blog.youkuaiyun.com/qq_30242609/article/details/70859891

phantomjs

http://www.tuicool.com/articles/beeMNj/

http://www.tuicool.com/articles/ARbmmam

http://www.tuicool.com/articles/Qzeiqi2

http://www.tuicool.com/topics/11060064


python scrapy imagespipelines 相关 


http://blog.youkuaiyun.com/qzc295919009/article/details/42680457

详细解说了imagespipelines相关函数

https://my.oschina.net/jastme/blog/280114


https://segmentfault.com/q/1010000000413334


http://www.cnblogs.com/Shirlies/p/4537931.html

用urllib.urlretrieve 的例子


Python 爬虫:用 Scrapy 框架实现漫画的爬取  http://www.jianshu.com/p/c1704b4dc04d


Scrapy爬取美女图片 简单有效的例子 imagespipelines
http://www.iot-online.com/analytics/2017/042664784.html


scrapy 下载图片 ImagesPipeline
http://m.blog.youkuaiyun.com/article/details?id=42680457

m.blog.youkuaiyun.com/article/details?id=53677516

http://www.cnblogs.com/tester-l/p/6064212.html






http://www.jianshu.com/p/8d65da080c47
Scrapy爬虫入门教程一 安装和基本使用
Scrapy爬虫入门教程二 官方提供Demo
Scrapy爬虫入门教程三 命令行工具介绍和示例
Scrapy爬虫入门教程四 Spider(爬虫)
Scrapy爬虫入门教程五 Selectors(选择器)
Scrapy爬虫入门教程六 Items(项目)
Scrapy爬虫入门教程七 Item Loaders(项目加载器)
Scrapy爬虫入门教程八 交互式 shell 方便调试
Scrapy爬虫入门教程九 Item Pipeline(项目管道)
Scrapy爬虫入门教程十 Feed exports(导出文件)
Scrapy爬虫入门教程十一 Request和Response(请求和响应)
Scrapy爬虫入门教程十二 Link Extractors(链接提取器)



Scrapy使用以及Xpath的一些坑, 再入剁手 http://www.cnblogs.com/Bright-Star/p/4163107.html?utm_source=tuicool&utm_medium=referral


1.李燕西的博客  http://blog.youkuaiyun.com/yancey_blog    关于scrapy的,有多个spider同时工作的

里面还有一个简单的数据库去重 或增量采集的思路 :http://blog.youkuaiyun.com/yancey_blog/article/details/53895821

使用scrapy爬取百度贴吧-上海吧: http://ucstudio.iteye.com/blog/2192574 



下载图片  scrapy  用 urllib.request.urlretrieve(url, filename = file ) www.tuicool.com/articles/bIBJnqu



网页爬虫--scrapy进阶 www.cnblogs.com/rubinorth/p/5963066.html

1.以使用twisted提供的数据库库来维护一个连接池:

 self.dbpool = adbapi.ConnectionPool('MySQLdb',.....)
2.每个spider不同设置。在spider中加入custom_settings即可覆盖settings.py中相应的设置,
这样的话在settings.py中只需要放一些公用的设置就行了。最常用的就是设置每个spider的pipeline。
3.pipeline中spider.name的应用。pipeline中的process_item中可以根据spider.name来对不同的item进行不同的处理。
def process_item(self, item, spider):
    if spider.name == 'a':
        ****
    if spider.name == 'b':
        ****



用Python爬取实习信息(Scrapy初体验)http://www.jianshu.com/p/35c0830448c2#

  采集水木社区的实习生信息 使用Selenium和Phantomjs的配合  比如适合入门.



Scrapy Pipeline之与数据库交互  http://blog.youkuaiyun.com/q_an1314/article/details/51208901?utm_source=tuicool&utm_medium=referral

关于self.dbpool = adbapi.ConnectionPool('MySQLdb'...)  相关的详解


Scrapy基础——CrawlSpider详解 http://www.jianshu.com/p/0f64297fc912

问题:CrawlSpider如何工作的?  问题:CrawlSpider如何获取rules?  有callback的是由指定的函数处理,没有callback的是由哪个函数处理的?


Scrapy爬虫实例教程(二)---数据存入MySQL http://www.cnblogs.com/mchen/p/5581333.html?utm_source=tuicool&utm_medium=referral

self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)


根据Excel文件配置运行多个爬虫  http://www.cnblogs.com/kylinlin/p/5404403.html?utm_source=tuicool&utm_medium=referral

很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。

由于我们并不能提前知道URL,所以要从spider中移除start_urls和allowed_domains部分,使用start_requests()方法,对于csv文件中的每一行都产生一个Request对象,并且将字段名和Xpath表达式放入参数request.mate中,传递到parse函数



scrapy爬虫成长日记之将抓取内容写入mysql数据库  www.cnblogs.com/rwxwsblog/p/4572367.html

class MySQLStoreCnblogsPipeline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool
    
    @classmethod
    def from_settings(cls, settings):
        dbargs = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DBNAME'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset='utf8',
            cursorclass = MySQLdb.cursors.DictCursor,
            use_unicode= True,
        )
        dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)
        return cls(dbpool)

    #pipeline默认调用
    def process_item(self, item, spider):
        d = self.dbpool.runInteraction(self._do_upinsert, item, spider)
        d.addErrback(self._handle_error, item, spider)
        d.addBoth(lambda _: item)
        return d
    #将每行更新或写入数据库中


同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)  http://www.cnblogs.com/rwxwsblog/p/4578764.html?utm_source=tuicool&utm_medium=referral



Python爬虫实战-使用Scrapy框架爬取土巴兔 http://www.jianshu.com/p/5355b467d414


  有python 操作mysql  python遇见数据采集 http://www.imooc.com/learn/712



python操作mysql http://www.cnblogs.com/wt11/p/6141225.html


一个技术人员python 的小站: http://www.liuyu.live/


防止爬虫被ban  http://www.jianshu.com/p/e577194e3216

Python爬虫框架Scrapy学习笔记




基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL   http://blog.youkuaiyun.com/zengsl233/article/details/52294760


scrapy 爬取百度知道,多spider子一个项目中,使用一个pielines   https://yq.aliyun.com/articles/69903?spm=5176.100240.searchblog.172.kRZPMN




scrapy 资料1  http://blog.youkuaiyun.com/elecjack/article/category/6108703



Python 操作 MySQL 的正确姿势  https://www.qcloud.com/community/article/687813?fromSource=gwzcw.97898.97898.97898


Scrapy 爬虫框架入门案例详解  https://www.qcloud.com/community/article/592498?fromSource=gwzcw.106916.106916.106916




python中如何用正则表达式匹配汉字


由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。
   参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html
          http://topic.youkuaiyun.com/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html

    首先,确保所有编码都为 unicode
         比如 str.decode('utf8') #从utf8文本中
              u"啊l"  #在控制台输出中    
         (罗嗦下)本想使用参考一定编码 Hex 但郁闷的是 这每个字好像占2个位置,使用正则匹配无果。
    其次,确定中文范围 : [\u4e00-\u9fa5]
          (这里注意下 python 的re写的时候) 要  u"[\u4e00-\u9fa5]" #确定正则表达式也是 unicode 的
    demo :
    

>>>   print  re.match(ur " [\u4e00-\u9fa5]+ " , " " )
None
>>>   print  re.match(ur " [\u4e00-\u9fa5]+ " ,u " " )
< _sre.SRE_Match object at  0x2a98981308 >


>>>   print  re.match(ur " [\u4e00-\u9fa5]+ " ,u " t " )
None


>>>   print  tt
现在才明白
>>>  tt
' \xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd '
>>>   print  re.match(r " [\u4e00-\u9fa5] " ,tt.decode( ' utf8 ' ))
None
>>>   print  re.match(ur " [\u4e00-\u9fa5] " ,tt.decode( ' utf8 ' ))
< _sre.SRE_Match object at  0x2a955d9c60 >


>>>   print  re.match(ur " .*[ " u4e00 - " u9fa5]+ " ,u " hi,匹配到了 " )
< _sre.SRE_Match object at  0x2a955d9c60 >
>>>   print  re.match(ur " .*[ " u4e00 - " u9fa5]+ " ,u " hi,no no " )
None
       


里面有一个域名是数据id的排序思路不错:http://www.cnblogs.com/threemore/p/5578372.html



其他 扩充 范围 (转)
这里是几个主要非英文语系字符范围(google上找到的):
2E80 ~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400 ~4DFFh:中日韩认同表意文字扩充A区,总计收容6 , 582个中日韩汉字。
4E00 ~9FFFh:中日韩认同表意文字区,总计收容20 , 902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。
比如需要匹配所有中日韩非符号字符
, 那么正则表达式应该是^ [ \u3400-\u9FFF ] +$
理论上没错
,  可是我到msn.co.ko随便复制了个韩文下来 ,  发现根本不对 ,  诡异
再到msn.co.jp复制了个’お’
,  也不得行..
然后把范围扩大到^
[ \u2E80-\u9FFF ] +$ ,  这样倒是都通过了 ,  这个应该就是匹配中日韩文字的正则表达式了 ,  包括我們臺灣省還在盲目使用的繁體中文
而关于中文的正则表达式
,  应该是^ [ \u4E00-\u9FFF ] +$ ,  和论坛里常被人提起的^ [ \u4E00-\u9FA5 ] +$很接近
需要注意的是论坛里说的^
[ \u4E00-\u9FA5 ] +$这是专门用于匹配简体中文的正则表达式 ,  实际上繁体字也在里面 ,  我用测试器测试了下’中華人民共和國’ ,  也通过了 ,  当然 ,  ^ [ \u4E00-\u9FFF ] +$也是一样的结果。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值