不错的技术网站_wolframe 网站爬取-优快云博客

http://www.jianshu.com/p/8d65da080c47
Scrapy爬虫入门教程一安装和基本使用
Scrapy爬虫入门教程二官方提供Demo
Scrapy爬虫入门教程三命令行工具介绍和示例
Scrapy爬虫入门教程四 Spider（爬虫）
Scrapy爬虫入门教程五 Selectors（选择器）
Scrapy爬虫入门教程六 Items（项目）
Scrapy爬虫入门教程七 Item Loaders（项目加载器）
Scrapy爬虫入门教程八交互式 shell 方便调试
Scrapy爬虫入门教程九 Item Pipeline（项目管道）
Scrapy爬虫入门教程十 Feed exports（导出文件）
Scrapy爬虫入门教程十一 Request和Response（请求和响应）
Scrapy爬虫入门教程十二 Link Extractors（链接提取器）

Scrapy使用以及Xpath的一些坑, 再入剁手 http://www.cnblogs.com/Bright-Star/p/4163107.html?utm_source=tuicool&utm_medium=referral

1.李燕西的博客 http://blog.youkuaiyun.com/yancey_blog 关于scrapy的，有多个spider同时工作的

里面还有一个简单的数据库去重　或增量采集的思路　：http://blog.youkuaiyun.com/yancey_blog/article/details/53895821

使用scrapy爬取百度贴吧-上海吧： http://ucstudio.iteye.com/blog/2192574

下载图片　 scrapy 用　urllib.request.urlretrieve(url, filename = file ) www.tuicool.com/articles/bIBJnqu

网页爬虫--scrapy进阶 www.cnblogs.com/rubinorth/p/5963066.html

1.以使用twisted提供的数据库库来维护一个连接池：

 self.dbpool = adbapi.ConnectionPool('MySQLdb',.....)
2.每个spider不同设置。在spider中加入custom_settings即可覆盖settings.py中相应的设置，
这样的话在settings.py中只需要放一些公用的设置就行了。最常用的就是设置每个spider的pipeline。
3.pipeline中spider.name的应用。pipeline中的process_item中可以根据spider.name来对不同的item进行不同的处理。
def process_item(self, item, spider):
    if spider.name == 'a':
        ****
    if spider.name == 'b':
        ****

用Python爬取实习信息（Scrapy初体验）http://www.jianshu.com/p/35c0830448c2#

　　采集水木社区的实习生信息　使用Selenium和Phantomjs的配合　　比如适合入门．

Scrapy Pipeline之与数据库交互　　http://blog.youkuaiyun.com/q_an1314/article/details/51208901?utm_source=tuicool&utm_medium=referral

关于self.dbpool = adbapi.ConnectionPool('MySQLdb'．．．) 相关的详解

Scrapy基础——CrawlSpider详解　http://www.jianshu.com/p/0f64297fc912

问题：CrawlSpider如何工作的？　　问题：CrawlSpider如何获取rules？　　有callback的是由指定的函数处理，没有callback的是由哪个函数处理的？

Scrapy爬虫实例教程（二）---数据存入MySQL　http://www.cnblogs.com/mchen/p/5581333.html?utm_source=tuicool&utm_medium=referral

self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)

根据Excel文件配置运行多个爬虫 http://www.cnblogs.com/kylinlin/p/5404403.html?utm_source=tuicool&utm_medium=referral

很多时候，我们都需要为每一个单独的网站编写一个爬虫，但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同，此时要分别为每一个网站编写一个爬虫就显得徒劳了，其实可以只使用一个spider就爬取这些相似的网站。

由于我们并不能提前知道URL，所以要从spider中移除start_urls和allowed_domains部分，使用start_requests()方法，对于csv文件中的每一行都产生一个Request对象，并且将字段名和Xpath表达式放入参数request.mate中，传递到parse函数

scrapy爬虫成长日记之将抓取内容写入mysql数据库 www.cnblogs.com/rwxwsblog/p/4572367.html

class MySQLStoreCnblogsPipeline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool
    
    @classmethod
    def from_settings(cls, settings):
        dbargs = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DBNAME'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset='utf8',
            cursorclass = MySQLdb.cursors.DictCursor,
            use_unicode= True,
        )
        dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)
        return cls(dbpool)

    #pipeline默认调用
    def process_item(self, item, spider):
        d = self.dbpool.runInteraction(self._do_upinsert, item, spider)
        d.addErrback(self._handle_error, item, spider)
        d.addBoth(lambda _: item)
        return d
    #将每行更新或写入数据库中

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令） http://www.cnblogs.com/rwxwsblog/p/4578764.html?utm_source=tuicool&utm_medium=referral

Python爬虫实战-使用Scrapy框架爬取土巴兔 http://www.jianshu.com/p/5355b467d414

　　有python 操作mysql python遇见数据采集　http://www.imooc.com/learn/712

python操作mysql http://www.cnblogs.com/wt11/p/6141225.html

一个技术人员python 的小站： http://www.liuyu.live/

防止爬虫被ban http://www.jianshu.com/p/e577194e3216

Python爬虫框架Scrapy学习笔记

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL http://blog.youkuaiyun.com/zengsl233/article/details/52294760

scrapy 爬取百度知道，多spider子一个项目中，使用一个pielines https://yq.aliyun.com/articles/69903?spm=5176.100240.searchblog.172.kRZPMN

scrapy 资料1 http://blog.youkuaiyun.com/elecjack/article/category/6108703

Python 操作 MySQL 的正确姿势 https://www.qcloud.com/community/article/687813?fromSource=gwzcw.97898.97898.97898

Scrapy 爬虫框架入门案例详解 https://www.qcloud.com/community/article/592498?fromSource=gwzcw.106916.106916.106916

python中如何用正则表达式匹配汉字

由于需求原因，需要匹配提取中文，大量google下，并没有我需要的。花了一个小时大概测试，此utf8中文通过，特留文。
   参考： http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html
          http://topic.youkuaiyun.com/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html

    首先，确保所有编码都为 unicode
   比如 str.decode('utf8') #从utf8文本中
              u"啊l" #在控制台输出中
         (罗嗦下)本想使用参考一定编码 Hex 但郁闷的是这每个字好像占2个位置，使用正则匹配无果。
    其次，确定中文范围 : [\u4e00-\u9fa5]
          (这里注意下 python 的re写的时候) 要  u"[\u4e00-\u9fa5]" #确定正则表达式也是 unicode 的
    demo :

>>> print re.match(ur " [\u4e00-\u9fa5]+ " , " 啊 " )
None
>>> print re.match(ur " [\u4e00-\u9fa5]+ " ,u " 啊 " )
< _sre.SRE_Match object at 0x2a98981308 >

>>> print re.match(ur " [\u4e00-\u9fa5]+ " ,u " t " )
None

>>> print tt
现在才明白
>>> tt
' \xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd '
>>> print re.match(r " [\u4e00-\u9fa5] " ,tt.decode( ' utf8 ' ))
None
>>> print re.match(ur " [\u4e00-\u9fa5] " ,tt.decode( ' utf8 ' ))
< _sre.SRE_Match object at 0x2a955d9c60 >

>>> print re.match(ur " .*[ " u4e00 - " u9fa5]+ " ,u " hi,匹配到了 " )
< _sre.SRE_Match object at 0x2a955d9c60 >
>>> print re.match(ur " .*[ " u4e00 - " u9fa5]+ " ,u " hi,no no " )
None

里面有一个域名是数据id的排序思路不错：http://www.cnblogs.com/threemore/p/5578372.html

其他扩充范围 (转)

这里是几个主要非英文语系字符范围(google上找到的):
2E80 ～33FFh：中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符，中日韩的符号、标点、带圈或带括符文数字、月份，以及日本的假名组合、单位、年号、月份、日期、时间等。
3400 ～4DFFh：中日韩认同表意文字扩充A区，总计收容6 , 582个中日韩汉字。
4E00 ～9FFFh：中日韩认同表意文字区，总计收容20 , 902个中日韩汉字。
A000～A4FFh：彝族文字区，收容中国南方彝族文字和字根。
AC00～D7FFh：韩文拼音组合字区，收容以韩文音符拼成的文字。
F900～FAFFh：中日韩兼容表意文字区，总计收容302个中日韩汉字。
FB00～FFFDh：文字表现形式区，收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。
比如需要匹配所有中日韩非符号字符 , 那么正则表达式应该是^ [ \u3400-\u9FFF ] +$
理论上没错 , 可是我到msn.co.ko随便复制了个韩文下来 , 发现根本不对 , 诡异
再到msn.co.jp复制了个’お’ , 也不得行..
然后把范围扩大到^ [ \u2E80-\u9FFF ] +$ , 这样倒是都通过了 , 这个应该就是匹配中日韩文字的正则表达式了 , 包括我們臺灣省還在盲目使用的繁體中文
而关于中文的正则表达式 , 应该是^ [ \u4E00-\u9FFF ] +$ , 和论坛里常被人提起的^ [ \u4E00-\u9FA5 ] +$很接近
需要注意的是论坛里说的^ [ \u4E00-\u9FA5 ] +$这是专门用于匹配简体中文的正则表达式 , 实际上繁体字也在里面 , 我用测试器测试了下’中華人民共和國’ , 也通过了 , 当然 , ^ [ \u4E00-\u9FFF ] +$也是一样的结果。