
软件开发
优木
这个作者很懒,什么都没留下…
展开
-
scrapy框架下使用通用爬虫XMLFeedSpider爬取新浪微博的RSS
我们一般用xmlfeed模版爬虫去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效和便捷。RSS是基于XML标准的,扩展名是 .xml ,需要下载专门的阅读器才能打开,否则看到的就是这个样子:(1)创建项目:scrapy startproject xmlfeedspider(2)使用XMLFeedSpider模板创建爬虫:scrapy genspid...原创 2019-12-16 13:33:44 · 734 阅读 · 0 评论 -
Python获取TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分
《Python网络爬虫:从入门到实践》3.4.3自我实践题:获取豆瓣网上TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分。学习嘛,就费了点劲自己试了一下,挺耽误时间的,不过好在搞出来了,书上给的代码有点问题,不够全面。现在把自己测试过的源代码给大家分享出来,供大家学习借鉴,正好正则表达式一起学了,还是很有收获的。由于电影的英文名、港台名爬取过滤比较麻烦,太耽误...原创 2019-11-08 19:11:16 · 5044 阅读 · 1 评论 -
python 根据关键字删除列表中的元素
"""根据关键字删除列表中的元素"""def remove_contents(contents,targets): """删除targets列表中与contents列表共有的元素""" for content in contents: while content in targets: targets.remove(content) return targetsdef fi...原创 2019-11-02 16:58:55 · 3206 阅读 · 0 评论 -
selenium获取文章所有评论
《网络爬虫:从入门到精通》第4.3.3节 selenium获取文章的所有评论geckodriver.exe版本是geckodriver-v0.23.0-win64。代码在 FireFox Developer Edition 71.0b5(64 位) 中测试通过,可以将1到16页所有评论提取出来,现在的代码是在作者给出的代码的基础上改动过来的,在此向他们致敬!原来的代码中‘button.mo...原创 2019-11-02 16:40:29 · 999 阅读 · 2 评论 -
Python写的一个身份证验证程序
住院期间闲来无事,学了下比较流行的Python语言,用了一周,学得过于快了。写了个身份证号码验证程序。一段时间后,发现存在重大问题,所以不辞劳苦又大改了一下。感兴趣的可以试一试,还是有问题的话,请留言。from datetime import datetimeclass IDnumber(object): '''身份证号码类''' #类属性 IDnumber.address_co...原创 2018-04-09 18:36:16 · 7842 阅读 · 0 评论