
爬虫
staryxx
i am fine,thank you
展开
-
爬虫学习笔记1---------requests库
Unit 1 : Requests库入门 (7 * 13) (1)、安装 pip install requests 测试import requestsr = requests.get("http://www.baidu.com")r.status_code 200r.encoding = 'utf-8'r.text #打印内容 ...翻译 2018-09-12 19:06:54 · 246 阅读 · 0 评论 -
爬虫学习笔记2---------BeautifulSoup库
Unit1:Beautiful Soup 一、安装https://www.crummy.com/software/BeautifulSoup/ 管理员权限打开命令行:pip install beautifulsoup4(注意:使用pip install beautifulsoup 会失败) 安装测试:演示地址(http://python123.io/...翻译 2018-09-12 19:08:10 · 242 阅读 · 0 评论 -
爬虫学习笔记3---------re库,正则表达式
Unit1 正则表达式 Re 正则表达式:regular expression regex RE简洁的表达一组字符串的表达式,(查找,替换,匹配)。表达“特征”(病毒,入侵) 使用:编译:将符合正则表达式的字符串'P(Y/YT/YTH)?N' 转换为正则表达式的特征。特征:p = re.compile('P(Y/YT/YTH)?N')语法: ...翻译 2018-09-12 19:12:40 · 282 阅读 · 0 评论 -
爬虫学习笔记4---------scrapy框架
Scrapy框架 Scrapy不是一个简单的函数功能库;而是一个专业的网络爬虫框架Scrapy 足以支持一般商业服务所需的爬虫能力:持续爬取、商业服务、高可靠性 scrapy库的安装:pip install scrapyscrapy -hAvailable commands: bench Run quick benchmark test...翻译 2018-09-12 19:13:58 · 324 阅读 · 0 评论 -
爬取Google Play中app的用户评论(1)
第一次写爬虫,真的踩了不少的坑坑1:看了爬虫视频后,首先尝试用request库和beautifulsoup来爬取Google Play然后总是报错连接超时 ,应该是谷歌的反爬虫机制导致的然后我的解决方法是用代理ip,于是成功解决了连接超时的问题(我用了是翻墙的软件,补充:千万别用全局代理模式,详见坑3)第一个坑就这么解决了,花了我几天的时间 坑2:解决了连接的问...原创 2018-09-22 22:21:43 · 5497 阅读 · 16 评论 -
爬取Google Play中app的用户评论(2)
我遇到的下一个困难是如何爬取完整的用户评论如图,很多评论都是折叠起来的 要是想直接获取完整的用户评论,最后只能得到空值于是我尝试另外写一个方法来获取完整的评论 结果不尽人意然后我看书上的实例有用selector获取网页源代码的方法 先获取网页源代码 就可以直接获取完整的用户评论了selector = etree.HTML(driver.page_source)use...原创 2018-09-22 22:45:29 · 2863 阅读 · 5 评论 -
爬取GitHub上的commit信息
经历了Googleplay之后 GitHub就会感觉简单很多由于github每一个commit信息都会跳转页面 ,为了获取commit的具体信息我的思路是首先翻页获取所有的commit信息的url 将其保存到本地在根据这些commit信息获取所有需要的具体信息 过程:从某应用commit界面出发,eg https://github.com/AChep/AcDisplay/...原创 2018-09-29 22:08:58 · 3167 阅读 · 2 评论