
爬虫
mwmoo
IT界的一名小学生
展开
-
str的format原来是这样用的
继续爬虫。 中午运行爬去极客学院课程时,遇到了“TypeError: Can’t convert ‘int’ object to str implicitly”问题。 f.writelines(‘titles:’+each[‘title’]+’\n’.encode())在stackoverflow看到了类似的解答。 one of Python’s mottos is “Explicit原创 2016-05-13 13:43:07 · 854 阅读 · 0 评论 -
爬虫xpath学习
xpath的语法和用法原创 2016-05-20 22:04:23 · 445 阅读 · 0 评论 -
爬取分页的标题
还是跟着极客学院学习爬虫。 今天学习单线程爬虫,老师让爬一个众筹项目网站 https://www.crowdfunder.com。可是由于视频是去年的,视频里老师讲的这个网站的requests method是post,但是今天我查看网站看到的是get(或许我没看对)。 无所谓了,我就看着老师的(反正不是能看懂),自己用最笨的方法搞了个,自动爬取分页码的标题。又由于没有登陆,所以只能爬去部分。原创 2016-05-09 16:08:23 · 762 阅读 · 0 评论 -
Python第三方包 requests还是urllib?
我注意到一个很奇怪的事情。在极客学院爬虫课视频里,老师说要用requests,但是在其他学习群里,很多同学都在讨论urllib/urllib2相关。 然后就迷惑了,为什么会有这三个东西呢?扒了扒国内的博客网站,大多都是urllib相关,并且不推荐使用requests包。于是去墙外搜了下,竟然发现国外大多推荐用requests。我完全愣到了,完全相反的意见。原创 2016-05-08 22:43:42 · 7246 阅读 · 8 评论 -
极客学院爬虫re基本知识
极客学院爬虫re基本知识代码原创 2016-05-08 14:41:21 · 425 阅读 · 0 评论 -
Python 3.x中的编码和解码问题
最近在极客学院学习爬虫,老师用的是2.x版本,而我电脑里的版本是3.x,于是在网页上查找在输出中文时如何正确输出。 我原以为2.x 3.x在很多语法上没什么区别,在解码decode上应该也差不多,没想到竟然发现,很多博客提到2.x提出的解决方案原创 2016-05-08 13:21:08 · 5015 阅读 · 0 评论 -
动态内容爬虫
继续爬虫学习。 http://www.jikexueyuan.com/course/1713_3.html?ss=1,针对qq视频爬去评论。我选择了《虎妈猫爸》作为爬取对象。 在爬取评论的时候,老师教了要查找几个文件,我先放这里: http://ncgi.video.qq.com/fcgi-bin/video_comment_id?otype=json&op=3&vid=v0016hyhus4原创 2016-05-16 22:32:02 · 469 阅读 · 0 评论 -
极客学院单线程爬虫py3.x版本
极客学院单线程爬虫实战篇,老师是用的py2.x版本,而我是3.5版本,因此有一些在解码上的不同。 因此,比照老师的代码写了一遍,放在这里。# -*- coding: utf-8 -*-原创 2016-05-13 15:29:54 · 518 阅读 · 0 评论 -
scrapy引用包出错ImportError : cannot import name '_win32stdio'
今天决定开始折腾scrapy。 python 3.5 scrapy 1.1 win10 比照官方文档(英文1.2.4版本,中文早期版本)在执行scrapy crawl quotes出现ImportError : cannot import name '_win32stdio',搜索SF找到解决方案,如下: Scrapy can work with Python 3 on windows if原创 2017-01-03 12:44:42 · 2828 阅读 · 0 评论