
python
fk543
fk5431.com
展开
-
Ubuntu16.04安装Scrapy命令
背景命令行下有三种安装Scrapy的方式:apt-get:千万不要用,因为你会下载到一个上古时期的Scrapy版本,产生一系列与你参考教程的代码不兼容的问题easy_install:我没有安装成功pip:Scrapy官网上推荐的下载方式,我们使用这种方法安装首先python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。其次安装pip,在命令行中执行以下命令:sudo ap原创 2017-02-08 13:54:57 · 1373 阅读 · 1 评论 -
Scrapy学习
Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的转载 2017-02-08 14:43:12 · 487 阅读 · 0 评论 -
python:hasattr(object, name)
这个函数是用来判断对象object的属性(name表示)是否存在。如果属性(name表示)存在,则返回True,否则返回False。参数object是一个对象,参数name是一个属性的字符串表示。例子: hasattr()class Foo: def __init__(self): self.x = 123 def test(x): self.x原创 2017-02-09 09:33:41 · 778 阅读 · 0 评论 -
python爬虫学习——爬取糗百页面段子
糗百利用urllib2库进行操作,需要headers验证。 url是读取的页面。 写的程序可能因为糗百的网页结构更新导致正则表达式匹配错误,从而出错或者抓取不到。 程序敬请参考,有意见和问题欢迎讨论#!/user/bin/env python# coding=utf-8import urllibimport urllib2import reimport sysdefauletenc原创 2017-02-09 15:52:22 · 631 阅读 · 0 评论