python爬虫
文章平均质量分 53
yesNow_xiao
NO picture you say a J8...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫(2)——我们所需的库的安装
Python爬虫我们所需的库这里我们是以python3.4.4版本为例 Python的爬虫我们需要安装一下几个库:1、BeautifulSoup42、lxml3、requests4、pymongo接下来我来重点说一下lxml库的安装方法,经过几十次失败之后,我终于找到了正确安装lxml的方法: * 到lxml官方网站下载exe安装包http://https://pypi.python.org/原创 2016-08-01 17:38:32 · 1706 阅读 · 0 评论 -
python爬虫(1)——BeautifulSoup库函数find_all()
python——BeautifulSoup库函数find_all()一、语法介绍find_all( name , attrs , recursive , string , **kwargs ) find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件二、参数及用法介绍1、name参数这是最简单而直接的一种办法了,我么可以通过html标签名来索引;sb = soup.f原创 2016-07-17 20:33:24 · 41058 阅读 · 1 评论 -
python爬虫(4)——统计并可视化数据
数据统计的三步走爬取数据的三字真言 **整理清洗数据; 更新数据库; 数据的可视化;**下面我几句我这几天所的可视化数据统计的知识,来简单总结一下知识点:1、整理清洗数据我们上代码:#引入我们所需要的库文件import pymongofrom string import punctuationimport charts#连接数据库client = pymongo.Mongo原创 2016-08-16 22:03:25 · 14044 阅读 · 0 评论 -
python爬虫(5)——Mongo聚合函数
python爬虫(5)——Mongo聚合函数 MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果。有点类似sql语句中的 count(*)。一、管道的概念管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的参数。 MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是原创 2016-08-18 09:40:15 · 2035 阅读 · 0 评论 -
python爬虫(3)——python爬取大规模数据的的方法和步骤
python爬取大规模数据的的方法和步骤:一、爬取我们所需要的一线链接channel_extract.py 这里的一线链接也就是我们所说的大类链接:from bs4 import BeautifulSoupimport requestsstart_url = 'http://lz.ganji.com/wu/'host_url = 'http://lz.ganji.com/'def get_ch原创 2016-08-15 20:41:27 · 12320 阅读 · 0 评论 -
python爬虫之scrapy框架(一)
python爬虫之scrapy框架(一)一、安装scrapy框架这里我们还是通过pip install scrapy进行安装,如果遇到问题请大家百度解决;二、我们先来说scrapy框架的命令行工具与简单爬虫的编码1、打开命令行,输入scrapy2、输入 scrapy startproject baidutieba 创建项目然后你的本地就会出现有如下结构的文件: **baidutieba –bai原创 2016-09-10 20:11:07 · 1180 阅读 · 0 评论
分享