
爬虫
越努力越幸运~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
猫眼排名--(一页有10部电影)
https://maoyan.com/board/4import jsonimport requestsfrom requests.exceptions import RequestExceptionimport reimport timedef get_one_page(url): try: response = requests.get(url...原创 2019-08-05 16:01:02 · 644 阅读 · 0 评论 -
知乎网页热门问题及回答 (文件保存txt)
import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like...原创 2019-08-05 18:00:03 · 717 阅读 · 0 评论 -
CSV--python
'''CSV,全称为Comma-Separated Values,中文可以叫作逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔。每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。'''import csvwith open('data.csv','w')as csvfile:...原创 2019-08-06 09:42:43 · 150 阅读 · 0 评论 -
python--Mysql
import pymysqlclass mySql: def __init__(self, host='localhost', port=3306, user='root', passwd='123456', db='test'): '''由于MySQL在本地运行,所以传入的是localhost。如果MySQL在远程运行,则传入其公网IP地址 sss ...原创 2019-08-06 10:34:59 · 204 阅读 · 0 评论 -
非关系型数据库
NoSQL,全称Not Only SQL,意为不仅仅是SQL,泛指非关系型数据库。NoSQL是基于键值对的,而且不需要经过SQL层的解析,数据之间没有耦合性,性能非常高。非关系型数据库又可细分如下。键值存储数据库:代表有Redis、Voldemort和Oracle BDB等。 列存储数据库:代表有Cassandra、HBase和Riak等。 文档型数据库:代表有CouchDB和Mong...转载 2019-08-06 10:39:03 · 207 阅读 · 0 评论 -
python --MongoDB(文档型数据库)
import pymongoclient= pymongo.MongoClient(host='localhost',port=27017)# client=MongoClient('mongodb://localhost:27017/')#指定数据库db=client.test#db=client['test']##指定集合(collection)collection =...原创 2019-08-06 11:23:10 · 154 阅读 · 0 评论 -
python --redis
'''https://cuiqingcai.com/5587.htmlRedis是一个基于内存的高效的键值型非关系型数据库,存取效率极高,而且支持多种存储数据结构,使用也非常简单。安装好了Redis及RedisPy库。如果要做数据导入/导出操作的话,还需要安装RedisDumpRedisPy库提供两个类Redis和StrictRedis来实现Redis的命令操作StrictRedis实...原创 2019-08-06 13:25:43 · 94 阅读 · 0 评论 -
Ajax
在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算...原创 2019-08-06 13:29:27 · 120 阅读 · 0 评论 -
动态渲染 selenium
JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。比如ECharts的官方实例(详见http://echarts.baidu.com/demo.html#bar-negative),其图形都是经过JavaScript计算之后生成的...原创 2019-08-06 16:53:12 · 243 阅读 · 0 评论