
python爬虫
TUJC
这个作者很懒,什么都没留下…
展开
-
0、爬虫
一、http当⽤户在地址输⼊了⽹址 发送⽹络请求的过程是什么1、http的请求⽅式(1)get请求优点: ⽐较便捷缺点:不安全;明⽂;参数的⻓度有限制(2)post请求⽐较安全;数据整体没有限制;上传⽂件(3)put(不完全的)(4)delete(删除⼀些信息)2、head(请求头)发送⽹络请求(需要带⼀定的数据给服务器不带数据也可以)请求头⾥⾯request...翻译 2019-03-11 15:10:04 · 363 阅读 · 0 评论 -
0.1、前端
翻译 2019-03-11 20:37:36 · 157 阅读 · 0 评论 -
0.2、爬虫的简介
爬⾍⼊⻔:使⽤代码模拟⽤户 批量的发送⽹络请求 批量的获取数据1、爬⾍的价值:(1)买卖数据(⾼端的领域价格特别贵(2)数据分析:出分析报告(3)流量(4)指数阿⾥指数,百度指数2、合法性:灰⾊产业政府没有法律规定爬⾍是违法的,也没有法律规定爬⾍是合法的公司概念:公司让你爬数据库(窃取商业机密)责任在公司3、爬⾍可以爬取所有东⻄?(不是)爬⾍只能爬取⽤户能访...转载 2019-03-15 15:23:59 · 141 阅读 · 0 评论 -
1.1 、数据请求—urlib库
urlib库Python 内置的 HTTP 请求库,不需要额外安装1、request模块,基本的 HTTP 请求模块,模拟发送请求,2、error 模块,异常处理模块,捕获异常,进行重试或其他操作保证程序不会意外终止。3、parse 模块,工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。4、robotparser模块,识别网站的 robots.txt 文件,...原创 2019-08-05 21:18:53 · 770 阅读 · 0 评论 -
1.2、数据请求—requests库
目录1、GET请求2、POST请求3、代理设置4、SSL 证书验证5、Cookiesimport requestsclass RequestSpider(object): def __init__(self): url = 'https://www.baidu.com' headers = { ...原创 2019-08-05 22:16:55 · 962 阅读 · 0 评论 -
2.2、数据解析—XPath
一、语法import reimport requests# 安装支持 解析html和XML的解析库 lxml# pip install lxmlfrom lxml import etreeurl = 'http://news.baidu.com/'headers = { "User-Agent": 'Mozilla/5.0 (Macintosh; Intel M...原创 2019-08-12 15:36:29 · 197 阅读 · 0 评论 -
2.3、数据解析—bs4
一、语法# pip install beautifulsoup4from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="titl...原创 2019-08-12 16:48:33 · 262 阅读 · 0 评论 -
2.4、 爬虫案例1
遍历爬取http://www.allitebooks.org/网站中前十页的书名、作者、简介、图片url,生成json文件目录一、数据请求1、单页请求2、翻页请求二、数据解析1、解析书名字2、解析书作者3、解析书简介4、解析书图片url三、数据存储四、完整代码一、数据请求1、单页请求import requestsurl = 'h...原创 2019-08-14 16:11:48 · 348 阅读 · 0 评论 -
3.1、数据存储—json和csv
一、JSONJSON(JavaScriptObject Notation, JS 对象简谱) 是一种轻量级的数据交换格式在 JS 语言中,一切都是对象。因此,任何支持的类型都可以通过 JSON 来表示,例如字符串、数字、对象、数组等。但是对象和数组是比较特殊且常用的两种类型: 对象,表示为键值对 数据,由逗号分隔 花括号,保存对象 方括号,保存数组...原创 2019-08-14 11:42:24 · 934 阅读 · 0 评论 -
3.3、数据存储—Redis数据库
Redis教程:https://www.runoob.com/redis/redis-tutorial.htmlRedis 命令参考:http://redisdoc.com/#目录简介一、数据库操作1 、切换数据库 select 12、删除当前库 flushdb3、删除所有库 flushall二、数据操作0、键命令(1)查找键 keys pattern(...原创 2019-08-19 17:34:12 · 1042 阅读 · 0 评论 -
3.2、数据存储—MongoDB数据库
MongoDB 教程https://www.runoob.com/mongodb/mongodb-tutorial.html目录简介一、数据库(database)1、查看数据库show dbs2、创建数据库use db_name3、删除数据库db.dropDatabase()4、备份数据库mongodump5、恢复数据库 mongorestore...原创 2019-08-16 21:50:56 · 1562 阅读 · 0 评论