
爬虫开发
夜空精灵
这个作者很懒,什么都没留下…
展开
-
爬虫开发日记(第一天)
爬虫开发日记--第一天概念知识分类工作原理robots协议编解码HTTP相关知识浏览器发送http请求的过程url形式:HTTP请求报文格式HTTP常见请求头GET和POST的区别requests模块安装基本使用常用属性带header的请求user_agent池请求传递参数练习:使用面向对象的写法爬取百度贴吧1-5页的数据 概念知识 爬虫的实质:就是模拟浏览器客户端发送网络请求,接收请求对应的响应...原创 2019-07-20 23:42:11 · 349 阅读 · 0 评论 -
爬虫开发日记(第二天)
1.requests模块–发送POST请求 用法: response = requests.post("http://www.baidu.com/", data = data, headers=headers) data 的形式:字典 练习:使用POST请求爬取必应翻译 import json import requests class BingTransSpider(object): ...原创 2019-07-21 21:53:45 · 504 阅读 · 0 评论 -
爬虫开发日记(第三天)
数据提取 1 爬虫中数据的分类 结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath json的数据提取 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交...原创 2019-07-26 21:18:41 · 281 阅读 · 0 评论