Day1~
Python基础:
序列化:
1、在使用scrapy框架的时候,该框架会返回一个对象,我们要将对象写入到文件中就要使用json。json.dumps(对象),将对象序列化转化成字符串才能存入文件
2、json.dump(对象,文件名),相当于将对象转换为字符串的同时,指定一个文件对象将转换后的字符串写入到这个文件中。
反序列化:将json字符串转换为对象
1、读完之后,再json.loads(字符串)
2、不用读出,直接用json.load(文件)
爬虫阶段:
1、urllib:
urllib.request.urlopen(url) 这一步是模拟浏览器向服务器发送请求,获得的HTTPResponse类型。response.read() 结果是 获取到字节形式的二进制数据,但要将其转换为字符串。response.read(5)代表反回5个字节。response.getcode()返回状态码:“200”-->逻辑正确。还可以response.getheaders()
1.1、下载
urllib.request.urlretrieve(url,‘name’) 下载图片、视频、网页,就该代码而言取决于url的地址指向谁。
二进制-->字符串 这个动作称为 解码,方法:decode('编码格式')
2、接口、http协议解析
http:80
https:443
mysql:3306
oracle:1521
redis:6379
http/https--协议 www.baidu.com--主机 80/443--端口号 s--路径 wd = 林俊杰 --参数 -锚点