- 博客(3)
- 收藏
- 关注
原创 自学爬虫初体验(三)
三、lxml 我目前所了解的,在爬虫上这个的作用就是爬取网页html中的指定内容 1、直接解析html字符串 import requests from lxml import etree url='https://www.taobao.com/' res=requests.get(url) text=res.text print(text) html=etree.HTML(text) print(html)#<Element html at 0x218751cec80> r=html.
2021-05-26 16:04:37
292
原创 自学爬虫的初体验(二)
4、Cookies 先看看百度百科上对于Cookies的解释 挺多挺晦涩的,我个人理解了一下: ①Cookies是存储在本地的文本文件。 ②Cookies的存在是有期限的。 ③Cookies不太安全,不会存储一些隐私信息。 打个比方,在优快云中进行登录之后,关掉网页,再次打开,你无需再次输入账号密码登录,便回到上次关闭网页的登陆状态。当然,若是很久没有输入相关信息确保用户身份,相关Cookies文件便会失效,这个时候就需要重新登录、验证用户身份。当然账号密码之类的并不会保存在Cookies中,Cookie
2021-05-26 12:46:27
126
原创 自学爬虫的初体验(一)
一、爬虫是什么 爬虫就是将互联网上的信息提取并下载到本地的过程 1、由客户端发起请求(url,data) 2、服务器响应内容(html、css、js、json) 请求方式: 1、GET 2、POST:需要发送相关的数据(包括但是不限于登录网站的密码) 二、requests库 1、一些基本用法 import requests url='https://www.youkuaiyun.com/' res = requests.get(url) print(res)#<Response [200]> print
2021-05-25 13:21:25
1087
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人