琉黔-优快云博客

原创自学爬虫初体验（三）

三、lxml我目前所了解的，在爬虫上这个的作用就是爬取网页html中的指定内容1、直接解析html字符串import requestsfrom lxml import etreeurl='https://www.taobao.com/'res=requests.get(url)text=res.textprint(text)html=etree.HTML(text)print(html)#<Element html at 0x218751cec80>r=html.

2021-05-26 16:04:37 324

原创自学爬虫的初体验（二）

4、Cookies先看看百度百科上对于Cookies的解释挺多挺晦涩的，我个人理解了一下：①Cookies是存储在本地的文本文件。②Cookies的存在是有期限的。③Cookies不太安全，不会存储一些隐私信息。打个比方，在优快云中进行登录之后，关掉网页，再次打开，你无需再次输入账号密码登录，便回到上次关闭网页的登陆状态。当然，若是很久没有输入相关信息确保用户身份，相关Cookies文件便会失效，这个时候就需要重新登录、验证用户身份。当然账号密码之类的并不会保存在Cookies中，Cookie

2021-05-26 12:46:27 154

原创自学爬虫的初体验（一）

一、爬虫是什么爬虫就是将互联网上的信息提取并下载到本地的过程1、由客户端发起请求（url，data）2、服务器响应内容（html、css、js、json）请求方式：1、GET2、POST：需要发送相关的数据（包括但是不限于登录网站的密码）二、requests库1、一些基本用法import requestsurl='https://www.youkuaiyun.com/'res = requests.get(url)print(res)#<Response [200]>print

2021-05-25 13:21:25 1137 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 自学爬虫初体验（三）

原创 自学爬虫的初体验（二）

原创 自学爬虫的初体验（一）

空空如也

空空如也

原创自学爬虫初体验（三）

原创自学爬虫的初体验（二）

原创自学爬虫的初体验（一）