
python爬虫自学
琉黔
代码都是自学,文章都是记录自己自学的过程,学习资料都是网络上东翻西找的,若有侵权,烦请告知,必定配合。
展开
-
自学爬虫初体验(三)
三、lxml 我目前所了解的,在爬虫上这个的作用就是爬取网页html中的指定内容 1、直接解析html字符串 import requests from lxml import etree url='https://www.taobao.com/' res=requests.get(url) text=res.text print(text) html=etree.HTML(text) print(html)#<Element html at 0x218751cec80> r=html.原创 2021-05-26 16:04:37 · 298 阅读 · 0 评论 -
自学爬虫的初体验(二)
4、Cookies 先看看百度百科上对于Cookies的解释 挺多挺晦涩的,我个人理解了一下: ①Cookies是存储在本地的文本文件。 ②Cookies的存在是有期限的。 ③Cookies不太安全,不会存储一些隐私信息。 打个比方,在优快云中进行登录之后,关掉网页,再次打开,你无需再次输入账号密码登录,便回到上次关闭网页的登陆状态。当然,若是很久没有输入相关信息确保用户身份,相关Cookies文件便会失效,这个时候就需要重新登录、验证用户身份。当然账号密码之类的并不会保存在Cookies中,Cookie原创 2021-05-26 12:46:27 · 131 阅读 · 0 评论 -
自学爬虫的初体验(一)
一、爬虫是什么 爬虫就是将互联网上的信息提取并下载到本地的过程 1、由客户端发起请求(url,data) 2、服务器响应内容(html、css、js、json) 请求方式: 1、GET 2、POST:需要发送相关的数据(包括但是不限于登录网站的密码) 二、requests库 1、一些基本用法 import requests url='https://www.youkuaiyun.com/' res = requests.get(url) print(res)#<Response [200]> print原创 2021-05-25 13:21:25 · 1101 阅读 · 3 评论