
不得不说,百度教学真的简洁明了。
看了百度的爬青春有你2的参赛人员信息,虽然过去了好久,但爬虫没变,用request,beautifulsoup来爬。在百度自带的ai studio,可以很方便地搞事情。哈哈哈哈哈
在咱们平台也学习了不少大佬的文章。
这个比较幽默一点。
总的来说,就是先选好要爬的网站,引入request,beautiful库,
requests是python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/
requests.get(url)可以发送一个http get请求,返回服务器响应内容。
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”),推荐使用lxml作为解析器,因为效率更高。
利用他们,先爬回页面数据,对爬取的页面进行解析,然后下载。
还是没学太明白。
感觉要好好学一下这一块,找到了不少学习资料,决定先将这七天搞完,去看看崔大神的python3爬虫
https://cuiqingcai.com/5052.html
1446

被折叠的 条评论
为什么被折叠?



