Python基础 | 爬虫入门学习
文章平均质量分 60
基于Python的爬虫入门学习
小策要加油
Homepage: zhgyqc.site
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
动态网页抓取——学习笔记
1 动态抓取技术简介异步更新技术——AJAXAJAX(Asynchronous Javascript And XML,异步JavaScript和XML)的价值在于通过在后台与服务器进行少量的数据交换就可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。一方面减少了网页重复内容的下载,另一方面节省了流量,因此AJAX得到了广泛的使用。爬取使用AJAX加载的动态网页里的动态加载的内容有两种动态网页抓取的方法:通过浏览器审查元素解析真实网页地址 使用Seleni原创 2022-03-07 22:08:26 · 3057 阅读 · 0 评论 -
豆瓣电影 Top 250 —— 数据爬取
1 项目简述本项目是根据《Python网络爬虫从入门到实践(第2版)》第三章末的自我实践题完成的,具体题目内容如下:获取TOP 250 电影的英文名、港台名、导演、评论和评分等。主干代码见下文:import requestsimport randomimport reimport configimport timeimport pandas as pddef get_html(link, encoding='utf-8'): r = requests.get(l原创 2022-03-02 23:09:42 · 669 阅读 · 0 评论 -
静态网页抓取_学习笔记
在网站设计中,纯粹HTML格式的网页通常被称为静态网页,早期的网站一般都是由静态网页制作的。在静态网页抓取中,有一个强大的Requests库能够让你轻易地发送HTTP请求。1 获取响应内容在Requests中,常用的功能是获取某个网页的内容。import requestsr = requests.get('https://www.baidu.com/')print("文本编码:", r.encoding)print("响应状态码:", r.status_code)print("字符串方原创 2022-03-02 10:58:15 · 1564 阅读 · 0 评论
分享