爬虫
文章平均质量分 90
chouchoubuchou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
傻瓜式提取网页数据的油猴脚本(JavaScript 代码)
一次性提取任意网站的布局类似的数据,例如 淘宝的商品价格、微博的热搜标题、必应搜索的图片链接。使用JavaScript实现,配置到Tampermonkey(油猴)中即可使用。原创 2023-11-17 17:12:34 · 12674 阅读 · 3 评论 -
python按关键字爬取必应高清图片
通过查询前人的博客,发现必应可通过url按关键字查找图片:https://www.bing.com/images/async?q=查询关键字&first=图片编号&count=图片数量&mmasync=1基于该url,我写了一个爬虫类,实现了按关键字下载固定数量的必应高清图片。调用时只需要一条python语句即可(由于使用了线程池并发请求图片,所以下载速度较快,一分钟300张高清图片没问题):# 关键词:电脑壁纸# 需要的图片数量:100# 图片保存路径:'.原创 2020-09-08 17:20:25 · 4666 阅读 · 11 评论 -
爬虫之网页数据提取
爬虫流程: 指定URL 发请求 收响应 解数据 存数据数据解析方法分类: 正则(各编程语言都可以用) bs4(python独有) xpath(重点,各种编程语言都可用)bs4.BeautifulSoup 提供的方法和属性: 实例化BeautifulSoup的方法 本地html文件 例 BeautifulSoup(file) 通过url获取到的html文本 .原创 2020-09-03 22:20:23 · 907 阅读 · 2 评论 -
爬虫之请求网页基础
python中用于requests的库有两个: - urllib:相对更老,使用更繁琐 - requests:更新,使用更简单requests库中最常用的方法有两个: - requests.get():对应了http协议的 GET request,常用参数是url,params,headers, - requests.post():对应了http协议的 POST request,常用参数是url,data,headers,这两个方法的返回类型都是requests.Re.原创 2020-09-01 22:22:58 · 421 阅读 · 0 评论
分享