自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 CSS偏移量反爬虫技术与OCR技术

介绍了一种反爬虫技术以及对应的对抗技术

2024-09-23 21:08:16 625

原创 基于Python的三种主流网络爬虫技术

简单介绍了目前基于Python的主流网络爬虫技术以及常见的反爬虫技术

2024-09-23 20:28:49 2309 1

原创 python爬虫爬取微博特定词汇的帖子2

爬取“实时”情况下的微博帖子

2024-06-27 21:50:50 1555

原创 python爬虫爬取微博特定词汇的帖子1

微博爬虫

2024-06-26 22:22:01 1611

原创 基于微信小程序的网络爬虫系统的设计与实现

为了减少网络爬虫对网站的潜在威胁,减轻网站服务器的压力,防止数据的大量流失,网站一般会采用以下几种反爬虫的技术限制网络爬虫:请求头校验机制、访问量限制、数据异步加载、验证码限制机制、CSS偏移量反爬虫等。要想设置一个网络爬虫,首先需要直接通过Request技术、Selenium自动化测试框架或Scrapy框架等方式请求URL,进行网页访问,获取响应数据,然后对数据进行解析,解析方法包括Regular Expression正则解析、Xpath解析、JSON解析以及Beautiful Soup 4解析等。

2024-06-25 21:28:44 2608

原创 汉字内码的查询与打印(代码实现)

汉字是中文信息处理的基本单位,汉字的编码是汉字处理的基础,设计数据结构,用来保存和查询汉字的区位码和国标码。

2024-04-25 21:50:05 520 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除