- 博客(5)
- 收藏
- 关注
原创 爬取tiktok热点视频时用到的库和类
提供键盘按键的枚举值(如 ENTER、TAB、CONTROL 等),用于模拟键盘输入。用于显式等待,直到某个条件成立或超时,比如:等待某个元素出现,用于等待页面加载,防止因为网络不好导致的爬取失败。用于模拟复杂的用户操作,如鼠标悬停、拖拽、多步操作等,用于需要滚动界面获取更多数据。Python 标准库,用于时间相关操作,如 sleep(延时)、获取当前时间等。Python 标准库,用于操作操作系统功能,如文件路径、文件夹、环境变量等。Python 标准库,用于正则表达式处理字符串,比如查找、匹配、替换等。
2025-06-27 11:04:52
1619
原创 爬虫之解决tiktok反爬机制(降低检测)的方法
undetected_chromedriver 已经做了部分工作,但你可以通过设置更多 ChromeOptions(比如 User-Agent、语言、禁用webdriver特征等)加强伪装。使用上面配置的 chrome_options 启动 undetected_chromedriver 的 Chrome 实例。设置浏览器的 User-Agent 字符串,模拟正常的 Windows 10 桌面 Chrome 浏览器(123版本)。作用:防止目标网站通过 User-Agent 检测你是爬虫或老旧浏览器。
2025-06-10 16:00:04
2381
原创 爬虫之undetected_chromedriver 多进程典型问题——多进程冲突
博主的多进程并发代码是从博主之前单发代码中改过来的,博主尝试过方法一,把并发数设置为1,实现单发的模式,但是爬取的结果确实错误的,所以博主解决方法是使用了虚假的多进程——写多个py程序,代码一致用多个。多进程并发时,多个进程同时尝试创建或写入这个目录,导致。,确保所有依赖和文件已经解压到位,然后再启动多进程。在主进程一开始先运行一次。默认会在用户目录下(如。
2025-06-05 14:07:31
1368
原创 爬虫之chromedriver和undetected-chromedriver的区别
驱动反检测能力推荐用途兼容性常见网站能否被封/弹验证码差普通测试/低反爬网页自动化100%高强反爬/验证码多的网站99%低(被识别概率低)一句话总结undetected-chromedriver 是为反爬虫而生的“隐身版chromedriver”,几乎完全兼容原生用法,但大幅降低被检测概率。对于TikTok等高风控网站,强烈推荐用它。
2025-06-03 13:56:12
941
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅