
爬虫
文章平均质量分 92
南方的孩子
与有肝胆者共事,从无字句处读书
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何将请求时的参数或者包体快速转换成字典形式
以百度搜索csdn为例 # url后的参数如下 s = """ ie: utf-8 f: 8 rsv_bp: 1 rsv_idx: 2 tn: baiduhome_pg wd: csdn rsv_spt: 1 oq: %E5%AF%8C%E5%AE%9D%E8%A2%8B rsv_pq: b95cb2150002353b rsv_t: 6094e1L3QavAxng0GfZWmvEHgI+Cyt3...原创 2019-12-10 14:53:06 · 3883 阅读 · 5 评论 -
Xpath——text()内容定位
<html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> </head> <body> <div class="class1"> <div class="class2"> ...原创 2019-12-04 10:20:30 · 27489 阅读 · 2 评论 -
猫眼爬虫-字体加密
引言 最近又爬了一次猫眼的票房数据,发现其字体加密手段又加强了,在此记录一下 分析字体源 下载字体文件 从此处可以得到字体文件链接,下载下来 分析字体文件 不难发现每次请求,都会随机匹配一个字体文件 先用fontEditor打开看看 对比两次请求的字体文件,并无规律可寻 利用TTfont将字体文件转成xml font = TTFont(woff_file) font.s...原创 2019-10-27 23:51:43 · 1629 阅读 · 7 评论 -
猫眼-字体训练
工具 JDK,jTessBoxEditor是运行在java环境上的 jTessBoxEditor:下载链接http://down2.opdown.com:8019/opdown/jTessBoxEditor.zip,下载解压,双击train.bat 准备训练数据 两份字体文件的数字图像 操作步骤 Tools -> Merge TIFF 生成tif文件 全选,点击打开 tif...原创 2019-10-27 23:47:31 · 1390 阅读 · 0 评论 -
selenium
selenium是一个浏览器自动化测试框架 chorm浏览器驱动下载 http://chromedriver.storage.googleapis.com/index.html chorm浏览器版本与驱动映射关系 https://blog.youkuaiyun.com/zbj18314469395/article/details/100560044 相关方法 find_element_by_id...原创 2019-10-07 01:25:33 · 693 阅读 · 0 评论