
爬虫
dongzhengtongliyarui
努力=幸运
展开
-
Linux CentOS环境下安装图像识别工具Tesseract教程
https://blog.youkuaiyun.com/wanght89/article/details/78329546原创 2020-09-23 13:49:56 · 294 阅读 · 0 评论 -
马蜂窝评论爬取
分析网址https://w.mafengwo.cn/sfe-app/cmt_list.html?busi_type=customize&mdd_id=10183网址返回的评论数据是json格式。但是返回的数据进行了字体加密,我们需要对它进行破解。字体反爬的详细步骤我在猫眼电影反爬中有所介绍。查看器搜索woff:第一次找到的是带woff的图片,我们需要按enter键继续搜索,直到...原创 2020-02-23 21:16:55 · 1655 阅读 · 0 评论 -
字体反爬之FoontTools的使用
https://blog.youkuaiyun.com/Obgo_6/article/details/101169682原创 2020-02-22 18:59:43 · 266 阅读 · 0 评论 -
字体反爬(猫眼电影)四 完成爬取(附源代码)
获取原始数据:3e983e35f4c5ff7f92fe911dd2273ca52280.woff获取网址:http://vfile.meituan.net/colorstone/3e983e35f4c5ff7f92fe911dd2273ca52280.wofffrom urllib import requestfrom fake_useragent import UserAgentimpo...原创 2020-02-21 20:38:09 · 594 阅读 · 1 评论 -
python url解码编码
url编码解码测试网址https://www.cnblogs.com/jessicaxu/p/7977277.htmlurl编码解码详解https://www.cnblogs.com/jessicaxu/p/7977277.html原创 2020-02-19 14:37:01 · 200 阅读 · 0 评论 -
字体反爬(猫眼电影)三分析规律
从上篇文章中我们得到的规律进行分析。from fontTools.ttLib import TTFontocr = '5810427369'font1 = TTFont(r'D:\PycharmProjects\untitled\爬虫\3e983e35f4c5ff7f92fe911dd2273ca52280.woff') # 打开本地字体文件01.ttfobj_list1 = font1...原创 2020-02-17 19:35:26 · 493 阅读 · 0 评论 -
字体反爬(猫眼电影)二woff转xml查看规律
woff转xmlimport osimport requestsfrom fontTools.ttLib import TTFontbase_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))url = 'http://vfile.meituan.net/colorstone/87ecd1ab347b1c...原创 2020-02-17 17:11:52 · 696 阅读 · 0 评论 -
字体反爬(猫眼电影)(一获得.woff文件)
评分加密后看不出来,这里怀疑是字体加密了,我们在源码中搜索woff,找到网址:vfile.meituan.net/colorstone/87ecd1ab347b1c9e14b52b83a04f5a872288.woff打开网址下载.woff文件下载之后我么需要想办法把它打开,这里使用工具FontCreator,官网下载地址:https://www.high-logic.com/font...原创 2020-02-17 16:49:15 · 667 阅读 · 0 评论