
爬虫
霸王龙不吃芹菜
这个作者很懒,什么都没留下…
展开
-
关于python写sql巨坑之特殊字符
我动态爬虫字段带有 3-h 类似的字段,拼接sql的时候程序不承认这些。要么说你的fs_data_access_depth_info后面是字符,要么是带了 ' 引号。本以为大括号·能解决,最后还是不能解决,看到我自己静态sql带 "" 能通 ,转而ep_field = map(lambda p: f'"{p}"', sqldepth) 用map 将所有字符转为 "" ,最后通了。试了各种类型转换最好不用元组去填,巨坑。最后还是选择字符串拼接。原创 2023-08-25 17:59:24 · 234 阅读 · 0 评论 -
scrapy分布式+指纹去重原理
pip install --upgrade scrapy-redis-cluster # 升级模块版本。pip install scrapy-redis-cluster==0.4 # 安装模块时指定版本。pip install scrapy-redis-cluster # 安装模块。一个是items 里面的数据 ,另外一个则是已经爬取的 md5 url。3,指纹去重在redis里面的显示,用redis做去重逻辑--先遣队。此处的关键点在于管道的先后顺序,顺序错了,数据库的数据会进不去。原创 2023-07-26 16:57:20 · 1370 阅读 · 0 评论 -
工作技术小结
302跳转,cookie 在服务端怎么拿可用找到参数直接调用,cookie参数值在本地怎么拿 allow_redirects=False 默认为True。在小程序抓包过程中,如果要实现批量抓取,必须解决cookie问题,但是cookie值太多,对比当前用户COOKIE 进行筛选,缩小范围,找到关键参数值。源码js关键字找不到,寻找加密方式找不到, 跳转思路可能set-cookie在跳转页面里面,如果还找不到,则从头开始走流程用charles抓。关于论坛后端接口编写小结。原创 2023-02-10 17:26:15 · 522 阅读 · 0 评论 -
scrapy异步封装管道链接MYSQL
多页相同的html抓取,允许只需要填写域名即可,返回原爬虫即可抓取。第二页的数据 SPAN标签识别不了,meta传递。原创 2022-11-18 10:08:01 · 295 阅读 · 0 评论 -
小程序逆向加密步骤小结
5,找到对应的位置进行解读跟踪,如果源码不能很好的进行阅读,就去格式化,通过搜索进行跟踪定位。4,找到接口搜索接口中的关键词进行定位。3,如果调试不好就取看代码。2,在小程序中进行调试。原创 2022-11-14 13:30:52 · 685 阅读 · 0 评论 -
pandas小结
pandas读取文件。pandas单列切分成多列。原创 2022-11-07 14:02:38 · 211 阅读 · 0 评论 -
关于AES加密
/将秘钥转换成Utf8字节数组原创 2022-11-03 17:27:34 · 330 阅读 · 0 评论 -
python与js 的null,none等数据的界限
在python中没有null,如果你想发送请求发现对方给出的data里面包含null,你可以给一个空值就行。除了这两个值得问题还有True,False的问题,在PYTHOH中只有大写,然而前端需要小写数据。那么你可以借用json.dumps()进行转换。原创 2022-10-22 13:22:19 · 423 阅读 · 0 评论 -
sha1加密
sha1加密原创 2022-09-26 14:15:39 · 323 阅读 · 0 评论 -
取全Xpath的text()文本
取全文本内容原创 2022-09-01 11:33:01 · 602 阅读 · 0 评论