
爬虫
爬虫代码,仅供学习参考
JHC000000
这个作者很懒,什么都没留下…
展开
-
Telegram监听指定群组消息
【代码】Telegram监听指定群组消息。原创 2025-04-06 23:54:32 · 90 阅读 · 0 评论 -
Ubuntu 下 无界面环境 多进程/多线程 使用DrissionPage
使用wget “https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb” -O chrome.deb 安装chrome。原创 2025-04-06 23:51:22 · 208 阅读 · 0 评论 -
Telegram 用自己的开发者账号发消息
【代码】Telegram 用自己的开发者账号发消息。原创 2025-04-06 23:46:55 · 95 阅读 · 0 评论 -
Telegram向指定人发送消息
【代码】Telegram向指定人发送消息。原创 2025-04-06 23:44:09 · 94 阅读 · 0 评论 -
Telegram机器人开发
【代码】Telegram机器人开发。原创 2025-04-06 23:40:59 · 192 阅读 · 0 评论 -
同花顺客户端公司财报抓取分析
这里不再赘述安装mitmproxy 以及配置https证书过程(必须正确配置证书,否则接口不通,抓不到数据,具体可以参考 :https://blog.youkuaiyun.com/qq_36841447/article/details/134012335)以下脚本会自动拦截 包含 standardgwapi/api/news_service 的url 并且处理请求中的cookies,从中解析到 jgbsessid 然后自动关闭 同花顺客户端 以及mitmdump 监听程序。原创 2025-04-06 23:34:57 · 84 阅读 · 0 评论 -
百度AI图片助手 处理本地图片
【代码】百度AI图片助手 处理本地图片。原创 2024-10-18 23:27:53 · 517 阅读 · 0 评论 -
Python 提取excel中嵌入的图片
a:blip r:embed=“rId1” r:link=“rId2”/> 里的r:embed=“rId1” ,rId1 最后一个就是对应的图片名也就是对应image1.png。cellimages.xml文件中,下图中圈出来的就是 excel里图片插入位置显示的代码和/xl/media下图片名之间的关系。还有要注意的是, r:embed=“rId1” 里的rid 后边的数字,当数字大于2时,减1等于图片对应的后缀名。注意:是嵌入在单元格里的图片,嵌入在单元格里的图片,嵌入在单元格里的图片。原创 2024-07-31 21:50:22 · 1095 阅读 · 0 评论 -
财汇金融大数据终端 自动登录,自动刷新cookie流程
财汇金融大数据终端 自动登录,自动刷新cookie流程原创 2024-08-10 20:59:06 · 340 阅读 · 0 评论 -
Python 爬虫 文本转语音 支持多种音色模型选择
【代码】Python 爬虫 文本转语音 支持多种音色模型选择。原创 2024-06-17 14:04:31 · 437 阅读 · 0 评论 -
懂车帝,推荐数据抓取
【代码】懂车帝,推荐数据抓取。原创 2024-01-27 21:36:36 · 207 阅读 · 0 评论 -
python 根据m3u8,下载ts,聚合成mp4
视频下载原创 2023-04-08 23:45:06 · 372 阅读 · 1 评论 -
头条搜索 ttwid参数持续生成
搜索关键词:https://ttwid.bytedance.com原创 2024-01-22 11:25:04 · 814 阅读 · 0 评论 -
URP高校教务管理系统登录过程解析
【代码】URP高校教务管理系统登录过程解析。原创 2023-12-12 17:37:49 · 761 阅读 · 0 评论 -
Python监控Iphone 手机余量
【代码】Python监控Iphone 手机余量。原创 2023-11-29 22:50:56 · 526 阅读 · 0 评论 -
Python Google 图像搜索结果原图抓取
【代码】Python Google 图像搜索结果原图抓取。原创 2023-11-29 21:06:53 · 500 阅读 · 0 评论 -
Python豆瓣电影搜索抓取
【代码】Python豆瓣电影搜索抓取。原创 2023-11-29 21:05:19 · 437 阅读 · 0 评论 -
智慧树登陆滑块
搞定--智慧树登陆滑块原创 2023-08-28 18:39:32 · 207 阅读 · 0 评论 -
百度文心一言测试版接口分析
【代码】百度文心一言测试版接口分析。原创 2023-08-22 11:15:51 · 636 阅读 · 0 评论 -
Wechat 评论数据自动化采集
【代码】Wechat文章评论数据抓取。原创 2023-06-21 17:12:16 · 101 阅读 · 0 评论 -
东方日报JS解密过程
3.hd参数破解:(最费劲的,看不懂也懒得看,直接全粘过来了),翻页过程中会加载handle.js文件,负责加密大的函数是functionh2381766(_0x246303,_0x56cc70,_0x3bf5ca,_0x4f4675,_0x25f5d7),经过调试得到五个参数内容如函数get_hd()所示。4.解析结果,返回是jquery数据,正则表达式解析下即可,其中callback携带的参数即是接口返回时前边携带的参数,详见get_page()函数。原创 2023-08-27 21:58:41 · 291 阅读 · 0 评论 -
人民日报--全站图文数据库信息采集
支持2020-2023所有数据采集。原创 2023-08-28 14:34:15 · 317 阅读 · 0 评论 -
中国日报网--搜索结果数据采集
支持所有搜索结果内容提取。原创 2023-08-28 15:15:00 · 122 阅读 · 0 评论 -
井冈山大学--继续教育平台 全功能版
井冈山大学继续教育平台 视频+作业+问答 全满分原创 2023-06-05 23:39:00 · 200 阅读 · 0 评论 -
前端禁用调试后,强制唤出调试窗口方式
前端禁用调试后,强制唤出调试窗口方式原创 2023-05-14 00:26:47 · 473 阅读 · 0 评论 -
百度系接口分析
接口分析原创 2023-02-27 12:13:52 · 331 阅读 · 0 评论 -
打码工具V1.0
人工打码工具原创 2022-11-16 14:17:16 · 194 阅读 · 0 评论 -
Twitter 热门搜索结果文本抓取
Twitter spider原创 2022-11-16 14:14:30 · 819 阅读 · 0 评论 -
python 从百度首页获取当前的网络时间
获取网络时间原创 2022-10-13 18:41:15 · 1167 阅读 · 0 评论 -
微博--图片,视频,评论抓取
把微博扒了个底掉原创 2022-10-11 18:21:51 · 757 阅读 · 0 评论 -
Python 疫情数据可视化_pyecharts
pyecharts原创 2022-10-08 11:18:28 · 292 阅读 · 0 评论 -
Python 破解 MD5 暗号
Python 破解 MD5 暗号原创 2022-09-13 16:31:33 · 1571 阅读 · 0 评论 -
Python requests响应数据乱码问题处理
爬虫乱码原创 2022-09-09 16:08:59 · 855 阅读 · 0 评论 -
微博主页图片爬取
python 爬取微博主页图片原创 2022-07-11 18:21:29 · 512 阅读 · 0 评论 -
向word中写入带颜色的文字
#!/usr/bin/env python# encoding: utf-8'''@author: JHC@license: None@contact: JHC000abc@gmail.com@file: 生成高亮答案提示文件.py@time: 2022/4/24 15:02@desc:'''import pymysqlfrom docx import Documentfrom docx.shared import RGBColorhost = 'localhost'port原创 2022-04-25 10:17:57 · 307 阅读 · 0 评论 -
“知道”题库脚本——升级版
#!/usr/bin/env python# encoding: utf-8'''@author: JHC@license: None@contact: JHC000abc@gmail.com@file: ttt.py@time: 2022/4/22 23:27@desc:替换self.uuid就能把题和答案写入mysql数据库 uuid在cookies里'''import jsonimport requestsimport pymysql.cursorsimport sys原创 2022-04-22 23:38:29 · 6494 阅读 · 3 评论 -
selenium chrome webdriver 无头浏览器配置
粘吧粘吧,改两个配置路径就能用:executable_pathuser-data-dirdef spider(url,name,city): # 浏览器驱动地址,高版本的浏览器驱动必须指定路径才好使 executable_path = r"C:\Users\JHC\Desktop\paint_cv\Boss_Spider\chromedriver.exe" os.environ["webdriver.chrome.driver"] = executable_path #原创 2022-04-15 15:42:05 · 2068 阅读 · 0 评论 -
python 线程池 爬取词典网历史人物词库
'''python 词典网历史人物词库 线程池 爬取https://search.cidianwang.com/待处理人名文件下载地址:https://jhc001.lanzouw.com/iYkEqwj0o9e 密码:b0dh'''#coding=utf-8#coding=gbkfrom concurrent.futures import ThreadPoolExecutorimport requests,os,re,asyncio,timeimport threadpoo原创 2021-11-15 16:28:34 · 910 阅读 · 0 评论 -
Boss直聘数据爬取,词云图绘制
'''BOSS爬虫,boss.py'''from pymongo import *import requestsfrom lxml import etreeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}# 添加自己的cookiescookie原创 2021-10-28 16:03:27 · 647 阅读 · 0 评论 -
国学大师词库爬虫
代查词汇下载地址:https://jhc001.lanzouw.com/iWAtlwcuixa密码:bxp6爬虫代码:#coding=utf-8#coding=gbkimport requestsfrom lxml import etreeimport osdef spider(name): try: response=requests.get('http://www.guoxuedashi.net/zidian/so.php?sokeyci='+name+.原创 2021-11-10 16:04:05 · 649 阅读 · 0 评论