- 博客(52)
- 资源 (3)
- 收藏
- 关注
原创 [记录]如何从hugging face上下载模型
1、用 huggingface_hub 官方命令行工具(推荐)2、登录 Hugging Face(若模型要求 token)3、下载模型到指定本地路径。
2025-10-22 12:06:27
57
原创 [记录]whisper-diarization自动语音识别与说话人分离
6、修改whisper-diarization 的代码路径。3、下载faster-whisper对应模型。必要条件,ffmpeg等依赖库安装。目前仍无文本输出,届时再更新。2、安装python依赖。
2025-10-15 18:23:45
142
原创 【尝试】基于Whisper批量进行语音转文字识别
通过映射网络驱动器实现局域网共享文件夹访问,结合Whisper语音识别技术,批量处理MP3音频文件并转写为文本。系统自动遍历共享目录中的所有录音文件,利用Whisper large-v2模型进行高精度语音转写,并为每个音频生成同名TXT文本。支持自动跳过已处理文件并提供处理进度统计。
2025-09-21 10:50:04
212
原创 【尝试】在macOS上安装cvat
CVAT安装指南摘要:安装CVAT需要先配置Docker和Git环境。从GitHub克隆CVAT源码后,使用docker-compose启动容器。首次登录需创建超级管理员账号,通过执行特定命令完成。最后检查容器日志确认服务正常运行,即可登录使用。主要步骤包括:环境准备、源码获取、容器启动、账号创建和运行验证。
2025-08-21 17:18:00
344
原创 【尝试】基于YOLOv8识别消防栓,并数数量
本文介绍了基于YOLOv8模型的消防栓检测方法。使用从COCO数据集中提取的2000张标注图片构建训练集和验证集,通过配置data.yaml文件定义数据集路径和类别信息。采用YOLOv8n模型进行50轮训练后,使用训练好的模型对新图片进行预测,并统计检测到的消防栓数量。结果显示模型能有效识别图片中的消防栓目标,通过边界框信息和类别统计功能,可精确计算各类目标出现次数。该方法为消防设备检测提供了有效的解决方案。
2025-08-21 16:36:54
207
原创 【尝试】本地部署openai-whisper,通过 http请求识别
本文介绍了基于FastAPI搭建Whisper语音转文字服务的完整流程。教程包含三个部分:1)创建whisperDemo1.py作为服务端,加载Whisper模型并实现音频文件上传和转录接口;2)编写request001.py客户端脚本,用于测试文件上传功能;3)通过Uvicorn运行服务,支持通过/docs查看API文档。服务支持medium/small/large等不同规模的Whisper模型,处理流程包括临时文件保存、语音转录和结果返回。测试时需确保安装fastapi、uvicorn等依赖库。
2025-07-16 14:37:36
504
原创 【尝试】基于openai-whisper进行语音转文字windows版本
本文介绍了搭建Whisper语音识别系统的详细步骤。首先需下载配置FFmpeg并设置环境变量;其次确认CUDA版本并安装NVIDIA应用;接着创建Python3.10虚拟环境,安装PyTorch(支持CUDA12.6)和Whisper模型;最后通过测试脚本验证GPU加速的语音转文字功能,并监控GPU运行状态。整个过程涵盖了从环境配置到模型部署的关键环节。
2025-07-16 13:05:07
532
原创 【测试】利用python下载电子书并通过NaturalRead实现听书
本作品中所有内容仅供学习参考,不得用于任何商业活动。:用于自动检测文本文件的编码格式,帮助确定不同文件的字符编码,以便正确读取和处理文本数据。点开,前三章观察,除了/89352331,这串数字不一样外。:解析HTML内容,支持XPath选择器,便于提取特定内容。【也可以转成PDF,txt文本有限制长度,不是完美方案】5、访问每一个URL,进入下载,并保存成1个txt文档。:用于处理HTML解析,简化提取特定的标签内容。3、查看网页源码,在界面鼠标右键,检查元素。下载内容,并保存为txt文档,代码。
2025-02-24 09:48:46
429
原创 【无标题】
本作品中所有内容仅供学习参考,不得用于任何商业活动。:用于自动检测文本文件的编码格式,帮助确定不同文件的字符编码,以便正确读取和处理文本数据。点开,前三章观察,除了/89352331,这串数字不一样外。:解析HTML内容,支持XPath选择器,便于提取特定内容。【也可以转成PDF,txt文本有限制长度,不是完美方案】5、访问每一个URL,进入下载,并保存成1个txt文档。:用于处理HTML解析,简化提取特定的标签内容。3、查看网页源码,在界面鼠标右键,检查元素。下载内容,并保存为txt文档,代码。
2024-11-08 16:59:22
449
原创 基于Tesseract_OCR识别
基于Tesseract进行OCR识别图片,并将识别的内容存至txt文件中,再从txt文件中导入exceltxt用于过度查看识别效果,若不用,可直接跳过
2024-09-20 10:02:38
503
原创 [随记]MySQL索引
(1)提高查询速度:索引使得数据库系统不需要完全扫描整个表,而是可以直接定位到符合条件的数据行,从而加快数据检索速度。这将在指定的表上创建一个索引,索引将根据指定的列(或列组合)对表中的数据进行排序,以便快速检索数据。(3)加速数据的唯一性约束:通过在唯一性约束列上创建索引,可以确保数据的唯一性,同时提高检索速度。(4)改善连接性能:在连接操作中,索引可以加速连接的速度,特别是在连接大型表时。(2)提高排序性能:索引能够对数据进行排序,使得排序操作更加高效。(5)测试有索引的查询。
2024-03-18 09:56:19
486
原创 MacOS 电脑如何通过自带terminal终端连接PostgreSQL
是 PostgreSQL 服务器的主机名或 IP 地址,是您的 PostgreSQL 用户名,是要连接的数据库名称。
2024-03-17 08:37:14
1698
原创 iterm 终端设置
运行后,在终端中无法显示 powerlevel10k 主题的图标,因Mac端可能没有想过主题字体。在~/.zshrc文件末尾添加上source ~/.bash_profile保存即可。在iterm终端,点键盘:command + i 键,进入Preferences。bash切换为zsh。zsh切换为bash。文件里,找到ZSH_THEME配置项,设置成。解决方法:vim ~/.zshrc。点击,Color Presets。(1)bash和zsh,如何切换。下载 Unicode 字符集。
2024-03-15 10:30:29
1038
原创 【随记】Django学习 第8篇 request请求对象
在setting.py文件中,找到INSTALLED_APPS,并在最后把应用app,app01填写在此。创建完成后,还需要在根目录(即,项目文件mysite2)下的setting添加一下内容,方可引用。利用pycharm创建Django项目,项目名为:mysite2,并添加app应用:app01。在项目的根目录下(即,与项目名称同名的文件夹下),找到setting.py文件;其中,r'^app01/'中的app01,可以修改,如,改成app02,也可以。
2024-03-14 20:53:33
469
1
原创 [记录]通过js识别当前登录终端,并识别其终端分辨率
因,不同终端的分辨率不同,在web开发时,需要根据用户所登录的终端来识别并适配,以提升用户体验,试写Js,并在macOS的chrome上及iPhone的Safari上测试。
2023-12-11 14:19:20
242
原创 [记录]基于python的pymupdf和opencv提升PDF的清晰度
小学生作业PDF文档有点模糊,打印看不清,利用python提升清晰度,根据实际情况,再调整参数值即可
2023-10-28 15:09:24
1310
原创 通过python执行windows系统DHCP自动分配转固定IP地址
为了便于运维更好的管理局域网内的电脑,考虑将部分电脑通过DHCP自动分配改成固定IP。程序编写后,考虑其他电脑未安装python环境,需要将python文件进行打包处理。既然,电脑能通过DHCP自动分配实现上网,说明其IP地址属于正常能用。4、进入后,输入:change_win_IP.exe,然后回车。3、进到文件夹dist里,然后在路径上,输入:cmd。将整个文件夹,拷贝到所需更改IP地址的电脑上。5、此时,已经改成功了,可打开网络连接看下。接下来,在需要更改IP电脑上执行。(能够看到DHCP的值:是)
2023-10-20 17:13:17
905
原创 (随记)python + selenium + Chrome 在Mac和win系统上实现
步骤二,基于conda 虚拟环境,运行jupyter notebook。Mac验证失败,具体原因还未找到。步骤三,安装selenium。
2023-09-17 09:57:51
546
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅