程老师2088
毕业于中山大学,曾任网易游戏资深BI研究员、高级软件工程师,多年开发和软件项目管理经验。技艺较杂,愿与大家分享和共同进步
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI框架工具FastRTC快速上手6——视频流案例之物体检测(下)
本文介绍了如何利用FastRTC框架结合YOLOv10模型实现实时视频流的物体检测。通过导入相关依赖、下载预训练模型、创建检测处理函数,并构建Stream对象,实现了对视频流每帧图像进行物体识别和标注的功能。文章重点展示了FastRTC框架的简洁性,开发者只需关注核心算法实现(YOLO物体检测),而无需处理底层视频流处理逻辑。最终效果演示了实时视频中物体的检测和标注,并通过滑动条支持置信度阈值调节。相比传统开发方式,FastRTC显著提升了算法测试效率,解决了算法工程师需要前端开发支持的问题。原创 2025-08-05 18:42:17 · 116 阅读 · 0 评论 -
AI框架工具FastRTC快速上手5——视频流案例之物体检测(上)
本文介绍了如何利用YOLOv10模型实现物体检测功能。主要内容包括:1) 封装YOLO类处理模型初始化、推理及结果可视化;2) 提供工具类实现边界框转换等辅助功能;3) 通过Hugging Face获取ONNX模型文件;4) 演示完整的图片检测流程。文章为后续结合FastRTC实现实时视频流检测奠定基础,展现了专注算法实现而无需过多考虑工程框架的优势。代码注释详细,包含模型推理核心流程和工具方法实现。原创 2025-08-05 17:12:27 · 123 阅读 · 0 评论 -
AI框架工具FastRTC快速上手4——视频流案例之镜像反转
本文介绍了如何使用FastRTC框架实现视频流处理,通过一个简单的摄像头画面镜像反转案例演示了视频流处理的基本流程。文章首先回顾了FastRTC建立音视频AI应用的三部曲:定义handler函数、创建Stream对象和启动应用。随后详细解析了实现代码,重点讲解了numpy库中flip方法的使用,说明如何通过设置axis参数实现图像上下反转。该案例展示了FastRTC处理视频流的能力。原创 2025-08-05 12:38:28 · 141 阅读 · 0 评论 -
AI框架工具FastRTC快速上手3——加入LLM大模型实现人机对话
本文介绍了基于FastRTC框架实现人机语音对话的完整流程。开发者首先需要注册阿里云百炼平台获取LLM大模型API,然后通过FastRTC实现语音采集、语音转文字(STT)、调用大模型生成回复、文字转语音(TTS)四个核心步骤。文章提供了详细的代码实现,仅需20行左右即可完成一个语音交互应用,其中关键点包括使用get_stt_model()和get_tts_model()获取处理模型,以及通过OpenAI兼容接口调用通义千问等大模型。该方案充分发挥了FastRTC框架简化音视频AI应用开发的特性。原创 2025-08-04 15:55:01 · 288 阅读 · 0 评论 -
AI框架工具FastRTC快速上手2——整体框架及Stream类详解
本文详细解析了基于FastRTC框架开发的基本过程。框架核心包括三个部分:1)定义处理音频的handler函数实现业务逻辑;2)创建Stream类对象管理点对点连接和媒体轨道;3)通过ui.launch()启动服务。重点剖析了Stream类的关键参数、ReplyOnPause类的停顿检测功能,以及Gradio界面部署方式。原创 2025-07-30 15:17:34 · 125 阅读 · 0 评论 -
AI框架工具FastRTC快速上手1——框架搭建及回音壁DEMO
FastRTC是一款基于Python的实时通信库,专为解决AI开发者快速验证音视频模型的需求而设计。相比Gradio,它能以更简洁的方式实现音视频流处理,只需几行代码即可构建实时交互应用。文章通过回音壁Demo(10行代码实现音频回传)展示了其高效性,并详细介绍了基于Ubuntu的Anaconda环境配置流程。该框架封装了WebRTC核心功能,支持自动生成UI界面,极大降低了开发者构建音视频AI应用的门槛。原创 2025-07-29 16:47:20 · 169 阅读 · 0 评论
分享