使用 Cursor 重写 stt demo

1. 背景

在 3 月的时候,为了方便自测,笔者使用 cursor 实现了一个 stt demo ,以简化测试流程。但是计划总是没有变化快,在 5 月的时候,产品做了整体的重构升级,连 api 接口名称都大变样。

做人心态要好,大不了就重新实现一个 stt 的 demo,毕竟现在有了 cursor 的支持,想想应该不复杂了。

注:重构的版本,当然在体验感上必须由于之前的版本。

2. demo 实现

2.1 笔者思路开始

笔者自己的思路是

  • 首先,让 cursor 使用 github 上现成的 rtc demo

  • 其次,确认 rtc demo 集成后,将 stt 开发中的 api 版本复制给 cursor

  • 最后,让 cursor 在 rtc demo 的集成中加入 stt 的能力

最终实现的效果:

  • 输入频道名、appid 、测试的环境 api 信息后,可以开启一个支持 stt 频道

    在这里插入图片描述

  • 进入频道后,可以看到「转录翻译展示」、「转录和翻译的历史回溯」、「启停 stt」的 button

    在这里插入图片描述

    注:这个语言统计分析,原本的设计是想做一个转录和翻译的延迟的分析,但是笔者暂时还没有更好的思路,暂时留白了

2.2 实现反思

2.2.1 优点

相较于 3 月分实现的 demo ,这个测试 demo 的功能更加丰富,不仅支持请求 staging 、prod 环境,还支持了翻译设置。

2.2.2 缺点

笔者复盘了一下使用 cursor 实现这个 demo 的耗时,前前后后挤出来的时间大概要 3 ~ 4h,感觉这个极简的 demo 实现,以 cursor 能力,不应该耗时这么久。

回想了之前 AWS 宣传 Q AI 编程助手时,讲解的一些例子。大概问题应该在:

  • 笔者实现的时候还是按照传统的思路,自己先构思,然后让 AI 按照笔者的思路一步一步实现。

  • staging 环境的域名,暂时还不支持跨域,为了支持 staging 环境的调用,调试了比较久

  • cursor 实现的一些问题点,比如「button 」点击没有反应和解析 stt 服务转录和翻译推送回 rtc 的协议部分也耗时比较久

2.2.3 思考

如果过分压榨人的价值,人会反抗;但是如果过分压榨机器呢?比如,笔者反反复复的让 cursor 基于 stt demo 的问题,进行修复。

  • 让人修复问题,必须提供更多的基础信息和上下文。

  • 让 AI 修复问题,笔者只是将报错复制粘贴过去,似乎都不用动脑子思考🤔

《千与千寻》里说「吃太胖会被杀掉」,那如果被 AI 训练的不再思考,会怎么样呢?

  • 会变得失去对别人表达的判断

  • 会变得以 AI 的表达为真理

  • ……

注:AI 应该是作为人的助力,而不应该人变成助力。不过照着这个趋势下去,AI 似乎取代人成功主力也没什么不可能的。

随处可见的机械手臂,取代了人工搬运,是好事!

2.3 cursor 思路

复盘过之后,笔者在思考,假如真的需要重新再再再次实现一个 demo ,这次的实现是否可以压缩到 1 ~ 2h 呢?

想想应该也没有什么不可能的,毕竟 AI 强大的记忆存储系统和推理能力,是人类不能达到的。

让 cursor 的实现思路优化版本:

  • 首先,需要实现一个 demo ,demo 需要使用 xx 公司的 rtc & stt 两个产品,需要支持 stt 转录和翻译的语种设置,实现的时候要充分考虑测试 prod & staging 两个环境的可能,以上述信息生成一个基础的设计文档。

  • 其次,在设计文档中如果有不明确,需要补充的部分,人工补充进去,比如暂未对外部发布的 stt api 等。

  • 最后,按照这个设计文档逐步实现 stt demo ,注意实现时需确保所有 button 等功能可以被访问。

如果下次版本升级或者 api 变化,笔者就按照这个思路再实现一次,争取 1h 内能速成!

3.碎碎念

如果一个问题总是出现,并且需要消耗大部分的时间,就要想办法做成自动化。人的精力有限,应该花在做有意义的事情上,今天也是努力的一天吖!

  • 后来我才知道,前程似锦是告别的意思。

  • 在最艰难的时刻,我们总想寻找一个依靠,但最终会发现,有的山布满荆棘,有的山满是野兽。所以,你应该成为自己的那座山。

  • 我站在人潮中央,思考这日日重复的生活。我突然想,如果有一天,垂老和年轻都难以惊起心中连漪,一潭死水的沉闷,鲜花和蛋糕也撼动不了。如果人开始不能为微小事物而感动。那么地震山洪的噩耗想必也惊闻不了。如果活着和死亡的本质无异,那便没有了存在的意义。

航拍图像多类别实例分割数据集 一、基础信息 • 数据集名称:航拍图像多类别实例分割数据集 • 图片数量: 训练集:1283张图片 验证集:416张图片 总计:1699张航拍图片 • 训练集:1283张图片 • 验证集:416张图片 • 总计:1699张航拍图片 • 分类类别: 桥梁(Bridge) 田径场(GroundTrackField) 港口(Harbor) 直升机(Helicopter) 大型车辆(LargeVehicle) 环岛(Roundabout) 小型车辆(SmallVehicle) 足球场(Soccerballfield) 游泳池(Swimmingpool) 棒球场(baseballdiamond) 篮球场(basketballcourt) 飞机(plane) 船只(ship) 储罐(storagetank) 网球场(tennis_court) • 桥梁(Bridge) • 田径场(GroundTrackField) • 港口(Harbor) • 直升机(Helicopter) • 大型车辆(LargeVehicle) • 环岛(Roundabout) • 小型车辆(SmallVehicle) • 足球场(Soccerballfield) • 游泳池(Swimmingpool) • 棒球场(baseballdiamond) • 篮球场(basketballcourt) • 飞机(plane) • 船只(ship) • 储罐(storagetank) • 网球场(tennis_court) • 标注格式:YOLO格式,包含实例分割的多边形坐标,适用于实例分割任务。 • 数据格式:航拍图像数据。 二、适用场景 • 航拍图像分析系统开发:数据集支持实例分割任务,帮助构建能够自动识别和分割航拍图像中各种物体的AI模型,用于地理信息系统、环境监测等。 • 城市
内容概要:本文详细介绍了一个基于YOLO系列模型(YOLOv5/YOLOv8/YOLOv10)的车祸检测与事故报警系统的设计与实现,适用于毕业设计项目。文章从项目背景出发,阐述了传统人工监控的局限性和智能车祸检测的社会价值,随后对比分析了YOLO不同版本的特点,指导读者根据需求选择合适的模型。接着,系统明确了核心功能目标,包括车祸识别、实时报警、多场景适配和可视化界面开发。在技术实现部分,文章讲解了数据集获取与标注方法、数据增强策略、模型训练与评估流程,并提供了完整的代码示例,涵盖环境搭建、训练指令、推理测试以及基于Tkinter的图形界面开发,实现了视频加载、实时检测与弹窗报警功能。最后,文章总结了项目的全流程实践意义,并展望了未来在智慧城市、车联网等方向的扩展潜力。; 适合人群:计算机相关专业本科毕业生,具备一定Python编程基础和机器学习基础知识,正在进行毕业设计的学生;; 使用场景及目标:①完成一个具有实际社会价值的毕设项目,展示从数据处理到模型部署的全流程能力;②掌握YOLO目标检测模型的应用与优化技巧;③开发具备实时检测与报警功能的交通监控系统,用于答辩演示或科研展示; 阅读建议:建议按照“背景—数据—模型—界面—总结”的顺序逐步实践,结合提供的代码链接进行动手操作,在训练模型时注意调整参数以适应本地硬件条件,同时可在基础上拓展更多功能如短信报警、多摄像头接入等以提升项目创新性。
### ESP32 集成科大讯飞 STT 实现方法 #### 准备工作 为了使 ESP32 能够成功集成并使用科大讯飞的语音识别服务 (Speech To Text, STT),需要完成一系列准备工作。这包括但不限于硬件准备和软件环境配置。 - **硬件准备**:选用支持 Wi-Fi 和音频输入功能的模块,如 ESP32-CAM 或其他带有麦克风接口的 ESP32 版本[^1]。 - **开发工具安装**:确保已安装 Arduino IDE 并添加了 ESP32 开发板的支持库。此外还需要安装用于处理 HTTP 请求的相关库以及 JSON 解析库。 #### 获取 API Key 访问科大讯飞开放平台网站注册账号,并创建应用以获取必要的 `AppID`、`APIKey` 及 `APISecret` 参数。这些参数将在后续调用 RESTful API 时作为身份验证凭证使用。 #### 编写代码逻辑 下面是一个简单的 Python 示例程序框架来展示如何利用 ESP32 设备接入科大讯飞 STT: ```cpp #include <WiFi.h> #include <HTTPClient.h> // WiFi 设置 const char* ssid = "YOUR_SSID"; const char* password = "YOUR_PASSWORD"; // 科大讯飞设置 #define APP_ID "your_app_id" #define API_KEY "your_api_key" #define SECRET_KEY "your_secret_key" void setup() { Serial.begin(115200); // 初始化 WiFi 连接 WiFi.begin(ssid, password); while (WiFi.status() != WL_CONNECTED) { delay(1000); Serial.println("Connecting to WiFi..."); } } void loop() { if(WiFi.status()==WL_CONNECTED){ String url = "https://api.xfyun.cn/v1/service/v1/iat?"; String param = "param"; // 创建 HTTP 客户端实例 HTTPClient http; // 发送 POST 请求到科大讯飞服务器 http.begin(url); http.addHeader("Content-Type", "application/json"); http.addHeader("Authorization", getAuth()); int httpResponseCode = http.POST(param); if(httpResponseCode>0){ String response = http.getString(); Serial.print(response); }else{ Serial.printf("Error on sending POST: %d\n",httpResponseCode); } // 断开连接释放资源 http.end(); delay(60000); // 每分钟发送一次请求测试 } } ``` 此段代码展示了基本流程,实际项目中可能还需考虑更多细节,比如错误重试机制、更复杂的参数构建等。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值