今日进展:工具链与功能迭代
今晚主要将开发工具升级至2026版,并重新导入项目。同时研究了.NET 4.8类库,并规划了未来向.NET 6迁移的路径。针对新版本发布后的工作流,进行了一些细节上的思考与调整。
在语音转换模块,当前仅支持MP3格式。计划扩展后台支持的文件格式,以实现更通用的音频/视频语音识别。触发这一需求的原因,是我想提取个人历史视频中的语音并转为文本,却发现当前流程必须依赖AI云服务导入。因此,计划在应用界面内直接集成本地文件导入与转换功能。
下一步核心:构建个人数据与微调管道
目前,文件导入、图片识别、语音转文本这条数据处理管线已基本打通。数据经格式化后已能保存至用户本地。接下来的核心是构建个人专属的资料库,为AI微调做准备。
与常见的向量知识库(RAG)方案相比,我认为其检索速度有时不尽如人意。因此,我更倾向于采用完全的模型微调方案,将个人数据定期训练到自有模型中,以打造更贴合个人需求的“AI伴侣”。这比传统知识库检索更为彻底和个性化。
“我的目标是建立一个完整的流程:从数据收集、处理,到最终的模型微调,形成一个闭环。这之后,才会考虑扩展如语音生成、视频生成等上游能力。”
行业观察:AI助手热潮的实质与警示
看到市面上对各类AI手机助手的追捧,作为一个有20多年经验的开发者,我的看法可能不同。许多所谓的新产品,其核心逻辑无异于我们早已熟知的“按键精灵”,只是在自动化脚本的基础上,叠加了当前的AI识别能力。
这印证了我一直以来的观点:AI时代,几乎所有传统软件都需要被重构一遍,融入AI能力以实现真正的智能化。过去需要复杂编程实现的自动化功能,在AI能力加持下可能变得非常简单。
安全警示:这类需要深度系统权限的助手工具存在显著安全隐患。它们能够操作你的手机(如同远程控制电脑),意味着一旦授权,你在设备上的操作几乎无秘密可言。它们可以截图、分析屏幕内容并上传服务器。安卓系统严格的权限要求正是为此。在数据流转过程中,用户的隐私边界变得非常模糊。
当前的部分“热潮”,本质上是信息差导致的认知落差。许多功能在定制化系统或自动化工具中早已实现,只是未被大众广泛知晓。现在披上AI的外衣,便成了“革命性”产品。
趋势判断:不可阻挡的AI重构浪潮
我的核心观点是:在AI的冲击下,所有传统软件都将面临被AI能力重构的命运。这不仅是功能的叠加,更是逻辑与体验的重写。自动化流程将被AI重新定义,开发模式也将迭代。
这是过去二十多年软硬件发展不断验证的规律——每一代新技术的出现,都意味着对前一代产品的升级与换代。拥抱变化,理解本质,同时警惕伴随新技术而来的新风险,才是从业者应有的态度。
本文基于开发者日志与行业思考整理而成,代表个人技术见解。

被折叠的 条评论
为什么被折叠?



