- 博客(18)
- 收藏
- 关注
原创 项目初览8--文生视频集成&&页面美化&&知识库完善
这种架构不仅使系统具有良好的可扩展性和可维护性,还允许各组件独立升级和优化,形成了一条高效的AI内容生产流水线。文本描述 → 教学脚本 → 虚拟角色 → 语音合成 → 口型动画 → 最终视频。知识库增加书本数量,重新生成FAISS。
2025-06-16 05:13:09
170
原创 w10--文生视频模块之完善篇
本文探讨了花艺教学视频开发中虚拟花艺师角色的口型同步技术,对比了三种实现方案。LivePortrait方案提供最自然的动画效果但计算资源需求高;MediaPipe增强方案通过精确面部检测实现适中的口型同步;静态展示方案作为可靠的降级选项。综合考虑后,项目团队最终决定删除口型同步功能,并增强视频库的管理功能,支持单条和批量删除操作。
2025-06-16 03:50:58
312
原创 w9--图像生成之草图控制、批量生成与图像画廊的技术实现
该项目构建了智能花艺设计系统,重点开发了三大核心技术功能:1)草图控制生成采用Stability AI的ControlNet技术,支持用户通过手绘草图指导AI生成专业花艺作品,包含智能预处理和多控制模式;2)批量生成系统可一次性产出多种风格的花艺方案,支持实时预览和参数调整;3)图像画廊实现生成结果的高效管理,提供智能分类和快速检索功能。系统整合了RAG知识库与语音交互,为花艺设计提供全流程AI支持。技术实现上注重用户体验与计算效率的平衡,采用预处理优化和API调用策
2025-06-07 22:11:06
333
原创 w8--图像生成的交互编辑功能之完善篇
PIL,全称Python Image Library,主要作用是图像处理,可用于图片剪切、粘贴、缩放、镜像、水印、颜色块、滤镜、图像格式转换、色场空间转换、验证码、旋转图像、图像增强、直方图处理、插值和滤波等功能。Pillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库。我们需要安装的就是Pillow。
2025-05-30 00:14:03
922
原创 w7--图像生成的交互编辑功能之检测算法
本文将分享我在构建 `enhanced_image_generation.py` 模块时的学习历程、技术思考和创新实践。这个模块不仅实现了高质量的花艺图像生成,还提供了丰富的交互式编辑功能。
2025-05-22 00:22:50
49
原创 项目初览6--语音交互功能完善
本文介绍了语音交互功能的优化。首先确认API可正常使用,并修正了音频文件报错问题。在功能调整方面,删除了独立的语音交互界面,仅保留首页语音输入/输出按钮,维持核心的语音识别(STT)和合成(TTS)功能。技术实现上,确保SpringBoot与Python端API接口参数、数据格式及版本严格对齐,采用Swagger规范文档化。前端简化了界面,隐藏语音面板,保留按钮触发逻辑,直接调用现有API实现语音功能。整个优化过程兼顾了功能实用性和技术一致性。
2025-05-12 22:59:29
58
原创 w6--语音合成和识别 API 报错调试记录
在开发语音交互功能时,我遇到一个持续报错的问题:API 提示无法识别。为了排查问题,我编写了一个音频格式修复工具,并使用日志和可视化手段定位原因。
2025-05-12 22:57:05
100
原创 项目初览4--阶段性小结(涉及LLM)
完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:
2025-05-05 22:00:25
273
原创 w5--文生视频模块的技术解析
为了满足不同用户对角色风格的偏好,我实现了风格参数化控制系统,通过调整提示词和模型参数,可以在保持专业性的同时实现动漫、写实或绘画风格的精确切换。:实现了基于规则和机器学习的混合情感分析系统,能够捕捉文本中的情感和语气变化,并据此动态调整语音合成参数,使语音表达更加自然。:实现了一系列音频后处理技术,包括噪声抑制、均衡器调整和动态范围压缩,提高了语音的清晰度和专业感。:实现了基于能量变化率的口型切换阈值动态调整和过渡帧插值技术,避免了口型切换时的生硬感,提高了动画自然度。
2025-05-05 15:36:11
1538
原创 项目初览3--语音交互模块
技术概览- 语音识别(ASR) :将用户语音转换为文本 - 文本处理 :利用RAG(检索增强生成)系统分析查询- 语音合成(TTS) :将AI响应转换为自然语音- 方言检测 :自动识别用户使用的方言- 音频处理工具:处理音频编码、解码和临时存储
2025-04-30 00:13:54
161
原创 w4--本地部署数据集生成&&语音交互模块
在接下来的阶段,我们将继续优化数据质量并扩展应用场景,期待这个项目能为花艺教育和专业咨询提供更丰富的智能化支持。
2025-04-28 14:35:02
337
原创 w2、3--多模态集成:文生图模型原理&&API调用
扩散模型的核心思想是通过一个逐步加噪和去噪的过程。训练时学习如何将被完全破坏的数据恢复为原始数据,推理时则从纯随机噪声开始,逐步"去噪"生成有意义的数据。
2025-04-22 13:29:39
894
原创 项目初览--知识查询功能
项目已经完成了一个功能较为完整的插花艺术AI顾问系统的骨架,核心的RAG系统设计合理,API接口完备。但多模态功能(语音、图像)仍处于框架阶段,缺少实际实现;用户界面也需要进一步完善。项目的设计表明已经考虑到了API调用的成本和效率问题,通过查询分类和本地模型来优化。下一步可能需要完成模态功能的实际实现、丰富知识库内容、完善用户界面,以及进行系统性能测试和优化。
2025-04-14 20:12:44
1026
原创 w1--RAG+LLM api的简易实现
RAG全称是Retrieval-Augmented Generation(检索增强生成),一句话解释就是:把问题和相应的参考资料一起给大模型,以期望得到效果更好的模型表现。
2025-04-05 22:32:17
2011
原创 LeetCode Day1 水壶问题
再次,把一个不满的桶里面的水倒掉是没有意义的。如果其中一个水壶的水量等于z,或者两个水壶的水量之和等于z,那么可以得到目标水量,返回true。而只要满足 z≤x+yz\leq x+yz≤x+y,且这样的 a,ba, ba,b 存在,那么我们的目标就是可以达成的。因为观察所有题目中的操作,操作的结果都至少有一个桶是空的或者满的;如果 y 壶不为空,那么 x 壶肯定是满的,把 x 壶倒空,然后再把 y 壶的水倒入 x 壶。我们认为,每次操作只会让桶里的水总量增加 x,增加 y,减少 x,或者减少 y。
2024-01-29 00:19:27
636
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅