jju_-优快云博客

原创项目初览8--文生视频集成&&页面美化&&知识库完善

这种架构不仅使系统具有良好的可扩展性和可维护性，还允许各组件独立升级和优化，形成了一条高效的AI内容生产流水线。文本描述 → 教学脚本 → 虚拟角色 → 语音合成 → 口型动画 → 最终视频。知识库增加书本数量，重新生成FAISS。

2025-06-16 05:13:09 170

原创 w10--文生视频模块之完善篇

本文探讨了花艺教学视频开发中虚拟花艺师角色的口型同步技术，对比了三种实现方案。LivePortrait方案提供最自然的动画效果但计算资源需求高；MediaPipe增强方案通过精确面部检测实现适中的口型同步；静态展示方案作为可靠的降级选项。综合考虑后，项目团队最终决定删除口型同步功能，并增强视频库的管理功能，支持单条和批量删除操作。

2025-06-16 03:50:58 312

原创项目初览7--花艺设计图像生成功能完善

后端完成花艺设计图像生成功能功能撰写和API通信，前端完成页面展示。

2025-06-07 22:11:38 139

原创 w9--图像生成之草图控制、批量生成与图像画廊的技术实现

该项目构建了智能花艺设计系统，重点开发了三大核心技术功能：1）草图控制生成采用Stability AI的ControlNet技术，支持用户通过手绘草图指导AI生成专业花艺作品，包含智能预处理和多控制模式；2）批量生成系统可一次性产出多种风格的花艺方案，支持实时预览和参数调整；3）图像画廊实现生成结果的高效管理，提供智能分类和快速检索功能。系统整合了RAG知识库与语音交互，为花艺设计提供全流程AI支持。技术实现上注重用户体验与计算效率的平衡，采用预处理优化和API调用策

2025-06-07 22:11:06 333

原创 w8--图像生成的交互编辑功能之完善篇

PIL，全称Python Image Library，主要作用是图像处理，可用于图片剪切、粘贴、缩放、镜像、水印、颜色块、滤镜、图像格式转换、色场空间转换、验证码、旋转图像、图像增强、直方图处理、插值和滤波等功能。Pillow是PIL的一个派生分支，但如今已经发展成为比PIL本身更具活力的图像处理库。我们需要安装的就是Pillow。

2025-05-30 00:14:03 922

原创 w7--图像生成的交互编辑功能之检测算法

本文将分享我在构建 `enhanced_image_generation.py` 模块时的学习历程、技术思考和创新实践。这个模块不仅实现了高质量的花艺图像生成，还提供了丰富的交互式编辑功能。

2025-05-22 00:22:50 49

原创项目初览6--语音交互功能完善

本文介绍了语音交互功能的优化。首先确认API可正常使用，并修正了音频文件报错问题。在功能调整方面，删除了独立的语音交互界面，仅保留首页语音输入/输出按钮，维持核心的语音识别（STT）和合成（TTS）功能。技术实现上，确保SpringBoot与Python端API接口参数、数据格式及版本严格对齐，采用Swagger规范文档化。前端简化了界面，隐藏语音面板，保留按钮触发逻辑，直接调用现有API实现语音功能。整个优化过程兼顾了功能实用性和技术一致性。

2025-05-12 22:59:29 58

原创 w6--语音合成和识别 API 报错调试记录

在开发语音交互功能时，我遇到一个持续报错的问题：API 提示无法识别。为了排查问题，我编写了一个音频格式修复工具，并使用日志和可视化手段定位原因。

2025-05-12 22:57:05 100

原创项目初览5--阶段性小结（涉及多模态部分）

完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：

2025-05-05 22:31:46 281

原创项目初览4--阶段性小结（涉及LLM）

完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：存在问题：改进计划：

2025-05-05 22:00:25 273

原创 w5--文生视频模块的技术解析

为了满足不同用户对角色风格的偏好，我实现了风格参数化控制系统，通过调整提示词和模型参数，可以在保持专业性的同时实现动漫、写实或绘画风格的精确切换。：实现了基于规则和机器学习的混合情感分析系统，能够捕捉文本中的情感和语气变化，并据此动态调整语音合成参数，使语音表达更加自然。：实现了一系列音频后处理技术，包括噪声抑制、均衡器调整和动态范围压缩，提高了语音的清晰度和专业感。：实现了基于能量变化率的口型切换阈值动态调整和过渡帧插值技术，避免了口型切换时的生硬感，提高了动画自然度。

2025-05-05 15:36:11 1538

原创项目初览3--语音交互模块

技术概览- 语音识别（ASR）：将用户语音转换为文本 - 文本处理：利用RAG（检索增强生成）系统分析查询- 语音合成（TTS）：将AI响应转换为自然语音- 方言检测：自动识别用户使用的方言- 音频处理工具：处理音频编码、解码和临时存储

2025-04-30 00:13:54 161

原创 w4--本地部署数据集生成&&语音交互模块

在接下来的阶段，我们将继续优化数据质量并扩展应用场景，期待这个项目能为花艺教育和专业咨询提供更丰富的智能化支持。

2025-04-28 14:35:02 337

原创 w2、3--多模态集成：文生图模型原理&&API调用

扩散模型的核心思想是通过一个逐步加噪和去噪的过程。训练时学习如何将被完全破坏的数据恢复为原始数据，推理时则从纯随机噪声开始，逐步"去噪"生成有意义的数据。

2025-04-22 13:29:39 894

原创项目初览2--图像生成功能

首页进行知识查询时可选择生成图像，既有文字解释，又有图像作为参考。

2025-04-22 13:15:21 426

原创项目初览--知识查询功能

项目已经完成了一个功能较为完整的插花艺术AI顾问系统的骨架，核心的RAG系统设计合理，API接口完备。但多模态功能（语音、图像）仍处于框架阶段，缺少实际实现；用户界面也需要进一步完善。项目的设计表明已经考虑到了API调用的成本和效率问题，通过查询分类和本地模型来优化。下一步可能需要完成模态功能的实际实现、丰富知识库内容、完善用户界面，以及进行系统性能测试和优化。

2025-04-14 20:12:44 1026

原创 w1--RAG+LLM api的简易实现

RAG全称是Retrieval-Augmented Generation(检索增强生成)，一句话解释就是：把问题和相应的参考资料一起给大模型，以期望得到效果更好的模型表现。

2025-04-05 22:32:17 2011

原创 LeetCode Day1 水壶问题

再次，把一个不满的桶里面的水倒掉是没有意义的。如果其中一个水壶的水量等于z，或者两个水壶的水量之和等于z，那么可以得到目标水量，返回true。而只要满足 z≤x+yz\leq x+yz≤x+y，且这样的 a,ba, ba,b 存在，那么我们的目标就是可以达成的。因为观察所有题目中的操作，操作的结果都至少有一个桶是空的或者满的；如果 y 壶不为空，那么 x 壶肯定是满的，把 x 壶倒空，然后再把 y 壶的水倒入 x 壶。我们认为，每次操作只会让桶里的水总量增加 x，增加 y，减少 x，或者减少 y。

2024-01-29 00:19:27 636 1

m0_72940284的博客