自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 项目初览8--文生视频集成&&页面美化&&知识库完善

这种架构不仅使系统具有良好的可扩展性和可维护性,还允许各组件独立升级和优化,形成了一条高效的AI内容生产流水线。文本描述 → 教学脚本 → 虚拟角色 → 语音合成 → 口型动画 → 最终视频。知识库增加书本数量,重新生成FAISS。

2025-06-16 05:13:09 170

原创 w10--文生视频模块之完善篇

本文探讨了花艺教学视频开发中虚拟花艺师角色的口型同步技术,对比了三种实现方案。LivePortrait方案提供最自然的动画效果但计算资源需求高;MediaPipe增强方案通过精确面部检测实现适中的口型同步;静态展示方案作为可靠的降级选项。综合考虑后,项目团队最终决定删除口型同步功能,并增强视频库的管理功能,支持单条和批量删除操作。

2025-06-16 03:50:58 312

原创 项目初览7--花艺设计图像生成功能完善

后端完成花艺设计图像生成功能功能撰写和API通信,前端完成页面展示。

2025-06-07 22:11:38 139

原创 w9--图像生成之草图控制、批量生成与图像画廊的技术实现

该项目构建了智能花艺设计系统,重点开发了三大核心技术功能:1)草图控制生成采用Stability AI的ControlNet技术,支持用户通过手绘草图指导AI生成专业花艺作品,包含智能预处理和多控制模式;2)批量生成系统可一次性产出多种风格的花艺方案,支持实时预览和参数调整;3)图像画廊实现生成结果的高效管理,提供智能分类和快速检索功能。系统整合了RAG知识库与语音交互,为花艺设计提供全流程AI支持。技术实现上注重用户体验与计算效率的平衡,采用预处理优化和API调用策

2025-06-07 22:11:06 333

原创 w8--图像生成的交互编辑功能之完善篇

PIL,全称Python Image Library,主要作用是图像处理,可用于图片剪切、粘贴、缩放、镜像、水印、颜色块、滤镜、图像格式转换、色场空间转换、验证码、旋转图像、图像增强、直方图处理、插值和滤波等功能。Pillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库。我们需要安装的就是Pillow。

2025-05-30 00:14:03 922

原创 w7--图像生成的交互编辑功能之检测算法

本文将分享我在构建 `enhanced_image_generation.py` 模块时的学习历程、技术思考和创新实践。这个模块不仅实现了高质量的花艺图像生成,还提供了丰富的交互式编辑功能。

2025-05-22 00:22:50 49

原创 项目初览6--语音交互功能完善

本文介绍了语音交互功能的优化。首先确认API可正常使用,并修正了音频文件报错问题。在功能调整方面,删除了独立的语音交互界面,仅保留首页语音输入/输出按钮,维持核心的语音识别(STT)和合成(TTS)功能。技术实现上,确保SpringBoot与Python端API接口参数、数据格式及版本严格对齐,采用Swagger规范文档化。前端简化了界面,隐藏语音面板,保留按钮触发逻辑,直接调用现有API实现语音功能。整个优化过程兼顾了功能实用性和技术一致性。

2025-05-12 22:59:29 58

原创 w6--语音合成和识别 API 报错调试记录

在开发语音交互功能时,我遇到一个持续报错的问题:API 提示无法识别。为了排查问题,我编写了一个音频格式修复工具,并使用日志和可视化手段定位原因。

2025-05-12 22:57:05 100

原创 项目初览5--阶段性小结(涉及多模态部分)

完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:

2025-05-05 22:31:46 281

原创 项目初览4--阶段性小结(涉及LLM)

完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:

2025-05-05 22:00:25 273

原创 w5--文生视频模块的技术解析

为了满足不同用户对角色风格的偏好,我实现了风格参数化控制系统,通过调整提示词和模型参数,可以在保持专业性的同时实现动漫、写实或绘画风格的精确切换。:实现了基于规则和机器学习的混合情感分析系统,能够捕捉文本中的情感和语气变化,并据此动态调整语音合成参数,使语音表达更加自然。:实现了一系列音频后处理技术,包括噪声抑制、均衡器调整和动态范围压缩,提高了语音的清晰度和专业感。:实现了基于能量变化率的口型切换阈值动态调整和过渡帧插值技术,避免了口型切换时的生硬感,提高了动画自然度。

2025-05-05 15:36:11 1538

原创 项目初览3--语音交互模块

技术概览- 语音识别(ASR) :将用户语音转换为文本 - 文本处理 :利用RAG(检索增强生成)系统分析查询- 语音合成(TTS) :将AI响应转换为自然语音- 方言检测 :自动识别用户使用的方言- 音频处理工具:处理音频编码、解码和临时存储

2025-04-30 00:13:54 161

原创 w4--本地部署数据集生成&&语音交互模块

在接下来的阶段,我们将继续优化数据质量并扩展应用场景,期待这个项目能为花艺教育和专业咨询提供更丰富的智能化支持。

2025-04-28 14:35:02 337

原创 w2、3--多模态集成:文生图模型原理&&API调用

扩散模型的核心思想是通过一个逐步加噪和去噪的过程。训练时学习如何将被完全破坏的数据恢复为原始数据,推理时则从纯随机噪声开始,逐步"去噪"生成有意义的数据。

2025-04-22 13:29:39 894

原创 项目初览2--图像生成功能

首页进行知识查询时可选择生成图像,既有文字解释,又有图像作为参考。

2025-04-22 13:15:21 426

原创 项目初览--知识查询功能

项目已经完成了一个功能较为完整的插花艺术AI顾问系统的骨架,核心的RAG系统设计合理,API接口完备。但多模态功能(语音、图像)仍处于框架阶段,缺少实际实现;用户界面也需要进一步完善。项目的设计表明已经考虑到了API调用的成本和效率问题,通过查询分类和本地模型来优化。下一步可能需要完成模态功能的实际实现、丰富知识库内容、完善用户界面,以及进行系统性能测试和优化。

2025-04-14 20:12:44 1026

原创 w1--RAG+LLM api的简易实现

RAG全称是Retrieval-Augmented Generation(检索增强生成),一句话解释就是:把问题和相应的参考资料一起给大模型,以期望得到效果更好的模型表现。

2025-04-05 22:32:17 2011

原创 LeetCode Day1 水壶问题

再次,把一个不满的桶里面的水倒掉是没有意义的。如果其中一个水壶的水量等于z,或者两个水壶的水量之和等于z,那么可以得到目标水量,返回true。而只要满足 z≤x+yz\leq x+yz≤x+y,且这样的 a,ba, ba,b 存在,那么我们的目标就是可以达成的。因为观察所有题目中的操作,操作的结果都至少有一个桶是空的或者满的;如果 y 壶不为空,那么 x 壶肯定是满的,把 x 壶倒空,然后再把 y 壶的水倒入 x 壶。我们认为,每次操作只会让桶里的水总量增加 x,增加 y,减少 x,或者减少 y。

2024-01-29 00:19:27 636 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除