
AIGC
文章平均质量分 88
AIGC
花千树-010
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用 Firebase 和 WebRTC 快速搭建一款浏览器视频聊天应用
在现代 Web 应用中,实时音视频通信变得越来越普遍。本文将通过一个简洁实用的示例,带你一步步搭建一个基于的浏览器视频聊天应用,帮助你理解 WebRTC 的核心通信机制以及如何借助 Firebase 进行信令传输。原创 2025-04-23 19:45:00 · 643 阅读 · 0 评论 -
开源 RTC 技术栈全解析:打造实时音视频通信的数字人底座
RTC 是 Real-Time Communication 的缩写,意为实时通信。低延迟:毫秒级数据交互;双向传输:通常为 P2P 或通过服务端中继;音视频及数据同步传输:实现完整交互能力。在数字人、直播互动、在线教育、协同办公、远程医疗等领域中,RTC 的作用至关重要。开源 RTC 技术的成熟,让构建低延迟、高交互的实时通信应用变得更加可控和高效。通过合理选择协议栈和组件,你可以为数字人直播、语音聊天室、在线教育等场景提供强大的通信能力。原创 2025-04-23 09:15:00 · 1289 阅读 · 0 评论 -
基于 WebRTC + Pion + HeyGem.ai 实现可互动的数字人系统
通过本文提供的技术模型和实例,你已经能很方便地用 WebRTC + Pion + HeyGem.ai 实现一个可以被语音调用、自动生成声音和影像的数字人完整连通系统。如果需要我帮你完全写出这套 demo 程序,可以指定需要部分(前端、Pion、HeyGem 接入),我可以给出完整源码和启动方案。原创 2025-04-22 09:00:00 · 2511 阅读 · 0 评论 -
MCP - 使用 BlenderMCP 让 Claude AI 控制你的 Blender 模型创作
BlenderMCP 打通了 AI 与 3D 工具之间的壁垒,使得通过 Claude 自然语言即可进行场景构建、模型控制和素材管理等操作,大幅度简化建模流程。无论是个人创作、游戏原型设计还是团队协作,这套流程都值得你体验一番。uv。原创 2025-03-30 13:15:40 · 2828 阅读 · 4 评论 -
使用 Helm 在 Kubernetes 上部署高可用的 Dify 系统
Dify 是一个功能强大的开源 LLMOps 平台,虽然官方提供了基于 `docker-compose` 的部署方式,但在生产环境中,我们通常需要具备可扩展性、高可用性和容错性,这些正是 Kubernetes 所擅长的,于是开源一个 dify-chart 项目,实现基于 `Helm` 在 Kubernetes 上的高可用部署。dify-chart 项目是基于 `Helm`,将 Dify 的 `docker-compose.yaml` 和 `.env` 配置转换成 Kubernetes 环境下脚本。原创 2025-03-28 13:41:32 · 2026 阅读 · 3 评论 -
Dify - 部署高可用私有化系统指南
文件中配置了 Dify 部署的总体结构,包括:几个 Dify 自身工程(api、web、 work、sandbox等),还有 Dify 的一些依赖(nginx、PostgreSQL、Redis、罗列了各类向量数据库),具体结构可以参考。无论是多节点的服务组件,还是高可用的底层存储系统,均能确保在高并发场景下稳定运行。可以部署多台 Docker 服务,内部使用域名、代理、nginx负载,需要注意修改 ssrf_proxy 配置。文件给出了一个单机环境部署,如果私有化高可用部署,我们可以在这个基础上进行修改。原创 2025-03-24 23:07:33 · 2602 阅读 · 6 评论 -
OmniParser:安装、测试与原理剖析
如何让 AI 智能控制电脑和手机?首先要让 AI 模仿人理解设备屏幕的内容,微软开源的 **OmniParser** 是一个专为图文信息解析任务设计的多模态模型,它支持图标检测、图标描述(Caption)、OCR 区域校验等任务,集成了 YOLOv8 和 FLORENCE/BLIP2 等主流视觉模型,协助 AI 看懂屏幕,从而进一步执行智能操作。本篇博客将从 **安装配置、简单测试、原理解构** 三个方面,全面解析 OmniParser 的使用与原理。原创 2025-03-24 08:00:00 · 1145 阅读 · 6 评论 -
Dify - 架构、部署、扩展与二次开发指南
本文详细解析 Dify 的架构、部署流程、高可用中间件的独立部署方法,以及二次开发流程,帮助开发者更高效地管理和扩展 Dify。通过本指南,你可以更好的了解 Dify 的部署结构和代码结构,更高效地管理 Dify 的部署、扩展和二次开发,提高 AI 应用的灵活性和可维护性。原创 2025-03-20 18:47:11 · 8214 阅读 · 12 评论 -
Manus 技术探索 - 使用 gVisor 在沙箱内运行 Ubuntu 容器并通过远程浏览器访问
本文介绍了如何利用 gVisor 沙箱技术运行带 GUI 的 Ubuntu 容器,并通过 VNC/NoVNC 实现远程浏览器访问。安装并配置 gVisor:下载 runsc,配置 Docker 使用 gVisor 作为运行时,并重启 Docker。运行 Ubuntu 容器并安装 VNC 服务:启动容器,更新软件包,安装 XFCE 桌面环境和 tightvncserver。配置 VNC 服务器:初始化 VNC 服务,设置启动脚本以加载 XFCE 桌面,并启动 VNC 服务器。安装并启动 NoVNC。原创 2025-03-15 10:00:00 · 1100 阅读 · 0 评论 -
MOE(Mixture of Experts)门控网络的实现与优化
门控类型计算量适用场景适用专家数低小规模 MOE,计算简单所有专家低仅使用部分专家,适合大模型选定专家MLP 作为门控中提取复杂特征,提高精度所有专家LSTM 作为门控高时间序列数据(金融/语音)可调Transformer 作为门控高NLP 任务,大规模数据可调如果你的任务数据较简单,建议使用或,如果需要更复杂的决策,可以用MLP、LSTM 或 Transformer作为门控网络。你可以根据任务需求,调整 MOE 的门控策略来提升模型性能!🚀。原创 2025-03-03 20:21:22 · 1291 阅读 · 0 评论 -
思维链(Chain of Thought, CoT)推理原理解析
思维链(Chain of Thought, CoT)是一种逐步推理的提示方法,引导模型在回答问题时,分步骤推导答案,而不是直接给出最终答案。让模型先生成一系列推理步骤。再基于这些推理步骤得出最终结论。这种方式类似于人类解题时的思维过程,例如在数学计算、逻辑推理、代码分析等任务中,我们通常不会直接写出答案,而是先进行分析、计算、归纳,最后得出结论。原创 2025-03-03 20:19:23 · 1289 阅读 · 0 评论 -
ollama本地运行大模型
以千问小模型为例,命令行执行 ollama run qwen2:0.5b。地址:https://ollama.com/download。地址:https://ollama.com/library。下载运行后可以开始提问。原创 2024-07-10 12:08:42 · 785 阅读 · 0 评论 -
带你解锁 LLaMA 3 源代码的核心逻辑,附简化版实现
通过简化的 mini 版 LLaMA 代码,我们成功解析了 LLaMA 3 的核心架构和实现逻辑。该模型基于 Transformer,结合了现代 NLP 技术,如多头注意力机制、RMSNorm 和前馈网络等。对于想要理解和复现 LLaMA 3 的开发者,本文提供的代码和解析将是一个良好的起点。原创 2024-09-25 18:39:26 · 1862 阅读 · 1 评论 -
LangChain实现文档检索和增强生成的示例
在这篇博客中,我们将介绍如何使用LangChain和Chroma来实现文档的检索和增强生成。我们将以一个具体的实例来展示这一过程,具体代码如下(修改自官方文档。原创 2024-07-16 20:06:42 · 1224 阅读 · 0 评论 -
深入解析六大 LLM 可视化工具:Langflow、Flowise、Dify、AutoGPT UI 、AgentGPT、n8n
上述五款工具为开发者提供了强大的可视化界面和丰富的功能,帮助他们轻松构建基于大语言模型的智能代理。无论你是想设计一个智能客服系统、自动化任务调度,还是创建自主推理的复杂代理,这些工具都可以满足你的需求。Langflow和Flowise适合那些希望灵活设计任务链并进行多工具集成的用户。Dify则更适合企业级用户,提供强大的多任务自动化能力。AutoGPT UI和AgentGPT强调自主推理与执行,适合自动化任务和复杂决策代理的构建。开发者可以根据具体的应用场景选择适合的工具,快速构建和部署智能代理。原创 2024-09-06 15:56:50 · 15399 阅读 · 0 评论