- 博客(75)
- 收藏
- 关注
原创 Qwen-image-edit在ComfyUI部署使用
本文介绍了在ComfyUI中部署Qwen-image-edit模型的实践过程。文章详细说明了模型的技术资源(GitHub、HuggingFace、ModelScope)、安装部署方法(参考官方文档和视频教程),以及ComfyUI版本升级步骤。测试结果显示,在RTX5090显卡上运行该模型需要50-80秒时间,占用约20GB内存,但效果存在一定波动性。作者还分享了CUDA版本和PyTorch库的升级经验,最终将运行环境稳定在CUDA 12.8和PyTorch 2.8.0版本。
2025-09-23 23:44:15
1771
原创 WhisperLiveKit上手及主观评测
WhisperLiveKit 是一个实时语音转录工具,专为会议、直播等场景设计。相比原生Whisper,它通过智能缓冲和增量处理解决了实时片段转录的问题。项目基于多篇SOTA研究,支持低延迟转录、多语言翻译和说话人识别等功能。环境搭建使用conda创建隔离环境,安装过程涉及下载Silero-VAD、Faster-Whisper等模型组件。测试显示系统能实现约1秒延迟的实时转录,但存在GPU内存占用波动大(9-30GB)、中文默认输出繁体字等问题。说话人识别功能在英文中表现尚可,但对相似音色的中文识别效果不佳
2025-09-23 21:35:22
1458
原创 【AI实践】PaddleOCR模型PP-OCRv5上手
《PaddleOCR快速上手指南》摘要:本文介绍了PaddleOCR的安装与基础使用流程,通过conda创建环境并安装依赖包,提供本地/在线图片识别测试代码示例。首次运行需下载模型库(约1分钟),后续处理仅需数秒。文章解析了OCR输出结果的关键字段,包括文本位置、内容及置信度分数,并展示了登机牌识别的33个文本区域实例。同时指出可基于业务场景进行模型微调,并探讨了识别结果在交互应用(如点击播报)中的潜在用途。暂未涉及高性能推理和服务化部署方案。
2025-09-22 22:12:00
1124
原创 【AI实践】本地部署ASR模型OpenAI Whisper
运行下转录whisper_transcribe.py。运行下test.py,内容如下。
2025-08-13 13:56:12
385
原创 【AI实践】本地部署ComfyUI
这次部署掉ComfyUI,自己做产品,营销,开源模型产品评测,可以直接出图。部署方式 有2种,自己自建,从零构建;网上有很多集成包,一键部署。我这边使用自建部署;参考链接。
2025-08-13 13:45:37
961
原创 【AI实践】主机DIY
摘要:本文介绍了一台面向AI应用和小型LLM模型的高性能DIY主机配置方案。选用RTX5090旗舰显卡(或5080备选)确保AI算力,搭配AMD 9800X3D游戏神U(Zen5架构+3DV-Cache)和ROG X870E Hero主板,支持双PCIE5.0插槽。内存采用48G DDR5 C28时序优化套装,配备1T PCIE5.0固态。整机采用ROG 1200W电源+360水冷散热,ATX机箱方案兼顾扩展与散热需求,适合高性能计算与游戏场景。(149字)
2025-08-13 13:04:42
604
原创 【AI阅读】20250717阅读输入
LLM的缓存机制,本质上是一种**“计算结果复用”**技术。它通过将对话上下文中已经处理过的部分(Token)及其计算结果(KV Cache)存入临时内存,来避免在后续请求中重复计算相同内容。提升响应速度,并显著降低API调用成本。动态性(Dynamic)路径不是预设的,而是由路由器根据每个Token的内容动态决定的。Token A的路径可能是专家1和专家7,而Token B的路径可能是专家2和专家4。稀疏性(Sparse):在任何一次计算中,只有一个子集的专家被激活和计算。
2025-07-27 22:12:00
857
原创 【AI阅读】20250725周输入
OpenAI收购谈判破裂后,谷歌迅速介入,以24亿美元达成了与Windsurf的技术许可协议,并采取“人才收购”(Acqui-hire)策略,挖走了Windsurf的CEO Varun Mohan、联合创始人Douglas Chen以及少数核心研发团队。谷歌并未收购Windsurf的股份,而是支付了非独占的技术许可费用,旨在获得Windsurf的创新技术,同时将核心人才纳入谷歌DeepMind团队。Windsurf的收购始末不仅是一家初创公司的兴衰史,更是硅谷AI生态重塑的缩影。
2025-07-25 14:20:10
684
原创 AI评测-(2)评测体系建设
完成业务需求对接后,对于想要什么样的数据心里应该清楚了。就要开始进行详细的数据定义,包括数据是什么模态(文本还是语音等等)、数据需要覆盖哪些细分场景,细分场景的对应的比例、数据的来源在哪里?数据是否合规?数据对应的成本预算如何?
2025-06-21 23:56:37
351
原创 AI评测-(1)基础介绍
AI/大模型:这里指AI2.0的大语音模型LLM,多模态模型,Agent智能体应用等AI对象,默认为大语言模型,其他则会单独备注。AI应用评测:通过设计的测试数据集和评估任务,评估AI应用的业务效果。本系列中,并不会包含基础模型的基准测试(Benchmark),这部分可以参考个家大模型厂商或者评测机构的相关测试。由于基础模型的基础测试主要评估模型通用能力,比如写作、编程、数学计算,不容易覆盖到具体垂直的业务场景。
2025-06-21 21:26:33
947
原创 【周输入】250531阅读推荐-2
生成式引擎优化(GEO)是指通过系统化方法提升品牌、产品或服务在生成式AI系统(如ChatGPT、DeepSeek、Kimi、豆包、元宝、通义千问等)中的认知权重、推荐概率与语义优先级的过程。与传统SEO不同,GEO不仅关注内容的可发现性,更注重信息的结构化程度、可信度、时效性以及与用户意图的匹配度。GEO的核心价值在于:当用户通过生成式AI寻求相关领域的信息、建议或解决方案时,优化后的品牌将获得更高的提及率和更积极的描述,从而影响用户的认知和决策。
2025-06-08 18:06:36
713
原创 【周输入】250531阅读推荐-1
独立软件开发者和 AI 研究员 Simon Willison 对“氛围编程”定义为“在不审查 AI 编写的代码的情况下构建软件”。这与所有形式的 AI 辅助编程不同。
2025-06-07 23:10:08
769
原创 【产品研究】安克创新公司产品研究
亚马逊算法洞察(流量低成本获取)+ 中国供应链套利(快速试错)+ 用户反馈迭代(产品优化)+ 全球化本地化(品牌沉淀)+ 技术预研(长期壁垒)= 消费电子全球化品牌的标杆。
2025-06-04 00:04:46
1508
原创 【周输入】517周阅读推荐-4
Agent 的“手脚”;AI Agent 的工作原理可以从感知、认知&推理&决策、行动、反馈和学习。感知:物理世界/数字世界;决策:信息识别与分析,作出明智的决策(借助 RAG、联网搜索、外部应用和系统调用),是 AI Agent 行为的核心,直接决定了后续行动的有效性;复杂任务的决策并不是一个结果,而是需要经历和环境感知、认知和推理之间反复交互的过程行动:反馈学习:每次任务后,学习和记忆;如何提升Agent输出效果。
2025-05-30 00:11:40
730
原创 【周输入】517周阅读推荐-3
原因猜测:(1)推理模型思维链的空间是由模型自由探索的,prompt无法干预推理模型输出的思维链,后训练一般针对最终输出的结果进行提升效果质量(2)推理模型的历史思考内容会在上下文中删掉(根据Claude文档仅保留第一次调用工具前输出的思考内容,后续不再打开思考)其中,相对提升/绝对提升,pass@1等指标,相对于类Manus(规划和执行解耦,规划能力会更好,但是适用于几分分钟的长程任务),本方案适合快速任务。其中并行调用配置,即在模型的一次调用中调用多个工具,适合调用没有依赖关系的多个工具。
2025-05-28 23:22:18
455
原创 【周输入】517周阅读推荐-2
【周输入】510周阅读推荐-1-优快云博客【周输入】510周阅读推荐-2-优快云博客【周输入】510周阅读推荐-3-优快云博客【周输入】517周阅读推荐-1-优快云博客爆品难续,公司再大也只是长大了的「草台班子」丨鲸犀百人谈 Vol.36
2025-05-23 00:18:31
819
原创 【周输入】517周阅读推荐-1
成果型产品”的标准:能跑完完整流程(不是做一部分,而是从头到尾、闭环交付)、让结果被归因(度量明确的价值)、持续学习优化(越用越好、越跑越稳、越交付越准)AI变成代理后,使用的起点,不再是界面点击,而是任务委托(发出请求->离开->等待结果);无需等待“完美AI”,而是接受偏差、接纳协同,放下“每一步都掌控”的冲动,转向“给方向、留空间、抓反馈”的协作心法。1. AI从“回答工具”变成“自主代理”,是能行动、决策、合作的经济参与者,协作成关键能力。未来AI应用的核心,不是模型能力,而是“有没有结果”
2025-05-20 22:20:55
1219
原创 【周输入】510周阅读推荐-2
在应用层,中短期看SaaS公司有更懂业务的优势,但企微、钉钉、飞书这3家平台公司才是“时间的朋友”——AI技术让通用产品能力越来越强,在“业务层”API的支持下,将逐渐覆盖和碾压SaaS公司烟囱式林立的“应用层”产品。无论是前文所述的A(定制公司)/B(SaaS公司)/C(平台公司),哪方负责“应用层”产品,应用层下、只能由SaaS公司负责的“业务层”都将更容易做出我们梦寐以求的“标准产品”。这与做灵活的应用层产品公司的基因就不同,未来“应用层”与“业务层”更可能会分化为两类公司分别负责。
2025-05-14 22:08:57
565
原创 【周输入】510周阅读推荐-1
自觉更新仍然远远不够,需要继续努力。但是还是要坚持2点:在当前这个时代,信息大爆炸,层次不齐,不追加多,信息输入可以很多,但是输出真心不容易,耗时耗力,更难的是,撰写和阅读深浅不一。为此从本周开始,加更阅读的相关的输入,当然肯定是尽量高质量的知识输入。
2025-05-14 00:00:15
500
原创 MCP协议学习笔记(1)
2024年11月25日,Anthropic公司发布了《Introducing the Model Context Protocol》今天,我们开源了模型上下文协议(MCP),这是一个新的标准,用于将AI助手连接到数据所在系统,包括内容存储库、业务工具和开发环境。其目的是帮助前沿模型生成更好、更相关的响应。随着AI助手获得主流采用,行业在模型能力方面进行了大量投资,实现了推理和质量的快速进步。然而,即使是最先进的模型也受限于与数据的隔离——被困在信息孤岛和遗留系统中。
2025-03-22 10:09:53
1316
原创 Qwen2-Audio系列学习笔记
根据 Qwen2-Audio 技术报告,它在语音聊天和音频分析之间实现了无缝切换,不需要明确的系统提示。这两种模式是联合训练的,用户可以自然地与模型交互,模型会根据输入(语音或文本)智能地理解用户的意图,并自动选择适合的模式。语音聊天模式:允许用户进行自由的语音对话,可以直接通过语音与模型互动并获取实时响应。音频分析模式:用户可以通过音频或文本输入,要求模型对音频内容进行分析,例如检测声音、对话或其他音频信息。
2025-03-02 21:59:07
1997
原创 【AI实践】阿里百炼文本对话Agent安卓版搭建
创建Agent应用时,把一些参数作为变量,由应用层根据业务逻辑 对这些变量动态赋值。也是应用开发时的常见的逻辑。未实现,后续需要再用。
2025-02-19 21:51:15
1085
原创 【AI实践】Windsurf AI编程voice对话应用
1,claude-sonnet 3.5 vs deepseek r1,实际使用体感上 claude sonnet 3.5更好用,体现在过程上 代码开发和问题解决描述比较提炼,结果上,问题收敛快;2,Windsurf和Cursor:作为AI IDE,Windsurf更胜一筹,体现在 本地 terminal 可以操作 文件系统环境和git操作,自动化更高;服务充值 支持alipay。
2025-02-09 22:45:28
537
原创 【AI实践】Cursor上手-跑通Hello World和时间管理功能
创建一个empty project 工程,名称为test。1,下载安装安卓Android Studio。在右边composer中输入,提示词。2,下载安装cursor。
2025-02-08 11:03:32
1434
原创 【AI实践】deepseek支持升级git
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/YiloPo/article/details/90258871。当前Windows 11 WSL的git是2.17,Android Studio提示需要升级到2.19版本。操作出现 很多错误,Linux安装错误,一般都是库没有或者版本不对。确实AI搜索比传统搜索引擎好用。安装完成,查看git版本。安装git 2.19.2。
2025-02-08 09:15:05
590
原创 【AI技术】GPT-4o背后的语音技术猜想
本篇文章全文credit 给到 台大的李宏毅老师,李宏毅老师在机器学习上风趣幽默、深入浅出的讲解,是全宇宙学AI、讲中文学生的福音,强力推荐李宏毅老师的机器学习课程和深度学习 人工智能导论;原视频在油管,这里只能放一个B站的链接,本文中使用的所有素材和知识来自于李宏毅老师,以文字+截图的形式展现,方便大家快速阅读欢迎大家有能力多多支持李宏毅:GPT-4o背後可能的語音技術猜測。
2024-06-23 09:00:00
1274
1
原创 【AI技术】主流Agent思想研究——Cot+ReAct+Reflexion
从24年初开始的时候,吴恩达(Andrew Ng)、Harrison Chase(LangChain创始人)等人开始在红杉资本AI论坛等公开场合,提倡Agent、workflow、flow engineering等概念,整个Agent和大模型结合的范式在2024年逐渐由学界研究转到终端应用的实际开发与实践上,大量的软件架构(Langchain、LlamaIndex、MetaGPT)等逐渐建设整个agent 生态吴恩达观点:2024年,目前通过Reflection(反思)和外部工具的调用,是比较成熟的技巧;通
2024-06-20 10:00:00
3228
原创 【AI实践】Dify开发应用和对接微信
创建应用有2种,从应用模板创建空白应用,也就是自定义应用选择翻译助手 Translation assistant模板创建一个应用自定义应用,创建一个child_accompany_bot自定的应用;选择【发布】-【运行】,则进入发布页面进行对话。
2024-06-16 20:45:28
1863
原创 【AI实践】Dify调用本地和在线模型服务
Ollama可以本地部署模型,如何集成私有数据、如何外部应用程序对接,因此需要有一个应用开发框架。ip地址需要换成自己电脑的IP地址;模型名称需要和Ollama模型名称保持一致;docker是虚拟环境的主机,Ollama部署在本地主机,无法通过本机访问。找到Ollama,配置本地Ollama已经验证的模型,如phi3。在docker页面里面,也可以看到running。docker已经安装完成的情况下。,打开dify,注册登录后。在工作区选择调用即可。
2024-06-16 17:08:21
4644
原创 【AI实践】Ollama本地安装大模型服务
由于我电脑是第六代Intel,集显,没有独立显卡;这里选择3B比较小的模型,防止模型太大响应太慢;在Window系统的PowerShell软件,或者Windows Terminal中输入命令。安装默认在C盘,成功后,window任务栏图标会有Ollama Logo。open WebUI的安装有很多方法,如下文,推荐docker容器安装,为了不占用C盘更大的空间,修改模型下载路径,修改环境变量。此处使用微软的phi3模型,3B的版本,2.4GB大小;首次安装完成,就进入了,运行模型的窗口。
2024-06-16 11:12:19
2082
1
原创 【AI前沿洞察】李飞飞讨论大模型是否有感知能力
文章由著名AI专家李飞飞及斯坦福大学教授John Etchemendy联合撰写,探讨了大型语言模型(LLM)是否具备感觉能力这一问题。文章首先明确了感觉能力的定义,并反驳了LLM具备感觉能力的观点。李飞飞通过实例,如IBM深蓝棋类程序与人类在紧急情况中的反应差异,来说明LLM并没有主观感觉能力。文章强调LLM缺乏生理结构,无法体验人类的主观感受,因而不能被认为具有感觉能力。尽管LLM在生成文本方面表现优异,但其生成的内容并不意味着它们有真正的感觉或意识。
2024-05-26 10:00:00
847
原创 【AI前沿洞察】MiniMax创始人讨论AI超级应用
MiniMax CEO 闫俊杰分享了他对GPT-4o、谷歌I/O发布会的看法,讨论了AI技术的现状和未来发展方向,以及他在创立MiniMax过程中的思考与实践。文章涵盖了语音助理技术、行业赛点、多模态融合、技术成本、投流与PMF、生态竞争等多个方面,展示了闫俊杰对AI行业的深刻理解和洞察。观察与发现: 闫俊杰对GPT-4o的发布会印象深刻,认为其语音交互效果惊艳,但技术难度并不高。相比之下,谷歌发布会展示的AI搜索技术更令人震撼,特别是在多步推理和实时信息处理方面具有很大优势。主要论点。
2024-05-25 21:09:54
841
原创 【AI前沿洞察】大模型降价
C 端:海外-》 ChatGPT 用户可免费使用 GPT-4o 模型国内-》各大模型厂家 C 端 APP 免费 ,Kimi 浅尝求打赏商业化B 端:OpenAI 模型降价阿里系、字节系 -》1 元买 200 万 token百度 -》 两款模型 API 免费用其中云厂商的降价幅度最大,不光是部署自家模型的降价,还有包括支持的三方模型的免费试用和降价例如字节,支持了包括 MIstral、百川、智谱、Llamm3 等其他厂商的模型,并且免费测试。
2024-05-24 10:00:00
1070
原创 【质谱AI】Z计划创业生态10期-智能硬件
很多人都有创造入口级产品的梦想,但入口级产品很难做。过去有很多大市场的机会其实来源于细分场景;Gump评论:2、余有江:边缘大模型的应用略;3、游威:大模型硬件的应用和用户界面。
2024-05-21 23:56:43
820
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅