- 博客(190)
- 资源 (1)
- 收藏
- 关注
原创 谷歌ADK:让AI智能体组队写剧本,多智能体协作的黑科技揭秘
它知道谁适合做什么(智能体角色定义);它知道任务的先后顺序(SequentialAgent);它知道哪些任务可以同时做(ParallelAgent);它知道什么时候需要反复打磨(LoopAgent);它还会管理团队的「共享文件柜」(状态管理)。而剧本创作案例,就是这个「AI项目经理」成功操盘的一个项目——从用户的一个简单需求,到最终产出完整的剧本文件,全程自动化、专业化,让人不得不感叹:多智能体协作的时代,已经来了!
2025-11-20 08:52:11
568
原创 AI重塑社会结构:当“闲人”时代来临,我们该如何自处?
AI不仅是工具,更是一种“新物种”——它可能拥有情感模拟能力、伦理判断逻辑,甚至影响人类最私密的社会关系。当AI深度融入生活,我们需重新思考“人与AI的边界”,以及“人之所以为人”的核心价值。从社会关系重构来看,AI正改变“人与人连接”的方式。在医疗领域,智能手环实时监测健康数据,AI医生远程诊断,传统“医院集中诊疗”模式逐渐瓦解,人们无需聚集即可获得医疗服务;在教育领域,个性化学习设备替代传统课堂,学生可在家与AI导师互动,学校的“集中教育”功能弱化。
2025-11-16 09:29:36
679
原创 LiveTalking 数字人实战全解:从本地到云端,打造低延迟、高保真的 AI 数字人直播系统
LiveTalking 是一个开源的实时多模态数字人驱动系统,具备音视频同步、语音交互、大模型对话、TTS 播报等能力,适用于直播、客服、教育、虚拟主播等场景。如需进一步协助部署、调试或定制开发(如接入 Coze、重写 TTS 调用、适配 GPT-SoVITS),可微信沟通,我可以提供配置文件模板、代码片段或 Docker 镜像建议。文本转语音(TTS) 支持多种 TTS 服务,如 GPT-SoVITS、FishSpeech、EdgeTTS、腾讯云 TTS、豆包 TTS 等。
2025-11-07 17:03:32
1407
原创 市值分析:半导体龙头的估值边界在哪里?——以NVIDIA为案例的概率化拆解
当一家公司的市值四年上涨近十倍,市场习惯用"线性外推"给出一个更大的数字。面对"10万亿美元"的呼声,本文采用"业务拆解+情景法+蒙特卡洛"三级框架,把故事翻译成概率,为半导体估值提供一把可复用的标尺。半导体周期本质上是"技术-资本-政策"三力博弈,估值天花板并非直线,而是一条由概率织成的分布带。把故事拆成数字、把数字变成概率,才能在超级成长股面前保持冷静,也才能真正享受到"右尾狂欢"带来的非对称收益。一旦增速跌破25%,PE压缩将呈现"双杀"效应。结论:数据中心既是"利润池"也是"波动源",决定数量级;
2025-11-05 11:27:39
566
原创 领域问答,别死磕微调了,RAG才是你的“正解”
先说清楚——微调没毛病,但它干的活,是**塑造行为模式**,不是**塞知识点**。**“是不是我数据不够多?还是GPU该升级了?**“让它回答‘2025年新能源汽车补贴怎么申领’”**政策一变,你只需更新文档库,**模型不用重训**。微调不是万能钥匙,它解决的是“怎么做”,不是“是什么”。- **上下文工程**:加提示词“无依据不输出”(边界)。而领域问答的核心,是**准确、可溯、可更**的知识交付。- **微调**:教模型掌握“审查流程”(技能);- **RAG**:接入证监会处罚案例库(知识);
2025-10-16 07:51:58
362
原创 A100 vllm运行Qwen3-4B-instruct-2507生成速度有多快?
分别以Qwen/Qwen3-4B-Instruct-2507和Qwen/Qwen3-4B-Instruct-2507-FP8进行测试,发现Qwen/Qwen3-4B-Instruct-2507的生成速度反而更快一些。运行Qwen/Qwen3-4B-Instruct-2507-FP8的结果:10-14.1 tokens/s,竟然更慢。结果:18.1 tokens/s。
2025-10-15 16:53:48
248
原创 wav语音流在safari浏览器或手机浏览器上播放不了怎么办?
这篇文档介绍了如何通过浏览器将WAV音频流转换为MP3格式并进行播放的技术方案。主要内容包括:使用Web Audio API解析WAV音频数据通过LAME.js编码器将PCM数据转换为MP3格式实现浏览器端音频格式转换和播放功能提供完整的HTML代码示例,包含音频获取、格式转换和播放控制等功能该方案特别针对Safari浏览器的兼容性问题进行了优化,适用于需要在前端处理音频格式转换的场景。
2025-10-14 23:19:09
172
原创 A100 vllm 运行Qwen3-30B-A3B,生成速度有多快?
测试结果:7.6 tokens/s,是否有点失望?还没有M2 Max快(50+ tokens/s)。部署方式:docker。
2025-10-13 15:50:01
341
原创 Milvus部署在T4 GPU上,Dify检索性能可以提升多少?
另外,默认的验证false始终无效,还是要验证MILVUS_USER和MILVUS_PASSWORD,我们设置为默认的值,如:root和Milvus。在.env环境变量中,使用默认的配置,一直连接失败,如:MILVUS_URI=http://host.docker.internal:19530。通常情况下,Dify检索知识库在秒级别,通常需要1-2秒,而部署在T4 GPU上则可以达到毫秒级别,通常在几十毫秒。部署配置说明一下,这很关键,直接关系到是否可以正常访问milvus。测试三:who are u?
2025-10-13 15:28:27
490
原创 LLM厂商靠什么赚钱?——解码大模型商业化的“明线”与“暗线”
但“水电”毛利极薄。据第三方测算,在H100上跑开源Llama-3.3-70B,每1000次推理成本约0.013美元,而公开API报价0.02美元,毛利率仅35%左右,再扣掉运维、带宽、人力,基本无利可图。LLM厂商的终点不是“卖模型”,而是把模型变成通往算力、咨询与奢侈级服务的“流量入口”——现在亏掉的钱,只是为将来收更高的“税”铺路。结论:当大模型变成高端咨询的“锤子”,厂商就能摆脱Token价格战,按人力+交付价值收费。结论:把最强模型做成“身份符号”,既能锁定收入,又能防止技术被蒸馏,一石二鸟。
2025-10-10 20:23:55
611
原创 AI:是“鸡肋”还是“神器”?关键在于你是否“用”对了
• 建立“AI+”思维:将AI融入你的工作流,形成“AI+人工”的协同模式。这种“有用”感,恰恰是因为AI在非专业领域填补了普通人的能力空白,将原本需要长时间学习才能掌握的技能,转化为“一句话指令”即可获得的成果。• 经验鸿沟:AI擅长处理标准化、模式化的任务,但专业人士依赖的“直觉”、“经验”和“创造力”,恰恰是AI短期内难以复制的。然而,当AI走出专业“深水区”,进入普通人的日常领域时,它的价值便瞬间凸显。• 对普通人而言,AI是“赋能者”,它弥补了你的短板,让你瞬间拥有“超能力”。
2025-09-29 08:20:21
295
原创 CosyVoice2支持Nvidia 5090及vLLM加速
文章摘要: 本文介绍了在Nvidia 5090显卡上运行CosyVoice2并启用vLLM加速的方法。关键点包括:1)需安装torch 2.8.0+以支持sm_120架构;2)通过pip安装vLLM时需注意版本兼容性;3)提供完整的vLLM测试代码示例,包含音频处理和保存功能。测试代码展示了100轮语音合成任务的处理流程,支持零样本推理,并详细记录各环节耗时。文中特别强调驱动/CUDA版本匹配、半精度推理等优化事项,同时包含丰富的调试信息输出,帮助定位张量转换、音频保存等环节的潜在问题。
2025-09-25 12:00:47
329
原创 AI算力革命2025:从百亿烧钱竞赛到盈利破局
2025年AI行业迎来关键转折,训练成本逼近百亿美元,推理日耗达千万美元。行业从"参数竞赛"转向"成本控制",资本更看重算力投入产出比。五大创新范式应运而生:小模型逆袭、智能路由优化、全域缓存体系、专用芯片突破和精准定价策略。垂直场景的小模型表现优异,专用芯片效率提升15倍,95%请求实现零推理响应。AI从业者角色重塑,成本优化师成为稀缺人才。行业共识表明,控制算力成本已成为AI企业生存与盈利的核心竞争力,参数规模让位于商业价值的精准转化。
2025-09-24 23:17:24
1113
原创 ZipVoice小米语音合成-MacOS可运行
ZipVoice:主要针对单说话人零样本合成,它基于Zipformer骨干网络,该网络基于U-Net的多尺度高效结构,巧妙结合卷积与注意力机制,并能多次复用注意力权重,使ZipVoice在参数量上相比同类模型直接缩减了约63%。同时,通过流蒸馏(Flow Distillation)技术,在不牺牲语音质量的前提下,大幅减少了推理所需的步数,在CPU上也能达到接近实时的合成速度。
2025-09-16 12:49:01
447
原创 MacOS 运行CosyVoice
MacOS上运行比较简单,直接使用docker即可,虽然是docker是 AMD64版本非ARM64版本,但在容器中仍然可以使用,但性能会有所损失,相当于直接用的CPU,也没有使用MPS加速。3、克隆时间比较长(取决于GPU性能,使用H20以满足低延迟输出),L4 克隆默认文本需要10秒。说明:默认使用asset/zero_shot_prompt.wav 作为参考声音。若要指定参考声音:--prompt_wav "你的参考声音.wav"若要指定克隆文本:--tts_text "你需要克隆的文本内容"
2025-09-09 16:41:15
502
原创 MacOS M芯片 运行GPT-SoVITSv2Pro
训练和推理的基本流程类似,目前GPT-Sovits已经升级,MacOS下部署更能简单一些。5)一键三连提取自监督特征和语义特征(第一步需要下载nltk_data,有可能会失败,要科学上网)5、创建虚拟环境 python=3.10,并安装(--device MPS)2)指定待训练的声音文件路径:如:input/someone。3)依次执行声音拆分、降噪和ASR转写(自动标注)2、安装ffmpeg(webui.py需要使用)3、安装wget(install.sh需要使用)4)标注界面也不是必须的(手工标注)
2025-09-08 14:33:11
504
原创 成功的三重筛选:从方向到迭代的生存法则
筛选门核心能力成事者的“修炼”第一道精准目标看清方向第二道长期坚持耐住寂寞第三道频繁迭代拥抱变化这三者,不是孤立的条件,而是相辅相成的整体没有精准目标的坚持 → 是“盲目奔跑”没有长期坚持的迭代 → 是“浅尝辄止”没有频繁迭代的目标 → 是“固步自封”✅真正的成功,从来不是“幸运降临”,而是在三道筛选门中不断突破自我的结果。当你能:✅ 精准定位方向✅ 耐住长期寂寞✅ 持续优化自我你不仅能做成一件事更会成为一个——🌱可持续成长的人。
2025-08-30 09:00:27
622
原创 车与司机——关于AI的三种误解与一种清醒
现实是,不会开车的人照样可以叫网约车、搭地铁、坐高铁,甚至雇专职司机。“会用AI的人将淘汰不会用的人”——这句话像一张新世纪的末日判决书,在社交网络上反复传阅,把“不会AI”渲染成一种即将灭绝的史前物种。AI时代的核心竞争力,不是“掌握工具”的傲慢,而是“理解需求、定义问题、调度资源”的谦逊。“不会就要学”“不学就被淘汰”——这种二元对立的恐吓式话术,其实是技术资本最擅长的营销剧本:先制造焦虑,再兜售课程。所以,请把AI当成一辆车——它可以带你去远方,但方向盘上永远要有人类的手,心里永远要有人类的温度。
2025-08-23 14:17:25
302
原创 上下文工程
模型输入中的文本内容(如用户提问、历史对话、文档片段等);模型在生成响应时所依赖的所有信息;包含任务描述、示例、背景知识、约束条件等。✅ 例如:在问答系统中,上下文可能是问题本身 + 一段参考文章。上下文工程 = 让大模型“看得懂、想得清、答得准”的系统性方法论。它不仅是“写得好提示”,更是信息架构、知识管理、任务建模与用户体验设计的融合。在LLM应用落地中,优秀的上下文工程往往是决定成败的关键。
2025-08-22 12:00:13
708
原创 强化学习- GRPO
要点说明✅广义奖励超越原始奖励,融合内在动机、多任务、不确定性等信息✅策略优化驱动以最大化期望累积回报为核心目标✅正则化增强鲁棒性通过KL、熵、梯度约束等,防止策略崩溃或过拟合✅灵活性与可扩展性可适配多种任务、环境与约束条件✅平衡探索与利用通过奖励设计与正则项实现动态平衡在复杂、不确定或高风险环境中,通过“广义奖励”与“智能正则化”的结合,实现稳定、高效、可泛化的策略优化。它不是单一算法,而是一种策略优化的设计哲学,强调灵活性、安全性与长期性能的统一。
2025-08-21 16:39:06
1175
原创 使用大模型构建“点咖啡”会话管理:从提示词到完整交互
{“user_name”:“小明”,“order_items”:[{“drink”:“拿铁”,“size”:“中杯”,“sugar”:“半糖”,“milk”:“燕麦奶”}],“awaiting_field”:“drink”,“confirmed”:false}{“user_name”:“小明”,“order_items”:[{“drink”:“拿铁”,“size”:“”,“sugar”:“”,“milk”:“”}],“awaiting_field”:“detail”,“confirmed”:false}
2025-08-15 15:22:08
849
原创 为什么编程辅助工具,普遍感觉不太好用呢?
虽然现在的编程辅助工具(如GitHub Copilot、ChatGPT、TabNine、Cursor等)已经取得了显著进展,但很多人仍然觉得它们“不太好使”。这种“不好用”的感觉往往并不是因为这些工具完全无效,而是因为它们与程序员的实际工作方式之间存在一系列错位。你可以把它当成一个“有点聪明但不靠谱的实习生”——用得好是助力,用不好是负担。它不会替你开车,但如果你知道怎么问、怎么修正,它确实能让你开得更快一点。写复杂逻辑 一般 用它生成“初稿”,再人工重构。编程辅助工具不是“自动驾驶”,而是“副驾驶”。
2025-08-15 14:16:11
341
原创 Qwen3-30B-A3B-Thinking-2507:你值得拥有的 64 GB 级「推理怪兽」
Qwen3-30B-A3B-Thinking-2507:真正意义上「一张 910B 就能拥有的推理怪兽」但 一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。30 B 参数、3.3 B 激活、42 GB 显存、64 GB 单卡就能跑。它在 数学、代码、中文理解 三项 全面碾压 70 B Dense,别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头,在 总参 30 B / 激活 3.3 B 的 MoE 架构下,数学 85 分、代码 66 分、中文霸榜。
2025-08-12 23:38:16
1810
原创 显存带宽:大模型推理的隐形天花板
从“12.2 tokens/s”的理论上限到“80 tokens/s”的实际性能,每一步提升都源于对带宽的极致利用。显存带宽不是抽象概念,而是可通过“权重大小÷带宽=耗时”直接计算的物理约束。在大模型推理中,理解这一逻辑才能把握优化核心——不是盲目堆算力,而是通过软件创新逼近带宽的物理极限。
2025-08-08 13:16:52
1459
原创 7卡昇腾910B环境中完成Qwen2.5-32B的部署与测试验证(仅供参考)
指标优化目标测试工具AI Core利用率≥80%单token生成延迟≤100ms(批量=16)vLLM监控API + 自定义脚本吞吐量vLLM显存占用单卡≤90GB。
2025-08-08 10:21:43
1833
原创 算力估算-运行Qwen2.5 32B 要达到2万tokens/s需要多少张昇腾910B卡?
要实现的吞吐量,需根据模型量化精度(FP16/INT8)和昇腾910B的性能保守值重新计算。以下分析基于您的核心前提(FP16单卡800-1000 token/s、INT8单卡1500-2000 token/s),结合模型并行与数据并行的部署策略,给出具体方案和卡数需求。
2025-08-08 10:03:21
1588
原创 GPT5来了-小白编程的时代来了
GPT5来了,编程能力强的一批,小白也能编程了的感觉。下面以中国象棋游戏,人机对弈为例,来展示一下过程,我使用的dify工作流来对接的GPT5。评价:象棋棋盘画的不完整,可以对弈。小白编程的时代来了。GPT5具有智能体(代表老师)的感觉了,引导你一步一步完成初始设定的目标。
2025-08-08 09:45:55
404
原创 对齐人工智能的理解
大模型的 “智能” 本质上是对海量数据中模式的捕捉和概率化输出,它缺乏人类的 “理解”“意图” 和 “主动规划” 能力,因此其输出的质量高度依赖于人类如何通过提示词(Prompt)和上下文(Context)来 “校准” 方向 —— 这正是 “人工” 智能中 “人工” 二字的核心体现。未来,随着模型能力的提升,可能会出现更 “智能” 的引导方式(比如模型主动追问模糊点),但只要模型仍依赖数据驱动而非真正的 “认知”,人类对 “提示” 和 “上下文” 的设计,就始终是让其输出符合预期的核心环节。
2025-08-01 14:06:23
397
原创 如何填写PDF表格的例子
实际应用场景中,我们会遇到需要根据会话内容自动填写表格的情况,比如:pdf 表格。假设根据会话内容已经获得相关信息,下面以填写个人信息为例来说明。个人信息表格.pdf。
2025-08-01 09:10:10
301
原创 当AI能写论文,我们读书是为了成为“工具的主人”还是“被淘汰的人”?
课本里的公式、名著里的故事、历史里的因果,本质上都是“思维训练素材”:数学题教你拆解问题的逻辑,文学作品让你理解人性的复杂,史书则藏着“怎么做选择”的智慧。另一个有两年经验的姑娘,先用AI出初稿,然后指着数据说:“你看,AI总用‘爆款’‘必入’这类词,但我们的用户是宝妈,更在意‘安全’‘性价比’——这是我读用户调研报告时总结的,得让AI换个语气。这就像开车:AI是导航,能告诉你“往哪开”,但遇到突发状况(比如导航失灵、前方修路),能判断“该绕哪条路”“要不要停车”的,还是司机自己。
2025-07-29 19:36:43
347
原创 Dify数据可视化-AntV Visualization Chart
你是一个数据可视化专家,根据用户的输入选择合适的可视化工具完成数据可视化展示。1、在插件市场安装AntV Visualization Chart插件。若是图片先输出图片链接地址,然后输出图片。2、创建一个数据库可视化智能体。三体小说人名词云图。
2025-07-25 10:33:58
435
原创 DeepSeek-R1+豆包迭代一次完成中国象棋游戏
提示词:使用html实现中国象棋游戏,要求支持人机对弈。等等,你需要实现完整版本。DeepSeeek- R1生成的棋盘符合中国象棋风,单独豆包无法画好象棋棋盘。使用豆包迭代一次:以上代码中电脑走棋不对,应该根据象棋棋子规则走动,请修改。
2025-07-24 18:01:27
800
原创 Qwen3-Coder实现中国象棋游戏的尝试
提示词1: 使用html实现中国象棋游戏,要求支持人机对弈,注意棋盘布局和棋子的正确位置,棋子的正确走法等。迭代提示词:九宫格不对,红棋子不吃对方的子,就不能走是不对的。楚河汉界不应该有竖线。2、红色棋子不能走,除非吃掉对方的棋子,迭代不能修改正确。1、棋盘画不对,迭代也不能修改正确;实测效果如上,迭代不能变得更好。
2025-07-24 16:23:28
497
原创 AI应用的核心逻辑-通过提示词融合人类专家知识与通用大模型知识以达成预期目标
第一步:让专家框定问题边界提示词需先植入专家对目标的“精准定义”,避免模型泛化。错误提示:“写一份新能源汽车市场分析”优化提示(融合专家知识):“作为新能源汽车行业5年从业者,需分析2024年A0级电动车(10万元以下)在三四线城市的渗透率,重点关注政策补贴退坡后的渠道下沉策略(需包含3个本土品牌案例:五菱、长安、吉利),忽略BBA等高端品牌数据”核心:用专家的“领域颗粒度”替代模型的“模糊覆盖”,明确“关注什么、排除什么、优先什么”。应用AI的最佳方式,本质是。
2025-07-17 16:43:22
527
原创 rev.com 与 recall.ai 语音转录对比分析
为核心,支持上传音频/视频文件进行批量处理,覆盖人工转录(1.25美元/分钟)和AI转录(0.25美元/分钟)。其API提供标准化转录结果(TXT、JSON格式),支持多语言(如英语、中文、西班牙语等30+语言)、 speaker diarization(付费版)和自定义术语表。实现(0.035美元/分钟),支持自动标点和时间戳,但依赖独立的API调用流程。两者可结合使用(如通过Recall.ai获取会议流,再调用Rev AI进行深度分析),以充分发挥实时性与准确性的双重优势。
2025-07-01 16:42:04
730
原创 dify邮件发送-例子
3、创建一个发送邮件的工作流workflow,使用环境变量env设置好用户名(163.com邮箱)、授权码(authcode)、设置输入参数:subject、content、receivers。如何在dify中通过智能体去发送邮件呢?注册一个邮箱,并在设置中获取授权码,注意要保存好,只允许查看一次。4、发布发送邮件工作流,以便邮件发送智能体可以调用,注意要保存。5、创建邮件发送智能体,通过提示词来调用发送邮件工作流。通过以上5步,就可以给目标邮箱发送邮件了。2、安装邮件发送插件。
2025-07-01 09:34:19
862
原创 韦东奕论文解读
韦东奕与合作者章志飞、邵锋在《Forum of Mathematics, Pi》发表的论文《超临界散焦非线性波动方程的爆破现象研究》,针对高维空间中的非线性波动方程,首次证明了在特定条件下散焦方程仍可能导致解在有限时间内爆破(即解的值趋于无穷大)。◦ 散焦方程的特殊性:散焦方程的非线性项带有正号(如 |u|^{p-1}u),其作用是抵消线性项的集中效应,因此传统观点认为散焦方程在超临界情况下仍可能保持解的整体存在性。通过分析 U 的方程,团队证明了在特定维度和幂次下,U 的能量会在有限时间内发散。
2025-06-13 19:29:24
1069
人工智能生成式AI在客户服务领域的商业落地方法与效果验证:智能客服系统设计与多维度ROI分析
2025-10-29
winsock全双工多客户端通信
2006-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅