- 博客(199)
- 资源 (1)
- 收藏
- 关注
原创 5分钟搞定!小红书Dots.OCR API部署全攻略
这套部署方案基于Docker容器化,完美解决了环境依赖、版本兼容等问题,5分钟就能搞定Dots.OCR API服务。不管是个人使用还是集成到项目中,都非常方便~有任何问题欢迎评论区交流~#DotsOCR #OCR识别 #小红书开源 #PDF识别 #表格识别 #Docker部署 #API开发 #人工智能。
2025-12-05 15:33:59
298
原创 零踩坑部署DeepSeek-OCR API:基于Docker+CUDA 11.8的完整指南
本次部署的核心是Unsloth版本精准适配:通过指定版本,解决了CUDA 11.8环境下的兼容问题;Dockerfile的关键优化点包括国内镜像加速、模型预下载、健康检查,大幅提升部署效率和服务稳定性;构建镜像,启动容器,验证重点是Unsloth安装和健康接口状态。按照本文步骤操作,可零踩坑完成DeepSeek-OCR API的容器化部署,且服务具备GPU加速、自动重启、状态监控等生产级特性。
2025-12-04 14:54:10
456
原创 深度解析:基于Dify API的企业级PDF批量OCR解决方案——从架构设计到落地实践
本文提出了一种基于Dify API的企业级PDF批量OCR解决方案,针对传统OCR工具在批量处理、断点续跑、页码顺序等方面的痛点问题。该方案采用原子化进度管理、强制顺序保障、多重容错机制等设计理念,通过状态管理模块实现精细化的断点续跑功能,支持四级降级恢复机制。技术架构涵盖PDF转图片、OCR处理、文本合并等核心模块,并采用中心化参数管理提升可维护性。方案兼容多系统环境,提供完善的异常处理和进度可视化功能,满足企业级场景的高效稳定需求。
2025-12-03 21:57:12
884
原创 从图片PDF到结构化文本:基于Python+Dify的批量OCR自动化解决方案
本文提出的基于Python+Dify的批量OCR解决方案,完美解决了图片PDF的文本提取难题。通过将PDF转图片、Dify OCR识别、文本合并等环节自动化串联,大幅提升了文档处理效率,适用于企业办公、教育培训、政务处理等多个场景。该方案兼顾了易用性和扩展性,既可以直接部署使用,也可以根据实际需求进行二次开发。随着AI识别技术的不断进步,结合Dify平台的灵活配置能力,后续还可以进一步优化识别精度和处理效率,为文档数字化转型提供更强大的支持。
2025-12-03 14:10:32
956
原创 Gemini 2.5、DeepSeek-OCR与MinerU2.5 OCR核心能力全方位对比报告
本次报告聚焦三款主流具备OCR能力的模型,其中Gemini 2.5-Pro是谷歌推出的通用多模态大模型,MinerU2.5是上海人工智能实验室开源的专业文档解析模型,DeepSeek-OCR则是专注于高效文档识别的开源模型。本次对比围绕OCR核心的识别精度、处理效率、复杂场景适配性等关键指标,结合权威评测数据与实测场景,综合评估三者的OCR表现,为不同场景下的工具选型提供参考。优点:零样本泛化能力强,能处理金属雕刻、扭曲字体等非传统文档的特殊OCR场景;基础文本识别无需复杂配置,上手门槛低。
2025-12-03 10:47:24
288
原创 如何在Dify集成minerU API
以上过程只是解析了含图表、图片、表格的pdf,存储知识还需要在后续流程中增加处理,若表格比较大,建议使用使用比如默认1024更长的分片。特别注意:需要在.env中设置 FILES_URL=http://api:5001,以便可以上传文件。其次,设置minerU 的API Key授权。其它的参数按默认设置即可,然后就可以使用了。
2025-12-03 09:23:39
135
原创 如何部署自己的MinerU API OCR服务?
启动完成后能成功访问 `http://localhost:8000/docs/`6、测试接口(不要在界面直接使用接口,解析结果很长时,无法在界面返回内容)2、准备compose.yaml。3、设置mineru.json。1、准备Dockerfile。5、进入容器下载模型。
2025-12-02 17:50:27
270
1
原创 在Dify工作流中使用RagFlow知识库
1、在RagFlow侧创建知识库test,记住知识库ID:URL中dataset后的部分,如:7e9799ccce9011f0940a0a31c7540a4a。一是ragflow默认就支持OCR解析,而dify中需要自己去配置MinerU服务(效果还不如ragflow默认的OCR)3、创建关联Ragflow的知识库,如:ragflow_test,并填写第一步中RagFlow侧的知识库ID。2、在Dify侧增加添加一个外部知识库API,相当于是设置了一个API连接的访问端点。
2025-12-01 17:30:03
125
原创 TRL+Unsloth 高效微调大模型
本项目基于指定依赖版本(torch 2.7.1+cu128、trl 0.23.0 等),构建了一套低资源、高效率、高准确率的企业知识库大模型微调系统,核心成果如下:技术方案成熟可靠:通过 Unsloth+LoRA+TRL 的组合,实现单卡 16GB 显存高效训练,令牌准确率达 97.0%,超过目标阈值;参数配置科学合理:训练参数与依赖特性深度适配,平衡训练速度、显存占用与模型性能,支持训练过程可复现;系统功能完整:涵盖数据获取、预处理、训练、评估、部署全流程,支持实时监控与流式交互,可直接业务落地;
2025-12-01 10:11:47
1029
原创 谷歌ADK:让AI智能体组队写剧本,多智能体协作的黑科技揭秘
它知道谁适合做什么(智能体角色定义);它知道任务的先后顺序(SequentialAgent);它知道哪些任务可以同时做(ParallelAgent);它知道什么时候需要反复打磨(LoopAgent);它还会管理团队的「共享文件柜」(状态管理)。而剧本创作案例,就是这个「AI项目经理」成功操盘的一个项目——从用户的一个简单需求,到最终产出完整的剧本文件,全程自动化、专业化,让人不得不感叹:多智能体协作的时代,已经来了!
2025-11-20 08:52:11
642
原创 AI重塑社会结构:当“闲人”时代来临,我们该如何自处?
AI不仅是工具,更是一种“新物种”——它可能拥有情感模拟能力、伦理判断逻辑,甚至影响人类最私密的社会关系。当AI深度融入生活,我们需重新思考“人与AI的边界”,以及“人之所以为人”的核心价值。从社会关系重构来看,AI正改变“人与人连接”的方式。在医疗领域,智能手环实时监测健康数据,AI医生远程诊断,传统“医院集中诊疗”模式逐渐瓦解,人们无需聚集即可获得医疗服务;在教育领域,个性化学习设备替代传统课堂,学生可在家与AI导师互动,学校的“集中教育”功能弱化。
2025-11-16 09:29:36
709
原创 LiveTalking 数字人实战全解:从本地到云端,打造低延迟、高保真的 AI 数字人直播系统
LiveTalking 是一个开源的实时多模态数字人驱动系统,具备音视频同步、语音交互、大模型对话、TTS 播报等能力,适用于直播、客服、教育、虚拟主播等场景。如需进一步协助部署、调试或定制开发(如接入 Coze、重写 TTS 调用、适配 GPT-SoVITS),可微信沟通,我可以提供配置文件模板、代码片段或 Docker 镜像建议。文本转语音(TTS) 支持多种 TTS 服务,如 GPT-SoVITS、FishSpeech、EdgeTTS、腾讯云 TTS、豆包 TTS 等。
2025-11-07 17:03:32
1481
原创 市值分析:半导体龙头的估值边界在哪里?——以NVIDIA为案例的概率化拆解
当一家公司的市值四年上涨近十倍,市场习惯用"线性外推"给出一个更大的数字。面对"10万亿美元"的呼声,本文采用"业务拆解+情景法+蒙特卡洛"三级框架,把故事翻译成概率,为半导体估值提供一把可复用的标尺。半导体周期本质上是"技术-资本-政策"三力博弈,估值天花板并非直线,而是一条由概率织成的分布带。把故事拆成数字、把数字变成概率,才能在超级成长股面前保持冷静,也才能真正享受到"右尾狂欢"带来的非对称收益。一旦增速跌破25%,PE压缩将呈现"双杀"效应。结论:数据中心既是"利润池"也是"波动源",决定数量级;
2025-11-05 11:27:39
590
原创 领域问答,别死磕微调了,RAG才是你的“正解”
先说清楚——微调没毛病,但它干的活,是**塑造行为模式**,不是**塞知识点**。**“是不是我数据不够多?还是GPU该升级了?**“让它回答‘2025年新能源汽车补贴怎么申领’”**政策一变,你只需更新文档库,**模型不用重训**。微调不是万能钥匙,它解决的是“怎么做”,不是“是什么”。- **上下文工程**:加提示词“无依据不输出”(边界)。而领域问答的核心,是**准确、可溯、可更**的知识交付。- **微调**:教模型掌握“审查流程”(技能);- **RAG**:接入证监会处罚案例库(知识);
2025-10-16 07:51:58
373
原创 A100 vllm运行Qwen3-4B-instruct-2507生成速度有多快?
分别以Qwen/Qwen3-4B-Instruct-2507和Qwen/Qwen3-4B-Instruct-2507-FP8进行测试,发现Qwen/Qwen3-4B-Instruct-2507的生成速度反而更快一些。运行Qwen/Qwen3-4B-Instruct-2507-FP8的结果:10-14.1 tokens/s,竟然更慢。结果:18.1 tokens/s。
2025-10-15 16:53:48
259
原创 wav语音流在safari浏览器或手机浏览器上播放不了怎么办?
这篇文档介绍了如何通过浏览器将WAV音频流转换为MP3格式并进行播放的技术方案。主要内容包括:使用Web Audio API解析WAV音频数据通过LAME.js编码器将PCM数据转换为MP3格式实现浏览器端音频格式转换和播放功能提供完整的HTML代码示例,包含音频获取、格式转换和播放控制等功能该方案特别针对Safari浏览器的兼容性问题进行了优化,适用于需要在前端处理音频格式转换的场景。
2025-10-14 23:19:09
183
原创 A100 vllm 运行Qwen3-30B-A3B,生成速度有多快?
测试结果:7.6 tokens/s,是否有点失望?还没有M2 Max快(50+ tokens/s)。部署方式:docker。
2025-10-13 15:50:01
371
原创 Milvus部署在T4 GPU上,Dify检索性能可以提升多少?
另外,默认的验证false始终无效,还是要验证MILVUS_USER和MILVUS_PASSWORD,我们设置为默认的值,如:root和Milvus。在.env环境变量中,使用默认的配置,一直连接失败,如:MILVUS_URI=http://host.docker.internal:19530。通常情况下,Dify检索知识库在秒级别,通常需要1-2秒,而部署在T4 GPU上则可以达到毫秒级别,通常在几十毫秒。部署配置说明一下,这很关键,直接关系到是否可以正常访问milvus。测试三:who are u?
2025-10-13 15:28:27
509
原创 LLM厂商靠什么赚钱?——解码大模型商业化的“明线”与“暗线”
但“水电”毛利极薄。据第三方测算,在H100上跑开源Llama-3.3-70B,每1000次推理成本约0.013美元,而公开API报价0.02美元,毛利率仅35%左右,再扣掉运维、带宽、人力,基本无利可图。LLM厂商的终点不是“卖模型”,而是把模型变成通往算力、咨询与奢侈级服务的“流量入口”——现在亏掉的钱,只是为将来收更高的“税”铺路。结论:当大模型变成高端咨询的“锤子”,厂商就能摆脱Token价格战,按人力+交付价值收费。结论:把最强模型做成“身份符号”,既能锁定收入,又能防止技术被蒸馏,一石二鸟。
2025-10-10 20:23:55
640
原创 AI:是“鸡肋”还是“神器”?关键在于你是否“用”对了
• 建立“AI+”思维:将AI融入你的工作流,形成“AI+人工”的协同模式。这种“有用”感,恰恰是因为AI在非专业领域填补了普通人的能力空白,将原本需要长时间学习才能掌握的技能,转化为“一句话指令”即可获得的成果。• 经验鸿沟:AI擅长处理标准化、模式化的任务,但专业人士依赖的“直觉”、“经验”和“创造力”,恰恰是AI短期内难以复制的。然而,当AI走出专业“深水区”,进入普通人的日常领域时,它的价值便瞬间凸显。• 对普通人而言,AI是“赋能者”,它弥补了你的短板,让你瞬间拥有“超能力”。
2025-09-29 08:20:21
308
原创 CosyVoice2支持Nvidia 5090及vLLM加速
文章摘要: 本文介绍了在Nvidia 5090显卡上运行CosyVoice2并启用vLLM加速的方法。关键点包括:1)需安装torch 2.8.0+以支持sm_120架构;2)通过pip安装vLLM时需注意版本兼容性;3)提供完整的vLLM测试代码示例,包含音频处理和保存功能。测试代码展示了100轮语音合成任务的处理流程,支持零样本推理,并详细记录各环节耗时。文中特别强调驱动/CUDA版本匹配、半精度推理等优化事项,同时包含丰富的调试信息输出,帮助定位张量转换、音频保存等环节的潜在问题。
2025-09-25 12:00:47
367
原创 AI算力革命2025:从百亿烧钱竞赛到盈利破局
2025年AI行业迎来关键转折,训练成本逼近百亿美元,推理日耗达千万美元。行业从"参数竞赛"转向"成本控制",资本更看重算力投入产出比。五大创新范式应运而生:小模型逆袭、智能路由优化、全域缓存体系、专用芯片突破和精准定价策略。垂直场景的小模型表现优异,专用芯片效率提升15倍,95%请求实现零推理响应。AI从业者角色重塑,成本优化师成为稀缺人才。行业共识表明,控制算力成本已成为AI企业生存与盈利的核心竞争力,参数规模让位于商业价值的精准转化。
2025-09-24 23:17:24
1150
原创 ZipVoice小米语音合成-MacOS可运行
ZipVoice:主要针对单说话人零样本合成,它基于Zipformer骨干网络,该网络基于U-Net的多尺度高效结构,巧妙结合卷积与注意力机制,并能多次复用注意力权重,使ZipVoice在参数量上相比同类模型直接缩减了约63%。同时,通过流蒸馏(Flow Distillation)技术,在不牺牲语音质量的前提下,大幅减少了推理所需的步数,在CPU上也能达到接近实时的合成速度。
2025-09-16 12:49:01
456
原创 MacOS 运行CosyVoice
MacOS上运行比较简单,直接使用docker即可,虽然是docker是 AMD64版本非ARM64版本,但在容器中仍然可以使用,但性能会有所损失,相当于直接用的CPU,也没有使用MPS加速。3、克隆时间比较长(取决于GPU性能,使用H20以满足低延迟输出),L4 克隆默认文本需要10秒。说明:默认使用asset/zero_shot_prompt.wav 作为参考声音。若要指定参考声音:--prompt_wav "你的参考声音.wav"若要指定克隆文本:--tts_text "你需要克隆的文本内容"
2025-09-09 16:41:15
524
原创 MacOS M芯片 运行GPT-SoVITSv2Pro
训练和推理的基本流程类似,目前GPT-Sovits已经升级,MacOS下部署更能简单一些。5)一键三连提取自监督特征和语义特征(第一步需要下载nltk_data,有可能会失败,要科学上网)5、创建虚拟环境 python=3.10,并安装(--device MPS)2)指定待训练的声音文件路径:如:input/someone。3)依次执行声音拆分、降噪和ASR转写(自动标注)2、安装ffmpeg(webui.py需要使用)3、安装wget(install.sh需要使用)4)标注界面也不是必须的(手工标注)
2025-09-08 14:33:11
544
原创 成功的三重筛选:从方向到迭代的生存法则
筛选门核心能力成事者的“修炼”第一道精准目标看清方向第二道长期坚持耐住寂寞第三道频繁迭代拥抱变化这三者,不是孤立的条件,而是相辅相成的整体没有精准目标的坚持 → 是“盲目奔跑”没有长期坚持的迭代 → 是“浅尝辄止”没有频繁迭代的目标 → 是“固步自封”✅真正的成功,从来不是“幸运降临”,而是在三道筛选门中不断突破自我的结果。当你能:✅ 精准定位方向✅ 耐住长期寂寞✅ 持续优化自我你不仅能做成一件事更会成为一个——🌱可持续成长的人。
2025-08-30 09:00:27
630
原创 车与司机——关于AI的三种误解与一种清醒
现实是,不会开车的人照样可以叫网约车、搭地铁、坐高铁,甚至雇专职司机。“会用AI的人将淘汰不会用的人”——这句话像一张新世纪的末日判决书,在社交网络上反复传阅,把“不会AI”渲染成一种即将灭绝的史前物种。AI时代的核心竞争力,不是“掌握工具”的傲慢,而是“理解需求、定义问题、调度资源”的谦逊。“不会就要学”“不学就被淘汰”——这种二元对立的恐吓式话术,其实是技术资本最擅长的营销剧本:先制造焦虑,再兜售课程。所以,请把AI当成一辆车——它可以带你去远方,但方向盘上永远要有人类的手,心里永远要有人类的温度。
2025-08-23 14:17:25
309
原创 上下文工程
模型输入中的文本内容(如用户提问、历史对话、文档片段等);模型在生成响应时所依赖的所有信息;包含任务描述、示例、背景知识、约束条件等。✅ 例如:在问答系统中,上下文可能是问题本身 + 一段参考文章。上下文工程 = 让大模型“看得懂、想得清、答得准”的系统性方法论。它不仅是“写得好提示”,更是信息架构、知识管理、任务建模与用户体验设计的融合。在LLM应用落地中,优秀的上下文工程往往是决定成败的关键。
2025-08-22 12:00:13
722
原创 强化学习- GRPO
要点说明✅广义奖励超越原始奖励,融合内在动机、多任务、不确定性等信息✅策略优化驱动以最大化期望累积回报为核心目标✅正则化增强鲁棒性通过KL、熵、梯度约束等,防止策略崩溃或过拟合✅灵活性与可扩展性可适配多种任务、环境与约束条件✅平衡探索与利用通过奖励设计与正则项实现动态平衡在复杂、不确定或高风险环境中,通过“广义奖励”与“智能正则化”的结合,实现稳定、高效、可泛化的策略优化。它不是单一算法,而是一种策略优化的设计哲学,强调灵活性、安全性与长期性能的统一。
2025-08-21 16:39:06
1194
原创 使用大模型构建“点咖啡”会话管理:从提示词到完整交互
{“user_name”:“小明”,“order_items”:[{“drink”:“拿铁”,“size”:“中杯”,“sugar”:“半糖”,“milk”:“燕麦奶”}],“awaiting_field”:“drink”,“confirmed”:false}{“user_name”:“小明”,“order_items”:[{“drink”:“拿铁”,“size”:“”,“sugar”:“”,“milk”:“”}],“awaiting_field”:“detail”,“confirmed”:false}
2025-08-15 15:22:08
861
原创 为什么编程辅助工具,普遍感觉不太好用呢?
虽然现在的编程辅助工具(如GitHub Copilot、ChatGPT、TabNine、Cursor等)已经取得了显著进展,但很多人仍然觉得它们“不太好使”。这种“不好用”的感觉往往并不是因为这些工具完全无效,而是因为它们与程序员的实际工作方式之间存在一系列错位。你可以把它当成一个“有点聪明但不靠谱的实习生”——用得好是助力,用不好是负担。它不会替你开车,但如果你知道怎么问、怎么修正,它确实能让你开得更快一点。写复杂逻辑 一般 用它生成“初稿”,再人工重构。编程辅助工具不是“自动驾驶”,而是“副驾驶”。
2025-08-15 14:16:11
356
原创 Qwen3-30B-A3B-Thinking-2507:你值得拥有的 64 GB 级「推理怪兽」
Qwen3-30B-A3B-Thinking-2507:真正意义上「一张 910B 就能拥有的推理怪兽」但 一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。30 B 参数、3.3 B 激活、42 GB 显存、64 GB 单卡就能跑。它在 数学、代码、中文理解 三项 全面碾压 70 B Dense,别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头,在 总参 30 B / 激活 3.3 B 的 MoE 架构下,数学 85 分、代码 66 分、中文霸榜。
2025-08-12 23:38:16
1859
原创 显存带宽:大模型推理的隐形天花板
从“12.2 tokens/s”的理论上限到“80 tokens/s”的实际性能,每一步提升都源于对带宽的极致利用。显存带宽不是抽象概念,而是可通过“权重大小÷带宽=耗时”直接计算的物理约束。在大模型推理中,理解这一逻辑才能把握优化核心——不是盲目堆算力,而是通过软件创新逼近带宽的物理极限。
2025-08-08 13:16:52
1499
原创 7卡昇腾910B环境中完成Qwen2.5-32B的部署与测试验证(仅供参考)
指标优化目标测试工具AI Core利用率≥80%单token生成延迟≤100ms(批量=16)vLLM监控API + 自定义脚本吞吐量vLLM显存占用单卡≤90GB。
2025-08-08 10:21:43
1913
原创 算力估算-运行Qwen2.5 32B 要达到2万tokens/s需要多少张昇腾910B卡?
要实现的吞吐量,需根据模型量化精度(FP16/INT8)和昇腾910B的性能保守值重新计算。以下分析基于您的核心前提(FP16单卡800-1000 token/s、INT8单卡1500-2000 token/s),结合模型并行与数据并行的部署策略,给出具体方案和卡数需求。
2025-08-08 10:03:21
1610
原创 GPT5来了-小白编程的时代来了
GPT5来了,编程能力强的一批,小白也能编程了的感觉。下面以中国象棋游戏,人机对弈为例,来展示一下过程,我使用的dify工作流来对接的GPT5。评价:象棋棋盘画的不完整,可以对弈。小白编程的时代来了。GPT5具有智能体(代表老师)的感觉了,引导你一步一步完成初始设定的目标。
2025-08-08 09:45:55
405
原创 对齐人工智能的理解
大模型的 “智能” 本质上是对海量数据中模式的捕捉和概率化输出,它缺乏人类的 “理解”“意图” 和 “主动规划” 能力,因此其输出的质量高度依赖于人类如何通过提示词(Prompt)和上下文(Context)来 “校准” 方向 —— 这正是 “人工” 智能中 “人工” 二字的核心体现。未来,随着模型能力的提升,可能会出现更 “智能” 的引导方式(比如模型主动追问模糊点),但只要模型仍依赖数据驱动而非真正的 “认知”,人类对 “提示” 和 “上下文” 的设计,就始终是让其输出符合预期的核心环节。
2025-08-01 14:06:23
400
原创 如何填写PDF表格的例子
实际应用场景中,我们会遇到需要根据会话内容自动填写表格的情况,比如:pdf 表格。假设根据会话内容已经获得相关信息,下面以填写个人信息为例来说明。个人信息表格.pdf。
2025-08-01 09:10:10
311
人工智能生成式AI在客户服务领域的商业落地方法与效果验证:智能客服系统设计与多维度ROI分析
2025-10-29
winsock全双工多客户端通信
2006-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅