- 博客(169)
- 资源 (3)
- 收藏
- 关注
原创 一问看懂什么是RAGFlow
一、核心定位与特点RAGFlow是一款基于深度文档理解的开源RAG引擎,由Infiniflow团队开发,GitHub拥有59.4K+星标,是国内最流行的RAG框架之一。核心特点:• 文档理解之王:能解析23种格式的文档,包括PDF、Word、Excel、图片、扫描件等,OCR准确率达98%,能精准识别表格、图片、公式等复杂结构• 零代码可视化:通过拖拽式界面快速搭建RAG流程,非技术人员也能3小时内构建企业级知识库。
2025-11-20 07:38:26
497
原创 一文看懂Dfiy问答Agent工作流设计
摘要:本文基于Dify平台的节点编排能力,设计了一个"精准问答+知识库联动"的智能问答工作流,包含输入、识别、检索、生成、输出5大核心阶段。工作流采用分支判断策略,支持知识库检索与直接生成两种响应路径,并包含结果校验和格式优化环节。通过轻量LLM模型、混合检索机制(语义+全文)和异常处理等优化配置,实现了高效精准的问答效果。该方案适用于产品咨询、内部知识问答等多个场景,具有通用性和灵活性,同时支持扩展工具调用和多语言等功能。(150字)
2025-11-04 14:13:08
674
原创 【AI百科】什么是主成分分析法
主成分分析(PCA) 是一种降维方法,核心是在保留数据核心信息(方差) 的前提下,将多个相关的原始变量,转化为少数几个互不相关的“综合变量”(即主成分),实现数据简化。可以把它类比成“总结文章大意”:一篇长文(多个原始变量)包含很多细节,PCA就是提炼出1-2句核心主旨(主成分),既抓住关键信息,又大幅缩短了内容长度,且主旨之间互不重复。
2025-10-28 07:48:11
204
原创 宏指令:删除单元格中所有<div之后的内容
最近在清洗数据,由于是从代码库里拉出的内容,需要进行清洗html标签,就整理了如下指令:宏指令1:删除单元格中所有<div之后的内容使用步骤:按下 Alt + F8 打开宏窗口,选择RemoveDivAndAfter 宏,点击「运行」;处理完成后会弹出提示框,所有选中单元格中 <div 及之后的内容会被自动删除。说明:
2025-10-24 13:56:54
203
原创 一文看懂“神经网络、机器学习、专家系统”
包含关系:神经网络(深度学习)是机器学习的一个分支,机器学习和专家系统是并列的两种“AI技术路径”;核心差异专家系统:人写规则,机器照做;机器学习:人帮机器选“关注什么特征”,机器找规律;神经网络:机器自己选“关注什么特征”,自己找规律(更智能,但更依赖数据)。
2025-10-18 10:30:31
361
原创 需求知识库构建kickoff
博主目前在开发AI需求助手,目前受限于数据源,只能依赖单个需求上下文来进行需求分析评审,需要建立优质历史需求知识库来提供RAG数据源支撑。那么问题来了:目前公司有很多业务条线,是选1个条线还是1个业务系统来进行MVP尝试呢?推荐优先选择推进MVP尝试!而非1个业务条线。”,能以最小复杂度快速跑通“数据采集-处理-检索-价值验证”全流程,避免MVP阶段因范围过大导致落地失控。
2025-10-15 17:08:00
765
原创 如何为AI需求管理建立RAG需求知识库
最近为公司的需求管理平台开发了AI需求撰写助手,经过对prompt的无数次调试,工具目前可以稳定地完成需求审阅、辅助撰写工作,但还存在着一个无法回避的问题:没有历史需求知识库,只能基于单独需求上下文进行分析,无法分析存量复杂需求。
2025-10-15 15:42:12
822
原创 如何构建有效的需求知识库?如何让你的AI用它来评审新需求?
• 示例:新需求写“资管产品支持T+0赎回”,AI查知识库“资管-赎回合规标签”(对应《资管新规》“开放式产品赎回不得快于T+1”),直接提示:“未提及合规依据,且T+0赎回可能违反《资管新规》第X条,建议补充合规说明或调整赎回时效。• 示例:新需求写“开发投行并购尽调功能”,AI查知识库“投行需求核心标签”(需含“尽调范围、数据来源、合规审查节点”),提示:“缺失‘合规审查节点’描述,参考历史投行需求,建议补充‘尽调后需经合规部二次审核’的内容。需要我帮你定制一份“券商需求知识库标签模板”吗?
2025-09-28 19:54:25
311
原创 为什么prompt越优化越不准了?
你有这样的体会,在优化Prompt指令时,随着Prompt的各组细节描述、约束越来越精准和复杂,但结果反而变差。其实,问题往往出在「信息过载」或「逻辑冲突」——AI难以办法同时优先级处理复杂指令中的优先级,甚至会被冗余信息干扰。
2025-09-27 11:02:08
296
原创 需求质量检测Prompt之是否涉及异常场景
摘要: 本文提供了一套AI检测证券软件需求文档的精准方案,聚焦证券业务专属、高风险、框架无法覆盖的异常场景,避免过度检测增加需求方负担。核心逻辑是: 只查三类异常:合规性约束、资金/资产关联、交易规则专属等高风险场景; 排除通用问题:框架可处理的空指针、网络断连等低风险技术异常; 输出极简结论,直接标注需补充的致命异常(如“非交易时间委托”“保证金不足”)。通过“证券业务+风险等级+框架能力”三重筛选,确保检测精准高效。
2025-09-18 16:51:46
575
原创 破解功能设计 “无舵困境”:开发出身产品经理的指标拆解逻辑
开发转型产品的无目标感,本质是“思维还停留在‘执行层’,未进入‘决策层’”。解决的核心不是“学更多功能设计技巧”,而是建立“先定目标、再拆路径、最后验结果”的闭环逻辑——让每个功能都有“根”(目标),每个设计都有“据”(用户/数据),每个上线都有“果”(验证)。转型期的迷茫是正常的,但只要每次设计前都先问自己:“这个功能为了什么而存在?”,你会很快从“被动执行”的开发,变成“主动定义价值”的产品经理。
2025-09-18 14:06:15
719
原创 产品文档模板没人用?为什么、怎么办
• 发现成本高:模板入口隐藏较深(如需3步以上点击才能进入模板库),或分类混乱(如按“模板1”“模板2”命名,而非“产品PRD”“测试用例”等直观分类),用户根本不知道有模板功能。◦ 模板采用“搭积木”模式,用户可自由添加/删除模块(如不需要“风险评估”模块,可直接隐藏),或自定义字段(如在“开发需求”中添加“接口文档链接”“第三方插件要求”等个性化项)。◦ 用“标签化分类+搜索”提升查找效率,例如:给模板贴“产品”“开发”“电商”“简易版”等标签,支持用户搜索“电商订单”“测试用例”快速定位。
2025-09-02 08:02:50
413
原创 一文看懂监督学习和无监督学习
就像学生做“有标准答案的练习题”,训练数据中每个样本都附带“正确结果”(标签),模型的目标是从这些“问题-答案”对中学习规律,再用学到的规律预测新数据的结果。就像学生整理“无答案的杂乱资料”,训练数据只有“问题”没有“答案”,模型需要自己从数据中发现隐藏的结构或规律(比如分组、聚类)。二、无监督学习:没有“老师”,自己找规律(无标签数据)一、监督学习:有“老师”给答案(带标签数据)
2025-08-15 08:17:03
403
原创 一文看懂如何分级处理需求文档
近日有同学在问:实践软件研发管理过程中,如果对需求文档刚性要求过多,往往会增加工作量,引起需求撰写人的反感。这种情况如何判断和妥善处理?在实践过程中,处理需求文档刚性要求与实际场景的矛盾,关键在于建立“分级适配机制”,既守住质量底线,又保留灵活空间。
2025-08-12 11:06:55
818
原创 一文看懂数据挖掘中的分类方法
数据挖掘中的分类方法是基于监督学习的核心技术,其目标是通过已知类别的训练数据构建模型,预测新数据的类别标签。通过计算样本间的距离或相似度,将新样本归为“最近邻”的类别,属于“惰性学习”(无显式训练过程)。通过多层非线性神经元模拟人脑,学习数据的复杂特征,适合处理高维、非线性数据。这类方法以统计学理论为基础,通过分析数据的概率分布或统计特征构建分类模型。通过构建“if-then”规则或树状结构,直观地划分数据类别,可解释性强。三、基于距离或相似度的分类方法。四、基于核函数的分类方法。一、基于统计的分类方法。
2025-08-12 08:35:30
480
原创 一文看懂研发管理平台中各角色的用户地图
在研发管理平台的复杂生态中,不同角色承担着各异的职责,且在平台使用过程中有独特的行为路径、需求和痛点。为了优化平台功能,提升整体研发效率与协作体验,清晰梳理各角色的用户地图显得尤为关键,它能帮助团队全面理解不同角色需求,针对性地进行平台改进与服务提升。
2025-07-23 09:59:42
300
原创 【RAG专题】如何选择合适的RAG架构?
核心原则:“数据适配+场景匹配+成本可控”。• 先明确数据规模、类型和精度需求,再选择单阶段/多阶段检索;• 实时场景优先轻量架构,专业领域侧重多阶段精排;• 中小团队从开源基础架构起步,逐步根据需求迭代优化(如增加分块策略、精排模块)。
2025-07-21 07:55:02
401
原创 【RAG专题】一文看懂文档召回率
在RAG(检索增强生成,Retrieval-Augmented Generation)系统中,是衡量检索模块性能的核心指标之一,用于评估系统从文档库中成功找回与用户查询相关的所有文档的能力。
2025-07-15 08:50:36
467
原创 一文看懂MVP最小可行产品验证法
MVP验证法是一种通过最小可行产品快速测试市场需求的方法。其核心在于用最低成本验证产品假设,仅保留核心功能,通过用户反馈和数据快速迭代。典型步骤包括:定义关键假设、构建简单原型(如演示视频或人工服务)、收集用户行为数据,并根据结果调整方向。成功案例如Dropbox用视频测试需求、Uber从单一城市起步。该方法强调避免过度开发,关注真实用户行为而非完美产品,适用于初创企业和新产品验证。关键原则是快速试错、数据驱动和持续优化。
2025-07-09 11:24:57
1044
原创 破解AI需求评分工具沦为“面子过程”的困局
一、需求颗粒度差异的根源剖析graph TDA[业务场景差异] --> B(金融需求)A --> C(电商需求)A --> D(政务需求)B --> B1[高合规性]B --> B2[细粒度风控规则]C --> C1[高时效性]C --> C2[粗粒度功能迭代]D --> D1[强流程管控]D --> D2[中粒度数据治理]二、柔性评分体系设计方案• 行业模板库:行业 核心维度 权重范围 示例场景金融 合规性 25%-35% 反洗钱模型开发。
2025-07-05 11:23:44
392
原创 WPS表格如何自动生成序号
在WPS表格中,可通过以下函数实现“右侧列有内容时自动生成递增序号”的需求。以下是两种常用方案,分别基于ROW函数和SUBTOTAL。
2025-07-04 09:03:43
2015
原创 一文看懂如何选择适合的Deepseek版本
• 日常用:选V3或R1 8B蒸馏版,够用又便宜;• 专业活:上R1满血版或R1 32B蒸馏版,精度够强;• 设备差:直接用8B量化版,小显存也能跑。
2025-07-04 08:42:50
715
原创 敏捷开发中的INVEST需求提出原则
INVEST原则是敏捷开发中用于评估和优化用户故事(User Stories)的核心框架,由六个关键特性组成,确保需求清晰、可执行且可交付。若故事过大(如“重设计电商首页”),拆分为“商品搜索优化”“推荐算法更新”等可估算子任务。如开发“用户注册”和“邮箱验证”功能时,若两者强耦合,需拆分为独立故事,确保可单独交付。需求“优化登录流程”可协商为“支持手机号一键登录”或“集成第三方授权”,避免僵化执行。大型需求“开发支付系统”拆分为“接入微信支付”“退款流程设计”等小故事。
2025-06-30 13:18:35
968
原创 一文看懂什么是开发范式
开发范式的演进本质是人类与工具协作关系的革命。从手工编码到AI生成代码,从线性流程到动态迭代,每一次范式变迁都重新定义了开发者的核心价值。在AI时代,开发者的角色正从“代码编写者”向“问题定义者”和“AI系统架构师”转变,而Trae等工具正是这一转型的关键催化剂。
2025-06-12 07:57:26
722
原创 一文看懂字节跳动Trae
在AI技术全面渗透软件工程的2025年,字节跳动推出的Trae(内部代号T-IDE),标志着中国首个AI原生集成开发环境(AI IDE)的正式落地。作为火山引擎技术生态的重要组成部分,Trae深度整合了字节跳动在大模型、多模态交互领域的技术积累,旨在通过AI能力重构开发者的工作流程,实现从代码生成到项目管理的全链路智能化。◦ 实测数据显示,使用Trae的Builder模式可缩短50%以上的原型开发时间,Chat模式的代码补全准确率达89%(2025年Q2数据)。
2025-06-12 07:44:35
1184
原创 一文看懂字节与火山的关系
总结:火山引擎是字节跳动从「互联网公司」向「创新科技公司」转型的战略支点,既承担技术外溢的商业使命,也通过市场反馈反哺字节内部技术升级,二者构成「技术研发-产业落地」的闭环生态。• 大模型战略:作为字节大模型商业化的核心载体,火山引擎推出了豆包大模型家族(包括通用模型和行业垂类模型),并通过火山方舟平台聚合第三方模型,形成「自研+生态」的AI服务矩阵。• 技术验证闭环:字节跳动将内部打磨的AI技术(如多模态生成、视频理解)通过火山引擎开放给企业客户,实现「研发-应用-迭代」的商业化验证。
2025-06-12 07:37:29
961
原创 Ollama-大模型的运行底座
它提供了一种简单的方式,让用户可以在自己的设备上部署和使用各种大语言模型,而无需依赖云端服务。借助 Ollama,用户能够以命令行或者 API 的形式与大语言模型进行交互,从而完成文本生成、问答、对话等任务。相信你在后续使用 Ollama 和 DeepSeek 的过程中,能充分发挥它们的优势,取得出色的成果!澄清一点,Ollama 并非大模型,它是一个用于在本地轻松运行大语言模型的工具。
2025-06-10 12:43:34
163
原创 Swagger和OpenApi的前世今生
Swagger与OpenAPI共同构建了 “规范定义-工具实现-生态应用” 的三层体系:Swagger工具链:降低API开发门槛(设计→测试→文档自动化)。OpenAPI规范:提供跨平台、语言无关的接口描述标准。商业与开源协同:SmartBear推动工具商业化,OAI保障规范开放性。正如 Kubernetes API 的实践所示:用OAS 2.0描述所有资源端点,Swagger UI渲染文档——这既是技术融合的典范,也是开放生态的生命力所在。
2025-06-07 07:50:04
578
原创 一文看懂什么是分词
◦ 隐马尔可夫模型(HMM):将分词转化为序列标注问题(B:词首,M:词中,E:词尾,S:单字词)◦ 正向最大匹配(FMM):从左向右扫描(例:“结婚的和尚未结婚” → 错误切分“结婚/和尚”)机器翻译:正确切分源语言是翻译基础(例:“他马上功夫好” → 误切“马上”(副词)导致语义错误)◦ 逆向最大匹配(RMM):从右向左扫描(例:“上海大学城” → 正确切分“上海/大学城”)• 类型:新网络词(“给力”)、人名/地名(“王瑜珲”)、专业术语(“苏丹红”)
2025-06-06 07:47:50
603
原创 如何用AI实现需求分析
需求编号需求描述优先级依赖关系1.1支持从软件研发管理平台的数据库中读取软件需求数据高无1.2支持手动上传需求文档,如Word、PDF等格式中无1.3对输入的数据进行格式校验和初步清洗,确保数据的准确性和完整性高1.1, 1.2。
2025-05-25 14:36:18
716
原创 【AI人工智能】一文看懂LLM大语言模型
LLM(Large Language Model)是基于深度学习技术构建的人工智能系统,通过对海量文本数据的训练,掌握语言规律,实现自然语言的理解与生成。采用Transformer架构中的自注意力机制(Self-Attention),动态捕捉文本中词与词的长程依赖关系。例如,“猫坐在垫子上”中,“坐”与“猫”“垫子”的关联权重由注意力计算确定。通过预测文本中缺失部分(如掩码语言建模)进行预训练,再通过微调适配具体任务(如对话生成)。单向处理文本,逐词生成输出,适用于文本生成、问答等场景。
2025-05-12 15:00:35
522
原创 【Devops】一文看懂Ansible(脚本化部署)
Ansible 是一款基于 Python 开发的自动化运维工具,以脚本化部署为核心能力,广泛应用于批量系统配置、程序部署和任务编排。其核心理念是通过代码(Playbook)定义运维任务,实现基础设施的自动化管理。
2025-05-09 13:30:49
828
原创 RAG技术在测试用例生成中的应用
测试用例中的 RAG 通常指 Retrieval-Augmented Generation(检索增强生成) 在测试领域的应用,是一种结合检索与生成的技术方法,用于自动化生成或优化测试用例。• RAG 最初由 Meta 提出,主要用于自然语言处理(NLP),通过检索外部知识库的信息并结合生成模型(如 GPT)的能力,生成更准确、相关的内容。通过RAG技术自动化生成高覆盖率的用例,提升测试效率和质量,特别适用于需求频繁迭代或系统复杂度高的场景,是测试领域与 AI 技术结合的典型实践。
2025-05-08 20:45:00
496
原创 AI赋能软件开发全生命周期的工作方案初探
◦ 绘制全流程现状图:通过访谈与系统日志分析,量化需求响应周期、代码返工率、测试覆盖率等核心指标(参考MIT报告中效率基准)◦ AI应用成熟度评估:对标腾讯云、中国电信CodeFree等标杆企业,定位当前AI渗透薄弱环节(如需求分析阶段人工参与度>80%则需优先突破)
2025-05-08 08:29:51
757
原创 软件研发效能体系建设
建议企业重点关注"质量-效率-可持续性"三角平衡模型,在追求交付速度时同步强化代码审查覆盖率(建议≥70%),避免陷入"高产低质"陷阱。依据《软件智能研发应用效能度量规范》,围绕产品运营、用户行为、应用效果/效率四大维度,构建包含质量/效率/满意度的评价体系。部署单元测试/集成测试,结合持续集成工具(如Jenkins)实现代码健康度监测,测试覆盖率需达80%+。监测周期时间(需求提出至完成时长)、发布频率等核心指标,通过数据对齐实现企业间效能对标。• 效能基线预警:行业Top10%效能数据对标告警。
2025-05-07 13:39:21
435
原创 如何确定置信水平的最佳大小
在统计学中,置信水平的选择并不是一成不变的,而是根据具体的研究目的、样本量、数据类型以及行业标准等因素来确定的。然而,在大多数情况下,95%的置信水平是最常用的。• 95%的置信水平提供了一个良好的平衡,既保证了足够的可靠性(即置信区间包含总体参数的真实值的概率较高),又避免了置信区间过宽导致的估计精度下降。• 然而,99%的置信水平通常需要更大的样本量来支撑,且置信区间相对较宽,可能导致估计结果不够精确。• 在样本量有限的情况下,选择90%的置信水平可以获得相对较窄的置信区间,从而提高估计的精度。
2025-04-23 20:34:45
624
原创 多活架构中如何规划数据一致性?
在多活架构中,数据一致性是一个复杂而重要的问题。通过选择合适的数据复制与同步策略、一致性算法、数据分区与分片策略以及冲突检测与解决机制,可以确保数据的一致性。同时,通过监控数据一致性状态、优化数据同步性能以及定期演练与故障恢复等措施,可以进一步提高系统的可靠性和业务连续性。
2025-04-18 09:07:06
1095
原创 软件研发过程中的技术债
技术债的本质是质量与速度的动态平衡。优秀的工程团队不应追求零债务,而需建立债务的“免疫系统”——通过自动化检测、量化管理和文化塑造,将技术债控制在可承受、可预测、可控制的范围内。正如金融领域的风险控制,技术债管理能力正在成为衡量研发团队成熟度的重要标尺。
2025-04-16 19:13:21
395
Python机器学习-预测分析核心的算法
2017-11-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅