• 博客(1415)
  • 收藏
  • 关注

原创 淘系技术,实力为2019年双11而战!稳!

今年,双11走到了第11个年头,史无前例的,阿里经济体内有49支技术团队共同参与作战,也是第一次,双11的核心系统将100%跑在云上,这无疑让今年的双11技术作战充满了更大的挑战。正如2019年双11技术团长平畴(汤兴)说的“「善战者,无智名,无勇功」,这是我们技术人最高的境界”。我们一起捍卫了阿里技术人的荣耀,一个字 “稳”!年年双11,回回新玩法,“在吗,盖楼吗?”成为了好友聊天的日常,每天蹲...

2019-11-12 00:38:06 22787 7

原创 代码染色&无效代码清理

但实际做代码下线并非容易,仅凭业务逻辑决策代码清理费时费力,还容易误删在使用的业务代码,因此非常需要工具来辅助做代码的清理,这就是基于代码执行染色和覆盖分析做代码下线方案的背景。离线方案的缺点在于,考虑到插桩代码运行存在性能损耗,如果不是所有在线机器都部署采集,每次部署就需要至少打出两份部署包:插桩版本的包和不做插桩的包,将插桩包部署到需要采集的机器,非插桩包部署到其它机器,这种分别部署的方式增加了部署调度的复杂性。自定义的方式对理解和实践插桩过程很有帮助,比较方便自定义的方式处理采集的数据,但存在问题。

2025-11-21 17:44:15 552

原创 交易订单表如何做索引优化

本文首先以淘天电商交易订单表线上一条非典型慢 SQL 的深入剖析为切入点,示范如何系统地分析与排查慢 SQL;接着详尽归纳了索引分类、B+Tree 与 B‑Tree 的结构差异、B+Tree 高度估算方法、EXPLAIN 与 Query Profile 等诊断工具的使用,以及索引下推与排序的执行流程等索引优化理论;最后结合日常实践经验,提出了适用于大规模线上集群的索引变更 SOP,并总结了常见的慢 SQL 成因与相应的解决策略。前言交易订单表(tcorder)用于存储集团电商的在线订单记录,该表近60个字段

2025-11-19 17:15:06 922

原创 页面搭建方案(TurboUIBuilder)在穿搭星球的实践

本文介绍了手淘穿搭星球业务在面对快速迭代和极致用户体验需求时,从初期Weex方案转向Native技术栈,并基于微服务架构设计了TurboUIBuilder这一可视化页面搭建平台。该方案通过三层结构实现页面布局的结构化与动态化,结合DX动态组件、keypath数据绑定协议和内置核心服务(如布局、数据、埋点等),提升了开发效率30%-50%,实现了双端一致性、体验优化开箱即用(如无极缩放转场、多媒体浏览)以及页面的远程动态更新。同时,依托Skyline模板发布平台,支持高效、安全的模板管理与AB测试,最终形成了

2025-11-14 17:17:50 819

转载 从0到1:天猫AI测试用例生成的实践与突破

随着大模型的不断演进,测试行业基于AI也在做不同程度的探索,在agent智能体生成方面,基本使用的是prompt+RAG的方式,构建特定业务的需求分析/测试用例生成/数据构造智能体等。其中从用例设计到最终的回归约占据了QA 70%的时间,在当下对于质量要求高,版本节奏快,人力成本缩减的前提下,急需借助大模型来辅助测试设计,建设相关的智能化工具。目前在实践中主要问题还是集中在PRD质量不高;营销解决方案,导购场域,交易结算,多部门协作,中后台,如何针对不同业务类型做用例生成的适配和应用,也是面临的难题之一。

2025-11-10 17:57:07 63

原创 让AI打出丝滑连招:编码-部署-自测-改bug

在AI辅助编程的实践中,即使需求理解、方案设计、代码生成都很顺利,AI写出的代码仍不可避免地存在各种小问题。

2025-11-07 18:41:10 852

转载 别让故障复盘流于形式:用AI挖掘每一次“跌倒”的价值

而复盘是让这次故障价值最大化的核心节点,一方面准确深度发现当前系统的风险,并推动当下系统存在的风险闭环解决,同时举一反三将未发生故障&存在同样风险的系统实现真正的故障规避,另一方面复盘的结果也应该作为一种数据资产在后续的稳定工作中产出更有实质性的帮助,比如丰富稳定性工作的方向和方式,再比如经验不足的研发可以从过去的故障中学习故障树FTA路径,以及恢复手段和关键决策。我们决定推翻标签限制的关注点生成架构,借鉴人工复盘思路,从五个域出发(架构,测试,编码,变更,应急),根据上下文先提出关键问题,再尝试回答。

2025-11-03 17:33:42 94

转载 AI Coding 长文分享:如何真正把工具用起来,从原理到实践

涵盖其底层机制(如Token计算、工具调用、Codebase索引与Merkle Tree)、提升对话质量的方法(如规则设置、渐进式开发)、实际应用场景(如代码检索、绘图生成、问题排查),并推荐了结合AI的编码最佳实践,包括文档、注释、命名规范和安全合规,旨在帮助不同经验水平的开发者真正把AI工具用好。我们不只可以粘代码、图片进去,还可以让模型参考网页、Git历史、当前打开的文件等,这些 IDE 类的工具支持的比较好,因为是在IDE环境里面,而CLI在终端中,限制就要多一些(但更灵活)。

2025-10-29 21:08:04 263

转载 我的研发实践:高准确率AICoding工作流设计

在Agent框架选择上,一般我们在IDE或者cli中直接使用的都是单一Agent,单一LLMAgent可以通过工具、记忆、规划执行,很好的完成我们诸如:代码变更的诉求,如果我们的工作流有且仅有代码修改时,这样的架构无疑是最高效的,但是,我们也必须看到单一 Agent 有几个问题:工具太多可能导致选择复杂,上下文变得过于庞大,以及任务可能需要专业化。技术是帮助业务解决问题的手段,业务的形态,技术的使用是多样的,但是沉淀解决问题的能力,抽象解决问题的方法是不会变的。应该是,你想让这个方向变成未来的趋势吗?

2025-10-27 17:22:40 256

转载 一次AI驱动的淘宝客户端需求开发实战

提供清晰和明确的prompt描述,在提供给AI Coding任务尽可能是你能预期输出,给出明确构建描述的任务,当你的Prompt不能指向一个明确的Coding 产物时,可能带来的就是无尽的再次沟通成本,带来的提效时长,在一次次反复补充信息中,逐渐消耗成0甚至不如我自己干了。尝试对收集中的问题,提供了一些解决的建议,截取如下。这样的开发方式,除了提升了Coding的效率,同时也能一定程度上降低客户端开发时,双端的不一致问题(逻辑差异,消息名不一致,技术方案差异等等),减少了方案不一致导致后需问题的可能性。

2025-10-22 18:48:17 112

原创 天猫行业中后台前端研发Agent设计

实践验证表明,这种策略带来了显著的投资回报:不仅实现了70%的代码查询延迟降低,系统的松耦合设计还确保了各组件的独立演进和优化能力。更严重的是API变更带来的认知偏差问题,已有工具的API可能已发生重大更新(如Tailwind CSS v4的breaking changes),模型对废弃方法和新增特性的把握存在准确性问题。无论是传统的VSCode、IntelliJ IDEA,还是新兴的AI增强型IDE如Cursor、Windsurf,它们的核心关注点依然停留在代码编写、调试和基础的智能提示层面。

2025-10-20 17:45:47 1314

转载 初探:从0开始的AI-Agent开发踩坑实录

作为决策者:让 AI 做决策,意味着它需要对环境有深刻的理解,甚至具备一定程度的“常识”,在已知的模型能力下,往往和高质量的prompt和上下文强相关。我们的任务,就是在理解这些工具的边界和特性的基础上,遇到问题,分析问题,并用最恰当的方式去解决问题。面对这种不确定性,需要更精细的策略,例如Few-short,即好的例子,清晰的逻辑链条和工具使用指南,迭代式优化等等。在那个瞬间,我脑海里闪过的一个宏大的图景——一个全能的应用部署agent,好吧冷静下来,还是聚焦于一个小的开始,k8s部署物的自动生成。

2025-10-15 18:19:47 165

原创 AI 动画辅助实现的方案与实践

通过AI驱动的精准推荐、场景化表达与动态策略调控,我们为用户创造更自然、更智能的购物旅程,为营销业务提供高效、敏捷的技术支撑,助力淘宝构建以用户为中心的全域营销技术体系。这两个工具将非结构化的视觉动画转化为可编程、高性能、易维护的前端实现,显著降低了开发门槛,使原本耗时数小时的动画开发流程缩短至几分钟,实现了从设计到代码的高效落地。基于 AI 技术自动生成并优化 SVG 动画代码,尤其针对路径变形、形变动画等复杂场景,实现关键帧间的平滑过渡,输出轻量、可维护的动画代码,大幅降低开发门槛。

2025-10-13 18:10:00 1022

转载 从Prompt到Context:为什么Think Tool是形式化的必然?

上面说的很多,其实重演了软件工程的历史,对可靠性、可验证性、可扩展性和可维护性的需求是完全相同的。这块的设计提升的效果非常的明显,在几个案例上都达到了明显的提效,甚至比R1的预先的思考更有效,这种玩法就是把思考这个行为从一种隐式的、不可观测的过程,转变为系统执行迹线中一个显式的、结构化的、可验证的动作。首先在这里说到的语言,并不是严格按照上面的谱系语言分级,也不是编程语言,这里指的是整个人类的自然语言,而这里的编译器指的是LLM,相当于是LLM来编译人类的语言产生结果,这之间自然是存在类似的形式化分级。

2025-10-09 16:57:36 110

原创 产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践

每个代码仓库相关的资料,存放在代码仓库特定路径下的markdown文件,在任务执行过程中可选择特定的上下文,由代码的所有开发者共同维护,同样可适用于Cursor或Jules等编程工具,包含目录结构、仓库工作流、技术栈等。有了强大的一个AI编码工具Codex,也有了需要执行的任务(提示词),我们如何指挥大模型进行正确的修改呢?团队在保证业务的同时,以先进的跨端框架和研发模式不断完善自己,打造最极致的体验和工程技术,保障多端设备的适配和稳定运行,并探索端智能等创新机会,通过技术高效驱动业务的良性发展。

2025-09-29 16:49:24 986

原创 一位淘宝工程同学的大模型LoRA微调尝试

通过AI驱动的精准推荐、场景化表达与动态策略调控,我们为用户创造更自然、更智能的购物旅程,为营销业务提供高效、敏捷的技术支撑,助力淘宝构建以用户为中心的全域营销技术体系。结果表明,LoRA 能以极低的计算成本让通用大模型有效学习业务知识,显著提升其在特定任务中的表现,真正实现“让大模型懂业务”,推动 AI 从“可用”走向“好用”。从智能客服到内容生成,从代码辅助到推荐系统,大模型正以前所未有的速度渗透到互联网技术的各个领域,成为驱动创新的核心引擎。),在不改变主干模型的前提下,仅通过训练少量新增参。

2025-09-24 16:35:52 532

转载 Claude Code 深度拆解:一个顶级AI编程工具的核心架构

整个Claude Code的核心资产,他这个cli效果这么好除了是因为强大的模型,也是因为有很强大的工具,例如有一个特别强大的bash tool的工具,可以调用shell里面的所有命令,也包含agent tool,可以发挥更强大的能力。际的使用过程中,Claude Code是一个比较通用的智能体,他输出的代码也比cursor简练很多,更像是一个熟悉整个项目的高级程序员,研究和学习这个框架对于开发自己的Agent至关重要,本篇文章会详细介绍Claude Code的设计模式和核心。

2025-09-22 16:47:38 466

原创 多模态AI质检:身份核验场景实践

针对用户上传身份证时常见的图片问题,项目通过引入阿里云百炼平台的多模态模型,在OCR识别失败时进行智能检测与反馈,提供对客友好的提示文案,从而引导用户重新上传合格照片。上线后,相关指标表现出积极变化,OCR失败用户的再次失败率(OCR失败用户中再次识别仍失败的比例)有所下降,申请转化率有所提升。将“珠海”识别为“上海”。通过大模型提示词的增强优化,无需对每个场景进行大规模定制,用于多种类型的证件上传场景即可快速扩展功能,为更多业务场景赋能,未来结合工作流或智能体编排,将进一步提升可维护性和功能扩展能力。

2025-09-17 17:42:41 891

转载 基于智能体的自适应资损防控体系 - 淘工厂实践(二)

基于这些数据,Agent能够自动生成具体的监控建议,明确指出需要监控的具体对象、最佳监控时机、适用的监控类型,以及具体的监控值指标。正如我们在测试领域所践行的理念——"With great power comes great responsibility",当我们拥有了AI这样强大的工具,更应该思考如何用它来创造更大的价值,守护每一分应得的收益,为业务的健康发展保驾护航。”的问题,新范式中,我们的Agent结合上文智能化提取到的知识,对用户输入的“小程序-下单积分玩法”需求文档,展开分析。

2025-09-12 17:40:37 349

原创 AI赋能前端开发提效实践:以长颈鹿接入为例

面对Weex/Muise架构限制、跨端兼容难题及分散的文档体系,作者转变传统开发模式,构建结构化、可被AI理解的研发知识库,并结合项目级编码规范与RAG技术,实现AI在组件开发、埋点集成、支付对接等环节的高效协同。但该项目积累的开发规范、组件模板与AI提示工程经验,在后续迁移至778红包项目时实现了高效复用,显著缩短了开发周期,提效成果得以充分释放。每天有较多用户在手淘搜索:天猫超市卡,经与搜索团队沟通,可在搜索长颈鹿场景下,直接透传猫超卡充赠组件,提升用户转化,给用户提供最直接的猫超卡充值服务。

2025-09-10 17:29:30 735

原创 让你的大模型读懂二方包

另外理论上可以考虑直接把这个api的网页导出到markdown形式试一试,只不过我看了网页里面还嵌套了语雀文档,语雀文档中再去叙述出参里面代表了什么,而且网页里面的信息我看了一下和实际二方包也不符,比如要传入的订单id,网页中显示是long,实际二方包是传入的long[],所以就放弃了。生成的代码质量和准确率飙升,连。近期有一个需求中需要查询用户订单状态,这个功能本身很简单,是一个经典的依赖下游场景,需要读取交易订单二方包的代码逻辑,并分析出入参出参的含义,并判定用户指定的订单是否已经进入终态。

2025-09-08 17:46:18 824

转载 基于《架构现代化》浅谈架构共鸣

但其实,其厚度是不一样的。这样的认知下,架构应该是架构师,团队TL,领域专家大家一起共创和共识的结构,案例的输入既有上面的用户动线,业务策略比较偏问题域的部分,也有具体的实现案例,反射出问题域讨论未考虑到点。因为这样的过程,我们还是需要可以“沉淀的部分”,这是架构活动本身重复的抽象,是“架构”的“架构”。所以,当我们进入一个新的环境的时候,虽然看到的是系统复杂度,流程复杂度等一系列需要适应和学习的门槛,但是背后还是这个领域的“厚度”,其解决的问题需要涉及的相关方较多,概念的抽象和维护压力也很大。

2025-09-05 17:20:03 168

原创 AI审核工程实践: 淘宝极有家破损包赔项目思考

有18笔人审单多次重试,也没有成功。AI智能人审能够结合自动化规则,并利用大模型的多模态、推理、概括等能力,识别用户上传的商品照片和订单信息是否相符,解析物流信息和聊天记录,综合判断佐证材料是否充分,最后给出保险理赔建议。27个FP分类结果中,6个和审核尺度相关,10个需要人工根据经验判断是质量原因还是物流原因,商品订单和照片不一致的6个案例中,有4个也可以理赔通过。剔除额度问题的审核单,理赔通过的概率有80%,因此不能以简单的准确率来衡量模型的效果,可以考虑模型标注可能破损的地方,提高人审效率和可信性。

2025-09-03 17:24:44 1090

转载 AI Agent工程化融合:分享我的实践经验和选型技巧

问题在于SSE的整个通讯过程都需要依赖SSE长链接,一旦出现网络毛刺(短暂中断),那么MCP Server向MCP Client发送的数据就会丢失,并且MCP Server无法感知到数据的丢失。举一个通俗的例子,把MCP Client 想象成DVD播放器,DVD播放器可以放入不同的碟片(MCP Server),不同的碟片有不同的内容(能力),但肯定不能向DVD播放器中放入磁带(不符合MCP的Server)。对于不同的报表场景,定时时间、具体的网页操作、要关注的指标、联系人等都各不相同。

2025-09-01 16:57:15 332

原创 HSF 序列化不可变集合类型问题原因分析

由于 hessian2 在序列化时仅序列化了 tag 字段,所以反序列化 java.util.CollSer 实例完成后,只有 tag 字段值为 1,表示 List,但是没有元素,即 array 字段为 null,由于 java.util.CollSer 实现了 readResolve 方法,在反序列化完成后会调用它,但是由于 array 字段为 null,所以抛出 InvalidObjectException 异常,反序列化失败。根据报错信息,原因是 HSF 不支持序列化/反序列化不可变集合类型。

2025-08-29 18:20:53 1265

原创 分享一下我对好代码的理解

商业能力扩展、域扩展,在执行回收结果的时候,会遍历实现的插件,并结合回收规则,进行及时的熔断。于每一步棋来说,我们只能看到局部的影响(受限于我们能想到后面几步),当我们事后站在全局的角度看,有可能的“平平无奇”的一步却起着关键性的作用。闭原则,在面向对象编程领域中,规定“软件中的对象(类,模块,函数等等)应该对于扩展是开放的,但是对于修改是封闭的”,这意味着一个实体是允许在不改变它的。我们渐渐从单一的完成任务,开始思考如何更好地完成任务,从短期的设计开始考虑长期的感受,从单一的指标开始考虑更多的因素,

2025-08-27 17:37:03 850

原创 深入聊聊RAG

日常我们会比较多的把RAG当成一个黑盒,输入是我们沉淀的文档,输出可能是整个AI应用反馈的最终结果(如下图所示),这样的方式下,我们可能可以收获一定的初期收益,但是当要持续优化或者扩展使用场景的时候,可能会缺乏评估和应对的方式,比较难去定位问题,因此也不太能说清楚当下链路的诉求,最后所对应的action也可能会偏离比较大。),中文的处理可以找相应的中文embedding模型,但是不是所有语言都有对应的编码模型,因为语种太多,同时如果一些语种对应的数据语料太少,不足以训练这样的一个模型。

2025-08-25 17:35:55 1109

原创 Jsonnet 一种“新”的Json数据转换工具

这个优化后的 AST 将会在 sjsonnet 内部进行缓存,后续针对同一个输入的 jsonnet 脚本,将直接返回这个优化后的 AST,从而避免了重复解析和优化的过程,这也是 sjsonnet 性能非常好的原因之一。该场景虽然很好的满足了项目的需求,但是对于更加灵活的场景却显得有点捉襟见肘。on language), 主要用于:生成数据(json、yaml、ini等),同时,jsonnet 也是 json 的超集,一个合法的 json 就是一个合法的 jsonnet 程序,并且带有完整的 IDE 和。

2025-08-22 18:23:20 835

转载 一位Cursor深度用户的原理探析与实验验证

用 Cursor 久了,在写完提示词按下回车的那一刻,我们能猜到这个任务是否能被 Cursor 自动完成。用本文所讲的原理来分析,如果有个任务,能在较短的提示词中被直接描述清楚,或是让 Cursor 有线索在几步之内找到所需的上下文,那这样的任务就很有希望能被自动完成。接下来,我们在 Cursor IDE 中做若干操作,观察 Cursor 后台服务和大模型的交互过程。从 Cursor 的提示词中,我们能看到它能使用工具的列表。仅用如此普通的工具,就能取得如此惊艳的效果,基模的能力至关重要。

2025-08-20 18:08:07 353

原创 淘宝购物车拖拽功能的思考与实践

本文深入剖析了购物车拖拽功能的技术实现路径,在复杂业务场景下通过精细化控制、合理架构分工与细节体验打磨,实现了高效、稳定、流畅的用户交互体验。功能演示拖拽演示 Weex demo 购物车场景为什么需要拖拽?▐ 2.1 购物车功能 & 分组与拖拽的关系购物车作为用户准备购买的商品集合,承担着展示+管理的功能。上述管理操作都是针对单一商品,为了丰富对于所有购物车商品的管理形式,在 iCart 版本新增了和店铺并列的分组概念。允许用户把不同店铺内的不同商品放置在同一个区块内,提升勾选、凑单、结算的效率。

2025-08-18 17:25:16 1336

原创 MNN LLM Chat iOS 流式输出优化实践

团队在端智能、端云协同、商品三维重建、真人三维重建、3D引擎、XR引擎等方面有着深厚的技术积累,先后发布深度学习引擎MNN、商品三维重建工具Object Drawer、3D真人数字人TaoAvatar、端云协同系统Walle等。最终,我们通过底层增加缓冲输出,中层合并更新请求,UI层提供视觉缓冲——这三层配合实现了从技术优化到体验优化的完整覆盖,提升整体性能和体验效果。综上,结合三层的优化,通过以上多层协同优化方案,我们成功地将一个卡顿、生硬的文字输出体验转变为流畅、自然的现代化AI交互界面。

2025-08-15 16:45:37 1600

原创 万字长文解码如何玩转Prompt(附实践应用)

在AI技术迅猛发展的今天,如何与大型语言模型高效“对话”已成为释放其潜力的关键。本文深入探讨了提示词工程(Prompt Engineering)这一新兴领域,系统解析了从基础概念到高级技巧的完整知识体系,并结合“淘宝XX业务数科Agent”和科研论文深度学习两大实战案例,揭示了高质量提示词如何将AI从“工具”升级为“智能协作者”。无论你是初学者还是实践者,都能从中掌握让AI真正为你所用的核心方法论。引言:新范式下的“对话”艺术与科学我们正身处一个由大型语言模型驱动的AI新纪元。从GPT-4到Deepseek

2025-08-13 16:47:30 1060

原创 大模型驱动SPU

本文围绕SPU(标准化产品单元)的演进与挑战,系统分析了当前SPU在定义、生产、审核和数据治理方面存在的核心问题,如SPU定义与商品类目强耦合、数据质量不及预期、审核效率仍有提升空间、存在同质化数据等。为应对这些问题,文章重点介绍了通过引入AI/大模型技术,在SPU生产、审核与治理链路中的实践成果,包括算法生成SPU、机审辅助、外包审核流程优化及数据质量提升,并推动了商品托管等应用场景落地。针对产品信息不完整问题,在现有属性不调整情况下,将商品属性、服务属性、资质属性均纳。收敛新增权限,建设新品发布。

2025-08-11 16:59:04 684

原创 淘宝交易前端AI生码技术的创新实践

Design to Code 是一种通过设计稿(Done、PSD、Master GO、Sketch等)生成代码(html、css)的技术,理想的状态下,前端工程师可以靠它从繁杂的设计稿UI实现中解放出来,更多精力可以投入到其它对业务更重要项目中。为了彻底解决这个问题,我们想从设计稿拿到750px的图片,直接进行上传,这是我们选择开发一个设计稿插件的原因之一。设计稿的复制功能,再去钉钉粘贴下载,最后去OneDay图片缩放插件进行缩放,这样获得的图片可以解决手动截图导致的边框问题,但是还是需要我们进行缩放,

2025-08-08 17:38:48 1466

原创 Web Agent大对决:你的AI浏览器理想型,会是哪一个?

可以看到除ChatGPT Agent外,其他三款产品均未参与或公布标准化基准测试结果,ChatGPT Agent以90分的总分领先,Fellou获得52分位居第二,而Comet和Dia的评分均低于20分,反映了严重的数据透明度不足问题,反映了Web Agent行业在评测标准化方面的不成熟。团队支撑的业务能力覆盖电商全链路,从产业分析到智能运营决策,从商家经营自动化到生态创新,从行业消费者体验提升到产业链模式创新,覆盖了服饰、快消、消电、企业服务等各个行业,构建着智能驱动的商业革新引擎。

2025-08-06 15:13:01 1337

转载 基于智能体的自适应测试系统 - 淘工厂实践

我们需要让他在这个流程中承担什么任务/解决哪类问题(角色定位),在原有基础上具备哪些专业知识(知识库)、如何解释手头任务并布置给他(提示词)、如何正确的思考并接受反馈改进(提示词)、可以使用的工具及资源(工具调用),随着时间推移,他经历的多了、收录过往的case多(补充沉淀知识库),这位应届生也会变得越来越专业,能力越来越强。从执行结果、过程日志分析提炼,结合部分人工标注结果,评估分析、并实现经验回流和用例沉淀,回补到各域以及对抗助手的正负向向知识库,同时,不断沉淀该域的用例,自我完善。

2025-08-04 16:44:26 493

原创 聊聊AI Coding

Vibe Coding,翻译是“氛围编码”(感觉蛮贴切),本质上是一种我们使用AI能力进行编码的方式,在这个模式下,我们把AI当成一个回答问题的机器,我们描述我们的诉求,让它帮我们写一段可运行的符合诉求的代码,如果产出的版本有问题(不符合诉求或者是运行错误),我们会根据相关的反馈(编译器、运行时错误、诉求差异点描述)重新调整我们的prompt,让AI进行迭代优化,直到解决问题为。更高效的做法是,对这个问题做一定的解读,可以a、针对该问题通过进一步的提问来帮助AI快速定位和解决;可能有一些不同的声音;

2025-08-01 15:25:06 1425 1

原创 RLHF技术实践:大语言与文生图模型的生成优化

最后,我们以「家作」的“场景模特”功能为例,展示了如何通过RLHF技术,有效优化模型的生成效果,显著降低图像中肢体异常的概率,从而提升用户体验。首先我们把大量的prompt(Open AI使用调用GPT-3用户的真实数据)输入给第一步得到的语言模型,对同一个问题,可以让一个模型生成多个回答,也可以让不同的微调(fine-tune)版本回答。相较于仅依赖固定标签的监督学习,RLHF通过引入相对偏好而非绝对标准答案,赋予模型更强的探索空间,有助于突破标注者能力的上限,从而潜在地实现更高水平的智能表现。

2025-07-30 14:59:49 752

转载 NL2SQL:从自然语言到SQL的智能转换技术深度解析

通过利用这些SQL查询缺陷中的线索,进行一定程度的修正。在实际应用中,基于与架构相关的上下文、生成的SQL查询以及执行结果(包括潜在的错误信息),可以使模型能够进行第二轮的修正。可以通过知识库的方式解决,另外一方面也有一些数据库层面提供的解决方案,比如阿里的PolarDB提供了「配置表」功能,通过全局生效的固定表名,存储了诸如「问题文本条件判断」、「问题处理」、「问题补充与具体业务/概念相关的信息」等前置文本转换功能,「模型生成的SQL条件判断」、「处理SQL,用于对业务逻辑中的值映射进行强制处。

2025-07-28 16:07:50 999

原创 如何利用多模态大模型进行淘宝商品理解?

例如对于类似这样的尺寸标注,我们需要的是1.5m款式床的宽度,图中出现了两个可能的选项,是床头的1.6m,床尾的1.5,以及其他的一些干扰尺寸,例如1.8m和1.9m,这些干扰尺寸来自其他款式的干扰,由于我们需要的是该具体款式实际占地尺寸,因此我们需要的是1.6m这个尺寸数据。具体到尺寸提取这个任务上来说,其实我们最终需要的结果也是精确且客观定义的,这个特性使得我们非常适合使用强化学习的方式来帮助我们提升能力,我们只需要关注最终结果的正确性,而中间的思考过程可以由模型自行发挥,而不去做显式的监督。

2025-07-25 17:39:06 1362

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除