
AIGC
文章平均质量分 89
远洋之帆
机器学习 人工智能 数学 数据可视化 机器人
展开
-
离散微分几何基础:流形概念与网格数据结构
**定义**: Dual Complex是指在一个给定的复形(complex)中,通过对其单纯形(simplices)进行对偶操作而得到的结构。每个单纯形的对偶对应于一个新的单纯形,通常是通过连接原始单纯形的中心点来形成。+ **应用**: Dual Complex在计算几何、图形学和拓扑学中有广泛应用,尤其是在网格生成、形状分析和数据可视化等领域。它帮助研究者理解复杂形状的性质和结构。+ **定义**原创 2024-10-11 19:09:50 · 1450 阅读 · 0 评论 -
Agent让大模型从“解释问题”到“解决问题”
大模型要实现从“解释”问题到“解决”问题的跨越,就离不开Agent。目前Agent有两条实现路径:1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程2.设定奖励规则,用RL算法让Agent自主探索文章主要是介绍了SOP+BOM的agent实现路径。这条实现路径更可控更适合当前企业实际需要。结合当前市面的几款产品,提出了:基本能力、支持工具集、操作编辑性、持续开发能力,四个维度的差评测评标准;对几款产品做了测评评价。目前看产品都具备基本工作流编排能力、每个流程测试、追溯能力,都支原创 2024-07-23 16:21:52 · 1720 阅读 · 0 评论 -
如何训练出模型的推理规划能力
近期opanai对AGI做了等级划分;等级划分意味着AGI有了一个考核定义,有了升级打怪的评价指标。并给出了目前openai正处在第一级,即将达到第二级的论断。预计在一年或者一年半内实现第二级,可以完成基本问题解决任务的系统。文章下面部分会简单的介绍一下,如何从第一级进阶到第二级。可能的技术路线,对于第一级AGI实现路径已经有非常多的讨论,并且很多企业、团队也已经实现达到了openAI第一级的水准。也就是数第一级别的pretrain、sft、rlhf三阶段已经是一个事实的实现路径标准了。原创 2024-07-22 15:33:26 · 1511 阅读 · 0 评论 -
全同态加密在大模型应用中应用
假如我们拥有两条消息 𝑚0,𝑚1 的加密,分别为 𝑐𝑡0,𝑐𝑡1 ,展开来就是:我们可以注意到,如果我们把两条密文的两个部分各自相乘的话,我们就可以得到一个新的密文 𝑐𝑡^ :𝑐𝑡我们得到的结果恰恰就是原文 𝑚0+𝑚1 加在一起之后所对应的加密密文!这样的话,如果我们得到了两条加密算法的密文,我们就可以通过这样的方法得到密文的任意线性组合了。原创 2024-07-01 18:19:57 · 1777 阅读 · 0 评论 -
用大模型实现PPT可视化几种思路
他们大致的思路是:用户内容如何呈现应是需要对用户内容理解选择合适的呈现方式,生成内容可视呈现计划大纲,然后对每部分的内容细化充分的分析挖掘ppt工具的属性来做细粒度优化呈现。充分的理解PPT这种工具的可视化呈现优势,对每部分的素材生成合适的呈现效果,比如:大小、颜色、动效,前后颜色搭配,颜色比对,图表…对于如何根据用户输入的信息做信息的整理组织,然后把整理组织信息作排版,生成合适的PPt呈现不是重点介绍对象。这种实现方式已经对ppt信息可视化做了一层建模,会对用户的输入做理解,重新组合生成合适的呈现方式。原创 2024-06-07 12:31:46 · 6314 阅读 · 0 评论 -
MotionEditor_ 通过内容感知扩散编辑视频运动
现有的基于扩散的视频编辑模型在随时间编辑源视频的属性方面取得了显著进展,但在修改运动信息的同时保持原始主角的外观和背景方面存在困难。为了解决这个问题,我们提出了MotionEditor,这是一种用于视频运动编辑的扩散模型。MotionEditor将一种新颖的内容感知运动适配器集成到ControlNet中,以捕捉时间上的运动对应关系。虽然ControlNet能够基于骨架姿势直接生成,但在修改源运动时,由于噪声(源)和条件(参考)之间的矛盾信号,它会遇到挑战。原创 2024-06-05 15:49:30 · 1245 阅读 · 0 评论 -
用大模型搭建一个自己的新闻小助手
这篇文章选择用字节开放的“扣子”编排工具来实现,DIfy、autoagent、chatglm、langflow理论上讲都可以实现。但是扣子目前提供的工具插件、以及工作流我觉得是比较容易上手的。并且很多插件是免费使用、把各种API使用需要的权限申请和配置问题解决了。所以这次实践选择用“扣子”来实现。原创 2024-05-28 19:04:59 · 1462 阅读 · 1 评论 -
Learn to Paint 光栅图转矢量图生成
https://github.com/liangwq/Chatglm_lora_multi-gpu/tree/main/APP_example平滑矢量图形综述:表示、创建、光栅化和图像矢量化的最新进展无偏扭曲区域采样在可微分渲染中的应用可微分矢量图形光栅化用于编辑和学习图片逐层矢量类人笔触的模型风格化绘画CLIPDraw:通过语言-图像编码器探索文本到绘图合成根据参考风格进行矢量图绘制基于语义感知的对象草图绘制具有不同类型和抽象级别的场景素描通过潜在扩散模型实现文本引导矢量草图合成使用扩散原创 2024-05-23 10:04:54 · 1011 阅读 · 0 评论 -
使用神经实现路径表示的文本到向量生成
给定一个文本提示,我们的目标是生成一个与文本提示的语义一致且表现出令人满意的路径属性和与人类感知一致的分层结构的SVG。由于SVG由一组路径组成,表示为SVGPath1Path2PathmSVGPath1Path2...Pathm,我们的目标是根据文本提示TTT通过以下方式优化mmm条路径:神经路径表示学习(第4节)路径几何由连接的三次贝塞尔曲线组成。我们的目标是通过将每条路径映射到一个表示为zzz。原创 2024-05-22 10:12:28 · 414 阅读 · 0 评论 -
使用扩散模型进行文本引导的SVG生成
图7:展示我们SVGDreamer生成的结果的可编辑性的例子。这份补充材料被组织成几个部分,提供了与我们在SVGDreamer方面的工作相关的额外细节和分析。在A部分,我们将展示SVGDreamer的更多定性结果,展示它能够生成具有高可编辑性、视觉质量和多样性的SVG。在B部分,我们将展示SVGDreamer在海报设计和图标设计方面的潜在应用。在C部分,我们将提供SVGDreamer的更多实现细节。在D部分,我们将解释如何在SIVE提示中识别语义对象。原创 2024-05-21 09:57:46 · 792 阅读 · 0 评论 -
类人笔触的模型风格化绘画
图2展示了我们方法的概览。给定一个空的画布ℎ0,我们逐步绘制并叠加在每一步渲染的笔画。在每一步绘制中,一个训练好的神经渲染器𝐺接受一组笔画参数𝒙𝑡(例如,形状、颜色、透明度和纹理),并产生一个笔画前景𝑠𝑡和一个alpha蒙版𝛼𝑡。然后我们使用软混合来混合画布、前景和alpha蒙版,并确保整个渲染过程是可微分的。软混合定义如下:其中(𝑠𝑡, 𝛼𝑡) = 𝐺(𝒙𝑡)。我们最终从所有步骤中收集笔画参数,并通过在笔画参数空间内搜索来优化它们。原创 2024-05-13 14:26:54 · 1608 阅读 · 0 评论 -
物理学视角讲解diffusion生成模型——数学基础和一维度实现
从物理学的视角来看扩散过程模型。之所以整理这个系列是因为现在大部份讲生成模型的教程都是直接从加噪、去噪、然后代码实现角度来讲。然而为什么要这么加噪、去噪、为什么要高斯拟合,如果我不这么做会怎么样,后续我要优化我的代码要从那下手呢。这些原理层面的东西基本没有讲,这就相当于给了一套生产流程,我们并不知道这套流程是怎么设计背后思想是什么。我们后续碰到问题如果要升级改造这个流程和链路要从何下手呢。要怎么接续上这套流程的设计思路呢。所以这个系列就是从这个视角切入,来讲解物理学家视角的扩散过程。以及当时为什么选择了扩散原创 2024-04-17 16:35:05 · 1831 阅读 · 0 评论 -
解析大型语言模型的训练、微调和推理的运行时性能
这篇论文是截至目前为数不多的介绍大模型训练配套环境比对的论文,对于想要入门大模型训练同学是个不错的入门资料。比较了不同尺寸模型(比较常用的7、13、70b),在不同型号gpu、训练框架、推理框架数据。结合自己实际工作需要和论文给出的运行时数据分析,总结了下面几条:1.二次预训练最低硬件配置,如果想要自己做简单二次预训练(7、13、70B参数)最小8卡80g显存A1002.对于小规模sft对考虑PEFT做训练就可以,freezen fintune方法需要硬件还是较大3.FlashAttention对向原创 2023-11-22 12:06:14 · 3928 阅读 · 2 评论 -
Motion Plan之搜索算法笔记
本文介绍了motion plan学院派的框架:1.前端路径规划2.后端轨迹生成3.不确定障碍物预估规划并且详细介绍了前端路径规划常用的搜索规划,介绍了搜索规划的一些前置知识:1.c-space,为了方便物体质点化处理,建图时把物体形状构建转移到图2.各种不同图如何构建成适合搜索算法的数据格式,以及不同图适合的搜索算法3.搜索算法的三个基本框架:深度搜索、广度搜索、贪心搜索详细介绍了了几种贪心搜索算法原理和实现思路:1.Dijkstra算法:2.A*搜索3.跳点搜索并且介绍了:累计成本原创 2023-11-20 23:00:36 · 1610 阅读 · 0 评论 -
Langchain知识点(下)
具体来说,系统将形成任务列表,从任务列表中拉出优先级最高的第一个任务,使用 OpenAI API 根据上下文将任务发送到执行代理并完成任务,一旦这些任务完成,它们就会被存储在内存(或者 Pinecone 这类向量数据库)中,然后,根据目标和上一个任务的结果创建新任务并确定优先级。在这个过程中,驱动任务的是三个不同作用的代理。执行器也负责处理多种复杂情况,包括处理代理选择了不存在的工具的情况、处理工具出错的情况、处理代理产生的无法解析成工具调用的输出的情况,以及在代理决策和工具调用进行观察和日志记录。原创 2023-11-06 15:01:51 · 1276 阅读 · 0 评论 -
AGENTBENCH:评估LLMs作为代理的能力
本文介绍了如何构建智能代理评测集,并对智能代理能力进行了分类。文章提出了一个多维度的基准测试,名为AGENTBENCH,用于评估大型语言模型作为代理在多轮开放式生成设置中的推理和决策能力。文章对27个基于API和开源(OSS)的LLMs进行了广泛的测试,结果显示,尽管顶级商业LLMs在复杂环境中表现出强大的代理能力,但它们与OSS竞争者之间在性能上存在显著差距。文章指出,糟糕的长期推理、决策制定和指令遵循能力是开发可用LLM代理的主要障碍。在代码和高质量多轮对齐数据上进行训练可以提高代理性能。原创 2023-11-02 10:14:27 · 2572 阅读 · 0 评论 -
AGENTTUNING:为LLM启用广义的代理能力
这篇文章介绍了一种方法,可以让大型语言模型(LLM)具备在多种代理任务上表现出色的能力,缩小了开源和商业LLM在这方面的差距。该方法称为AgentTuning,它包括以下两个步骤:● 首先,构建了一个覆盖多种代理任务的数据集,称为AgentInstruct,它包含了1,866个经过验证的代理交互轨迹,每个轨迹都有一个人类指令和一个代理动作。● 然后,设计了一种指令调优策略,将AgentInstruct和通用领域指令混合起来,对LLM进行微调。作者使用AgentTuning对Llama 2模型进行了调优原创 2023-10-31 17:42:44 · 3559 阅读 · 0 评论 -
向量检索增强chatglm生成
1.总体介绍了基于向量检索的框架,主要分为两大块:内容存储、内容检索2.具体介绍了内容存储部分技术细节:数据加载模块、数据切块模块、数据embbeding模块、数据存储模块及代码实现3.具体介绍了内容检索部分:向量相似度召回+基于上下文生成问题答案,实现原理和实现代码4.介绍了如何把向量检索生成封装成tool供agnet使用项目代码:https://github.com/liangwq/Chatglm_lora_multi-gpu/tree/main/APP_example/chatglm原创 2023-07-19 18:17:29 · 2363 阅读 · 4 评论 -
多模态的过渡态——latent modal
随着大模型的推进,单模态的大模型已经无法很好的满足现实工作的需要。很多科研团队和机构开始多模态的研究,多模态的几种机构在前面的文章已经介绍过,这部分不做过多介绍。最理想的多模态应该就是没有模态,单一的模型可以把各种的数据无差别的输入,根据控制需要可以生成出任何想要的输出结果,换句话说就是我们可以用一个模型对齐所有模态之间关系。要实现这样的目标至少是有三种架构:1.把各种模态输入/输出拉横,分区块设计每个部分对应模态,通过任务设计,让一种输入数据预测输出数据的值,通过足够多数据训练,让模型学习到模态之间对原创 2023-05-04 07:59:55 · 1313 阅读 · 2 评论 -
实现mini智能助理—模型训练
1.介绍了预训练大模型的训练流程是怎么样的2.介绍了常用的训练手段3.详细介绍了两种主流的预训练手段原理:promt、delta4.给了一个multi-gpu chatglm训练的例子原创 2023-03-29 13:59:53 · 6307 阅读 · 2 评论 -
让Ai帮你工作(4)--锁定图片生成角色
1.介绍了角色锁定的三种思路2.介绍了dreambooth为何能够通过特殊符号实现角色锁定、细节锁定3.给了一个github,4步操作就可以实现自己的dreambooth模型4.这个github属于几个月前项目,diffuser已经把dreambooth项目封装进库,后面在介绍lora时候会用diffuser更精简干净带大家实现dreambooth角色锁定原创 2023-03-23 14:43:22 · 2530 阅读 · 0 评论 -
动手做个mini智能助理--数据准备(2)
mini智能小助理,可以如何收集alignment数据。介绍了智能体自我迭代,自举能力的重要性。以及人在其中如何为机器自举提供动力原创 2023-03-19 11:04:34 · 174782 阅读 · 0 评论 -
Visual chatgpt多模态大模型的前菜
visual chat将会是多模态大模型一个过渡态,Gpt4以及他的后代一定会用集成电路的模式取代这个分立元器件组成的通用多模态模式。但是它的很多思路是值得我们学习的。原创 2023-03-12 21:35:24 · 5705 阅读 · 6 评论 -
让AI帮你工作(3)--学习提效
如何用AI帮自己高效学习工作,让AGI成为我们的好助手原创 2023-03-12 15:13:43 · 936 阅读 · 0 评论 -
让AI帮你工作(2)-如何阅读pdf论文
用chatgpt最快速的复现chatpdf原创 2023-03-08 23:06:33 · 2742 阅读 · 3 评论 -
大模型分布式系统
大模型训练,是工程和算法的合力作用。对于工程分布式计算系统是绕不过去的核心中的核心。这篇文章和大家分享分布式时候内存消耗在哪、zero策略、流水线策略、动态策略原创 2023-03-07 20:36:41 · 2206 阅读 · 0 评论 -
如何让AI帮你干活-娱乐(3)
这部分和大家分享如何搭建自己的stable diffusion的代码生产链路。跟大家讲了几种如何开发自己的代码,加入diffuser的框架。原创 2023-03-06 21:52:50 · 4168 阅读 · 3 评论 -
如何让AI帮你干活-娱乐(2)
用AI生成一个视频原创 2023-03-05 13:19:31 · 3112 阅读 · 9 评论 -
如何让Ai帮数据分析师干活-工作1
openai api+可视化的chatgpt一起使用了。其实如果真要做产品这些必然都是封装好的都是用openai api来做,对用户就一个需求交互框、一个输入数据cvs表的地方就可以。原创 2023-03-02 23:55:13 · 1928 阅读 · 2 评论 -
普通人如何用AI帮你干活——娱乐1
想跟大家介绍,作为一般的人没有太多编程技巧,对计算机和各种奇淫技巧的算法了解也不多的一般人。可以如何去利用AI,可以如何把问题作简单拆解和流程拆解让AI为我们服务。原创 2023-03-02 12:49:23 · 6133 阅读 · 11 评论 -
把现实场景转成动漫风格360场景
用controlnet+stablediffuion做360vr场景生成原创 2023-02-26 21:23:21 · 702 阅读 · 0 评论 -
多模态预训练模型综述
本文就对多模态预训练模型做了整理,从多模态预训练大模型主要包括以下4个方面:1.多模态众原始输入图、文数据表示:将图像和文本编码为潜在表示,以保留其语义2.多模态数据如何交互融合:设计一个优秀架构来交叉多模态信息之间的相互作用3.多模态预训练大模型如何学习萃取有效知识:设计有效的训练任务来让模型萃取信息4.多模态预训练大模型如何适配下游任务:训练好的预训练模型fintune适配下游任务原创 2023-02-26 10:31:33 · 3659 阅读 · 0 评论 -
Ai作画studio环境布置
如何布置自己的ai作图环境原创 2023-02-24 14:46:05 · 1890 阅读 · 0 评论 -
打造Ai作图studio需要哪些工具
Ai作图要做出一个稳定高质量的图片需要哪些工具,作为Ai作图的公司该如何为自己的studio配备工具。原创 2023-02-21 15:35:33 · 3452 阅读 · 1 评论 -
AI稳定生成图工业链路打造
AI生成图片,如何打造建立一套稳定的工业生产链路原创 2023-02-20 17:46:04 · 2465 阅读 · 9 评论 -
生成模型技术发展过程
阐述了生成模型基本定义和各种技术的发展路径原创 2023-02-19 10:06:46 · 2393 阅读 · 0 评论 -
大模型相关技术综述
大模型相关技术综述原创 2023-02-15 22:30:06 · 10982 阅读 · 8 评论 -
教你文本生成图片——stablediffusion
文本生成图片,单一物体生成原创 2023-02-13 22:33:15 · 5662 阅读 · 1 评论 -
自己动手做一个mini-智能小助理
从零带你手撸chatgpt原创 2023-02-11 13:39:57 · 6556 阅读 · 2 评论 -
chatgpt的一些思考
把人类思维链路作为训练数据,作为强化学习的建模绝对是一次更接近智能本质的探索。原创 2023-01-31 16:55:22 · 28589 阅读 · 10 评论