自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(162)
  • 收藏
  • 关注

原创 表示对齐(REPA)

对DiT-XL/2模型的实验表明,修改后的模型比未修改版本学习速度明显更快。REPA方法的提出,为将这两种不同类型的模型结合起来提供了一种新颖的途径,通过整合它们的优势,有望产生更通用的嵌入表示,能够更好地适应多种不同的任务需求,推动相关领域的发展。为了使第八层嵌入适用于REPA损失的计算,扩散模型将该嵌入输入到一个普通的神经网络中进行处理,通过这种方式引导模型生成与预训练模型更相似的嵌入。:给定添加了噪声的嵌入,扩散模型按照通常的损失项进行学习,这是模型基本的去噪学习过程,旨在逐步去除嵌入中的噪声。

2025-04-03 09:00:00 824

原创 LLM 提升辅导老师能力

作者们确定了11种具体策略,如提问(通过问题引导学生思考,发现错误原因)、解释概念(对相关概念进行详细讲解,帮助学生理解错误所在)、提供提示(给予学生一些线索,让他们自己找到解决问题的方法)、鼓励学生(增强学生的信心,使其更积极地面对错误)等。可以推测,这些教学原则可能适用于各种学科的教学,因此这种方法有望在更多学科的教学中发挥作用,为不同学科的教师提供有价值的辅助,推动教育教学的发展和创新。因为在这个过程中,教师可以观察大语言模型根据自己选择的策略生成的回复,从而理解不同策略的应用方式和效果。

2025-04-02 09:00:00 470

原创 用更少的步骤生成更优质的图像-shortcut models

例如,在CelebA-HQ数据集上,使用4个步骤的捷径模型的FID达到了13.8,而采用另一种蒸馏方法的Reflow模型的FID为18.4,这表明捷径模型在4步时生成的图像与真实图像的相似度更高。:在扩散模型生成图像的过程中,通常需要较高的计算成本和资源消耗,以往为了降低成本而采取的方法往往会牺牲模型的性能,或者增加额外的开发成本,难以在性能和成本之间找到平衡。该模型的核心思路是让模型学会在单次去噪步骤中执行更大规模的操作,从而在保证图像生成质量的前提下,显著减少生成图像所需的总步骤数量。

2025-04-01 09:00:00 1063

原创 视觉语言,轻量且开源-Gemma 3

谷歌更新了其开源权重的大语言模型家族,发布了 Gemma 3 多语言大语言模型,包含 10 亿、40 亿、120 亿和 270 亿参数等不同版本。其中最小的 10 亿参数版本仅处理文本,其他三个版本为视觉语言模型,可在消费级硬件上运行。这一发布标志着谷歌在大语言模型领域的进一步拓展,尤其是在视觉语言结合方面的努力。

2025-03-31 23:36:40 680

原创 构建RAG后如何选择合适的Embedding

当我们需要为特定的客户支持系统挑选最合适的文本嵌入模型以实现高效的FAQ检索时,我们该如何做出选择?以下是一个详细的案例分析,展示如何根据具体需求从众多模型中筛选出最合适的那一个。案例背景假设我们要构建一个客户支持系统,用于快速准确地回答用户的常见问题(FAQ)。该系统需要满足以下要求:处理客户提出的问题,问题长度通常在10到100字之间。检索结果要具有高准确性,确保提供的答案与用户问题高度相关。系统需要在每月200至400美元的预算内运行,同时兼顾响应速度和可扩展性。选择过程。

2025-03-25 08:15:00 563

原创 JobFit AI-帮你找到合适的工作

目录结构JobFitAI/│── src/关键代码介绍简历解析:上传的简历支持音频、pdf等格式解析,通过代码将内容解析,变为一个字符串。"""Args:""""""Args:Returns:Raises:"""try:return ""简历分析器:它使用 DeepSeek-R1 模型初始化与 DeepInfra API 的连接。该文件中的主要函数是 analyze_text,它将简历文本作为输入,并返回总结简历关键细节的分析结果。

2025-03-24 08:00:00 615

原创 Google-Gemma 3

Gemma 3 是谷歌最新推出的开源多模态大模型,旨在为开发者提供高性能、低成本的 AI 解决方案。作为 Gemma 系列的第三代产品,Gemma 3 在多模态能力、语言支持以及模型效率方面实现了显著突破,成为全球顶尖开源模型之一。

2025-03-23 07:00:00 544

原创 Python 中的 LaTeXify:自动生成公式

LaTeXify 是一个由 Google 开发的开源 Python 库,能够自动将 Python 代码中的函数转换成 LaTeX 格式的数学表达式或伪代码。它特别适合需要在文档或学术论文中展示代码逻辑或数据表示的研究人员和开发者。通过 LaTeXify,复杂的 Python 函数或数据结构可以被优雅地转化为 LaTeX 代码,进而生成清晰、专业的文档内容。

2025-03-22 07:00:00 552

原创 OpenAI Agent SDK及其防护机制(Guardrails)

防护栏(Guardrails)在教育支持助手系统中的应用,不仅能够有效维护智能系统的稳定运行和数据安全,还能确保学生在学习过程中获得真正有益的支持。通过精准识别和拦截不当请求,同时保障合法学习需求的满足,防护栏为教育领域的智能应用提供了强大的安全保障。

2025-03-21 07:00:00 822

原创 大模型sft-数据构建和选择

输入(Input)与输出(Output)的简单配对。:文本生成、翻译、摘要等单轮任务。:简单易用,兼容大多数模型。:无法处理多轮对话或复杂上下文。:使用messages字段记录完整对话历史,每条消息包含role(角色)和content(内容)。:客服对话、聊天机器人等需要上下文的任务。:保留完整对话逻辑,适配对话模型(如LLaMA-2-chat)。:存储空间较大,需处理长文本分块。:添加system角色定义助手行为,增强对话引导。:个性化角色对话、风格迁移任务。

2025-03-21 00:48:49 1519

原创 百度发布文心一言 4.5 版和 X1 模型,性能超越 GPT-4.5,而成本仅为其 1%

ERNIE 4.5 是百度发布的首个原生多模态基础模型,能够有效整合和理解文本、图像、音频和视频内容。它不仅能处理复杂的互联网模因和讽刺漫画,还能捕捉网络文化的细微变化。这种多模态能力使得 ERNIE 4.5 在内容创作、数据分析和智能客服等领域具有广泛的应用前景。:ERNIE 4.5 具备强大的智能和上下文意识,能够轻松驾驭各类复杂信息,真正做到人机之间的无缝沟通。它能够理解图片中的文字与背景的关系,生成更准确的描述。

2025-03-20 07:00:00 1052

原创 用于代码、网络搜索、研究等领域的六大顶尖语言模型

Claude 3.7 Sonnet 是 Anthropic 公司于 2025 年 2 月 25 日发布的最新 AI 模型,被誉为目前最智能的模型,也是市场上首个混合推理模型。该模型的独特之处在于它既能提供近乎即时的响应,也能进行更长时间、逐步深入的思考,并且用户可以通过 API 精细地控制模型的思考时长。

2025-03-19 09:00:00 1376

原创 OWL Agent-Manus开源替代版

Manus作为优秀的应用,受到了很多业内同事的关注,作为替代除了Open Manus外,介绍另一款开源的OWL Agent。

2025-03-18 09:00:00 1339

原创 基于Gemini 生成 Gemini Embedding

在这项工作中,推出了Gemini Embedding,这是一种从强大的Gemini大型语言模型初始化的新型嵌入模型。利用Gemini的多样化能力,在一系列嵌入任务上训练Gemini Embedding。为了构建高质量、异构的训练数据集,使用Gemini进行数据筛选、确定检索的相关正负段落以及生成丰富的合成数据集。这个策展数据集促进了基于对比学习目标的训练,使Gemini Embedding能够学习鲁棒的语义表示。

2025-03-17 23:06:11 1370

原创 google - data science agent 数据分析师新方向

Google 数据科学代理(Data Science Agent)是谷歌公司推出的一项创新性人工智能工具,旨在通过自动化处理繁琐的数据分析任务,显著提升数据科学家和研究人员的工作效率。该工具集成在Google Colab平台上,利用谷歌先进的Gemini 2.0人工智能模型,能够根据用户的自然语言描述自动生成完整的、可执行的Jupyter Notebook,涵盖从数据加载、清洗、分析到可视化和模型构建的全流程。

2025-03-17 08:00:00 841

原创 一周热点:法官在人工智能训练版权案中支持版权主张

罗斯公司未经汤森路透许可,使用了其2243个案头批注来训练AI法律搜索引擎,汤森路透认为这侵犯了其版权,而罗斯公司则以合理使用等理由抗辩。:罗斯公司对案头批注的使用具有商业性质,且与汤森路透的产品存在直接竞争关系,缺乏“转换性目的”,因此在合理使用的第一要素上更有利于原告。:该判决表明,AI公司在训练模型时使用受版权保护的数据,若与原作品存在直接竞争关系且缺乏转换性,可能面临版权侵权的法律风险。:罗斯公司的使用可能会对汤森路透的市场造成影响,削弱其市场利益,因此在合理使用的第四要素上也更倾向于原告。

2025-03-16 22:03:49 281

原创 一周热点:微软攻克语音输入、文本输出难题-Phi-4-multimodal

此外,模型在训练时还特别注重多模态数据的处理,通过大量文本、图像和语音数据的训练,使模型能够更好地理解和生成多模态内容。该模型采用多模态Transformer架构,通过LoRA(Low-Rank Adaptation)混合技术,将模态特定的LoRA模块集成到基础语言模型中,实现多模态能力的扩展。它的推出不仅展示了微软在人工智能技术上的领先地位,也为开发者和用户提供了更强大、更灵活的工具,推动了多模态人工智能技术的发展和应用。:能够同时处理语音、视觉和文本输入,将多种模态集成到一个统一的架构中。

2025-03-16 22:03:00 545

原创 一周热点:Compact Reasoning 精简推理

QwQ-32B基于Transformer架构,拥有325亿参数。Transformer架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出,它使用自注意力机制来捕捉输入序列中的依赖关系,允许模型关注输入序列的不同部分,从而更好地处理长距离依赖问题。多头注意力机制增加了模型的表达能力。此外,Transformer架构还包括位置编码、嵌入层、解码器等组成部分。

2025-03-16 22:02:14 573

原创 LLM训练中常用的Benchmarks

什么是LLM基准测试LLM基准测试是一类精心设计的结构化测试,专门用于衡量语言模型在特定任务上的表现。通过一系列预设的任务,基准测试旨在解答一系列关键问题,例如:该LLM是否能够高效且准确地处理编程任务,助力软件开发?在对话场景中,它能否理解用户意图并给出精准、相关的回答,提供优质的交互体验?面对复杂的推理问题,它是否具备足够的逻辑思维能力来找到解决方案?这些问题的答案,将直接反映出模型在不同应用场景下的实用性和可靠性。LLM基准测试的关键特征标准化测试。

2025-03-12 23:58:50 1386

原创 DeepSeek-实用集成大礼包

这些案例真假难辨,现在DeepSeek已经推出了官方的,集成了各类应用,下面是详细的介绍。DeepSeek Integrations 是 DeepSeek 官方在 GitHub 上精心整理的一个集合了各种工具和资源的清单,由 DeepSeek 官方团队负责维护。该项目包含超过 50 种经过官方认证的插件工具,并且还有详细的使用教程,包括集成案例。

2025-03-11 23:48:39 872

原创 从传统RAG到图 RAG(Graph RAG):人工智能知识检索系统的演变详细对比

目前信息的组织和获取方式对于人工智能系统来说至关重要,它将决定AI系统是在简单地提供答案,还是真正理解了问题。在复杂的人工智能知识系统中,这种理解的深度和广度将直接影响系统的性能和效率。因此,文章将介绍传统RAG和图RAG这两种不同的知识检索系统架构,以探讨它们在人工智能领域的演变和发展。

2025-03-09 13:50:15 1013

原创 一周热点-Claude 3.7 Sonnet-在响应和思考模型之间切换

Anthropic 最近发布了 Claude 3.7 Sonnet,。

2025-03-08 23:23:46 520

原创 一周热点-OpenAI 推出了 GPT-4.5,这可能是其最后一个非推理模型

在人工智能领域,大型语言模型一直是研究的热点。OpenAI 的 GPT 系列模型在自然语言处理方面取得了显著成就。GPT-4.5 是 OpenAI 在这一领域的又一力作,它在多个方面进行了升级和优化。

2025-03-08 23:22:55 901

原创 一周热点-文本生成中的扩散模型- Mercury Coder

在训练阶段,模型学习估计两个标记之间的转换比例,即标记 y 正确的概率与当前标记 x 正确的概率之比。在推理阶段,模型从被掩盖的标记开始,通过多个步骤将其还原,每一步根据估计的转换比例来改变每个标记。它们不仅在速度上超越了自回归模型,还有望进一步加速文本生成,为长文本的快速生成、智能体和推理过程的加速提供新的解决方案。Inception Labs 推出的 Mercury Coder 是一种基于扩散模型的文本生成模型,与传统自回归模型不同,它同时处理所有文本标记,通过逐步去除噪声来优化输出结果。

2025-03-08 23:21:56 317

原创 Manus vs OpenAI-deepsearch有何区别?

上一篇文章中,我们介绍了OpenAI-deepsearch,这节我们将针对manus进行介绍,并对两款产品进行对比;Manus是由中国团队于2025年3月6日正式发布的全球首款通用型自主智能体。名称来源Manus名称源自拉丁语“Mens et Manus”,意为“手脑并用”,强调将知识转化为行动的能力。核心定位数字世界的代理人:用户只需下达指令,Manus即可自主规划、执行任务,解放用户的时间与精力。超越传统聊天机器人:与ChatGPT等工具不同,Manus直接生成最终成果,如PPT、网站、分析报告等,而非

2025-03-07 01:01:32 1848

原创 OpenAI Deep Research

OpenAI Deep Research 是一款用于深度研究领域的智能体产品,能够针对复杂任务进行多步联网搜索和推理思考。它标志着 OpenAI 在开发通用人工智能(AGI)这一更广泛目标上迈出了重要一步。:Deep Research 能够在互联网上进行多步骤的研究,处理复杂的任务。它能够在短时间内(通常为几十分钟)完成人类需要数小时甚至数天才能完成的工作。:用户只需提供一个提示,ChatGPT 就会找到、分析并综合数百个在线来源,生成一份全面的报告,其水平相当于研究分析师。

2025-03-06 23:31:41 1189

原创 langchain-简介

主要特点模块化构建:提供一套模块化的构建块和组件,便于集成到第三方服务中,帮助开发者快速构建应用程序。生命周期支持:涵盖应用程序的整个生命周期,从开发、生产化到部署,确保每个阶段的顺利进行。开源与集成:提供开源库和工具,支持与多种第三方服务的集成。生产化工具:LangSmith 是一个开发平台,用于调试、测试、评估和监控基于 LLM 的应用程序。部署:LangServe 允许将 LangChain 链作为 REST API 部署,方便应用程序的访问和使用。

2025-03-06 00:12:38 1149

原创 字节旗下两款AI编程工具

Trae 和 MarsCode 是字节跳动推出的两款 AI 编程工具,旨在通过人工智能技术提升开发效率和质量。

2025-03-04 23:58:40 1235

原创 2025年初-值得关注的几款推理模型

Claude 3.7 Sonnet 是由 AI 研究公司 Anthropic 开发的最新混合推理模型,于 2025 年 2 月 24 日发布。这款模型被定位为“迄今最智能的模型”,并首次引入了混合推理功能,结合了普通大型语言模型(LLM)和专门的推理模型能力。:Claude 3.7 Sonnet 具有标准和扩展两种思考模式。标准模式提供近乎即时的响应,适合快速交互;扩展思考模式允许模型逐步推理,展示思维过程,特别适用于复杂问题。

2025-03-04 23:18:22 1247

原创 DeepSeek-OpenSourceWeek-第六天-Inference System Overview

开源周的第6天,DeepSeek对DeepSeek-V3/R1推理系统进行了深入概述。本文将深入探讨该系统的设计原则、优化策略以及性能统计数据,重点突出在吞吐量和延迟优化方面取得的显著进展。

2025-03-03 23:57:54 808

原创 一周热点:基于向量的推理,而非文本

大型语言模型(LLMs):大型语言模型(如GPT-2)可以通过生成思维链(CoT)来提高性能。CoT是将回应提示的过程分解为一系列步骤的中间文本标记。然而,大部分CoT文本旨在保持流畅性(例如“a”、“of”、“we know that”),而非推理(例如“a² + b² = c²”)。这导致了效率低下。

2025-03-01 20:37:44 818

原创 一周热点:Deepfake 有点小惊讶的伪造技术

Deepfake是一种利用人工智能算法,尤其是深度学习技术,来创建或修改视频、音频内容,使其看起来或听起来像是某个人说了或做了他们实际上没有说过或做过的事情。

2025-03-01 20:37:04 147

原创 一周热点:各大公司AI支出持续猛增

Alphabet(谷歌母公司)、亚马逊、Meta(原Facebook)、微软等主要人工智能公司表示,2025年将显著增加资本支出,向用于处理人工智能训练的数据中心投入数千亿美元。:最初对低成本训练的兴奋逐渐被对数据主权、安全以及运行DeepSeek-R1的成本的担忧所取代,因为DeepSeek-R1生成的推理标记数量比类似模型更多。:DeepSeek-R1所谓的训练成本引发了人们对人工智能基础设施需求降温的担忧,但主要人工智能公司的计划表明,这种情况尚未发生。

2025-03-01 20:36:30 525

原创 一周热点:无需植入脑部设备即可洞悉他人想法

研究人员开发了一种名为的技术,可以从脑电波中解读人们的想法并将其转换为文字。这项技术不需要在大脑中植入电极,而是使用外部设备(如脑电图 EEG 或脑磁图 MEG)来捕捉脑信号。

2025-03-01 20:35:48 395

原创 DeepSeek-OpenSourceWeek-第五天-Launch of 3FS and Smallpond Framework

2025 年 2 月 28 日,DeepSeek 在开源周的最后一天宣布推出了 Fire-Flyer File System(3FS)和 Smallpond 数据处理框架。这些创新旨在提升数据访问和处理能力,特别是针对 AI 训练和推理工作负载。

2025-02-28 20:38:23 919

原创 DeepSeek-OpenSourceWeek-第四天-Optimized Parallelism Strategies

DualPipe 是一种用于 V3/R1 训练中计算与通信重叠的双向pipline并行算法。

2025-02-28 00:07:10 1236

原创 DeepSeek-OpenSourceWeek-第三天-Release of DeepGEMM

这是一款专为高效的 FP8(8 位浮点)通用矩阵乘法(GEMMs)而开发的尖端库。GEMMs 是许多 AI 工作负载(尤其是深度学习)中的基本操作。:它可以处理标准的稠密矩阵乘法以及混合专家(MoE)模型中使用的矩阵乘法。MoE 是一种神经网络架构,通过使用多个专家网络来提高模型性能。:该库专门支持 DeepSeek 的 V3 和 R1 模型的训练和推理,这些可能是他们的最新 AI 模型。:DeepGEMM 在 Hopper GPU 上可实现超过 1350+ FP8 TFLOPS(每秒万亿次浮点运算)。

2025-02-27 23:27:56 686

原创 使用reasoning models 优化RAG是否可行?给大家一些建议

让模型自己决定工具调用的参数。例如,模型可以根据需要调整检索的相似度阈值。

2025-02-27 00:23:34 879

原创 阿里-Qwen-QwQ-Max-Preview深度思考模型最新开源

QwQ-Max-Preview是阿里巴巴集团于2025年2月25日正式发布的基于通义千问Qwen2.5-Max的深度推理模型。性能表现数学能力:在MATH-500评测中,数学解题准确率达90.6%,展现出对各类数学主题的全面理解和强大的解题能力。编程能力:在LiveCodeBench评测中,编程竞赛题正确率突破50%,在真实编程场景中的代码生成和问题解决能力表现出色。推理能力:在GPQA评测中准确率达65.2%,科学推理能力达到研究生水平。在全球权威基准测试中,整体表现已超越OpenAI o1-previe

2025-02-27 00:22:29 598

原创 DeepSeek-OpenSourceWeek-第二天-DeepEP

更大的模型通常能带来更好的性能,但在计算资源有限的情况下,需要优化训练策略。

2025-02-25 23:31:50 1018

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

2025-01-15

蒙特卡洛树结合llm模型论文

蒙特卡洛树结合llm模型论文

2025-01-14

rag发展总结综述,介绍4中进阶方式

rag发展总结综述,介绍4中进阶方式

2025-01-12

Qwen2.5 Technical Report 详细技术报告

Qwen2.5 Technical Report 详细技术报告

2024-12-25

Teaching Small Language Models to Reason 小模型如何在大模型中生效

Teaching Small Language Models to Reason 小模型如何在大模型中生效

2024-12-25

phi4-技术报告,详细介绍模型设计原理

phi4-技术报告,详细介绍模型设计原理

2024-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除