自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 收藏
  • 关注

原创 【全网最全】Python机器&深度学习框架大总结(学习路线/框架选择):langchain>huggingface>pytorch≈sklearn>matplotlib>pandas>numpy

├── 🤗 Hugging Face Transformers(提供 GPT、BERT)├── 🎯 Scikit-learn(SVM, KNN, 随机森林)├── 🏗 LangChain(LLM 调用、RAG、任务流)在 Python 生态中,不同的框架适用于不同的任务。├── 🔥 PyTorch(训练 LLM 和神经网络),各个库承担着不同的角色。├── 📊 Matplotlib(可视化)├── 📑 Pandas(结构化数据)├── 🧮 NumPy(矩阵计算)

2025-02-16 08:13:10 1346

原创 NLP&深度学习 DAY9:T5模型

此外,T5的训练过程中使用了**C4(Colossal Clean Crawled Corpus)**这一语料库。T5将自然语言处理任务都转化成几乎一致的格式,即输入是带有任务前缀声明的文本序列,输出的文本序列是相应任务的结果。其输入格式和输出格式类似于GPT-3在Few-shot Learning设置下的格式。⽐如英德翻译,只需将训练数据集的输⼊部分前加上“translate English to German” 就⾏。

2025-02-16 01:19:06 810

原创 NLP 八股 DAY1:BERT

Bert 的 MASK 机制是 这样的:它以token为单位随机选择句⼦中 15%的 token,然后将其中 80% 的 token 使⽤ [MASK] 符号进⾏替换,将 10% 使⽤随机的其他 token 进⾏替换,剩下的10%保持不变。在BERT中,输⼊的向量是由三种不同的embedding求和⽽成,分别是: a. wordpiece embedding:词嵌⼊,WordPiece是指将单词划分成⼀组有限的公共⼦词单元,能在单词的有效性和字符的灵活性之间取得⼀个折中的平衡;

2025-02-15 00:27:03 1011

原创 NLP&深度学习 DAY8:GPT系列模型原理详解(GPT1、GPT2、GPT3)【全网最详细】

GPT-2继续沿用了原来在GPT中使用的单向 Transformer 模型,尽可能利用单向Transformer的优势,做一些BERT使用的双向Transformer所做不到的事。那就是通过上文生成下文文本。GPT-2的目标是为了训练一个泛化能力更强的词向量模型,它并没有对GPT-1的网络机构进行过多的结构创新和设计,只是使用了更大的数据集和更大的网络参数。

2025-02-13 22:47:30 1318

原创 NLP&深度学习 DAY7:平滑、语境学习、Scaling Law、大模型的发展、LLM的构建流程

平滑:对所有可能出现的字符串都分配⼀个不为0的值,防⽌出现概率为0。预训练⼤语⾔模型PLM参数巨⼤,在不同任务上都进⾏微调代价巨⼤。可以通过过语境学习(In context Learning,ICL)等⽅法,直接使⽤⼤规模语⾔模型就可以在下取得很好的效果。

2025-02-11 01:37:34 924

原创 Agent论文阅读:NormEnforcement with a Soft Touch: Faster Emergence, Happier Agents

(Norm Enforcement with a Soft Touch,即“柔性规范执行”),这是一个。在多智能体系统(multiagent system, MAS)中,智能体之间的交互可通过。可能在促进多智能体系统中的**合作(cooperation)**方面更为有效。智能体对其他智能体的行为作出反应,可能表现为对满意或不满意行为的。对 Nest 进行了实验评估,并考察了三种不同的。,这种方式更接近现实世界中的人类行为模式。,并增强对这些沟通方式的理解。在模拟环境中,每个智能体可以在。

2025-02-09 03:20:26 1000

原创 multiAgent论文阅读:Value-Based Rationales Improve Social Experience: A Multiagent Simulation Study

Exanna 智能体在执行行动时,不仅会考虑自身的价值观,还会参考他人的价值观,以此提供行动的理据(rationales)并评估他人提供的理据。因此,Bella 在解释自己不戴口罩的行为时,仅陈述了周围环境安全、无需佩戴口罩的理由,而未涉及自己的健康状况。Bella 为自己的决定提供了以下理据:首先,办公室没有强制佩戴口罩的规定,因为周围环境是安全的。合理地推理价值观是让智能体的决策与利益相关者价值观保持一致的重要能力 [34, 35, 36],这包括提供和理解恰当的理据 [18]。[19] 进行模拟。

2025-02-09 03:07:11 465

原创 Agent&强化学习论文阅读:Operationalising Rawlsian Ethics for Fairness in Norm-Learning Agents

社会规范是社会中普遍存在的行为准则。然而,当智能体在决策时不考虑对他人的影响时,可能会形成导致某些智能体被压制的规范。我们提出了。

2025-02-09 02:07:24 638

原创 失败和成功都是一样有价值的

很多人认为失败就是失败了,就一无是处了。但是像爱迪生发明灯泡失败了99次,最后一次成功了,那能说爱迪生前面的失败都是没用了吗?他自己说他只是成功发现了99种不同的组合的错误。所以我认为不要区分失败和成功,失败没有必要沮丧,成功也没有必要骄傲,所谓胜不骄、败不馁。失败是成功之母,成功是失败的结晶。不应该过度的区分它们,彼此都很有价值。

2025-02-06 05:21:07 124

原创 强化学习DAY2:马尔可夫决策过程(MDP) & Q函数

通过上文,我们已经知道不同状态出现的概率不一样(比如今天是晴天,那明天是晴天,还是雨天、阴天不一定),同一状态下执行不同动作的概率也不一样(比如即便在天气预报预测明天大概率是天晴的情况下,你大概率不会带伞,但依然不排除你可能会防止突然下雨而带伞)如下图所示,这个决策过程可视化了状态之间的转移以及采取的动作。且通过状态转移概率分布,我们可以揭示状态价值函数和动作价值函数之间的联系了。是奖励的集合)的每个可能的值出现的概率只取决于前一个状态。是动作的集合),并且与更早之前的状态和动作完全无关。

2025-02-05 03:45:38 307

原创 蓝桥杯刷题 DAY4:小根堆 & 区间合并+二分

【代码】蓝桥杯刷题 DAY4:小根堆 & 区间合并+二分。

2025-02-04 03:14:54 358

原创 申博经验贴

要根据每个教授去写不同的,一定不要泛泛的去写,一定要非常非常的具体,要引起教授的兴趣。每个教授每天都会收到几十封邮件,所以要足够的引起教授的注意(也可以有点标题档)一定一定要海投,投个100多封,一天投个几十封。念念不忘,必有回想。1. 所谓申博,最重要的就是。

2025-02-03 22:01:11 261

原创 蓝桥杯刷题DAY3:Horner 法则 & 前缀和+差分数组 & 贪心

所谓刷题,最重要的就是细心。

2025-02-03 03:36:26 930

原创 NLP&深度学习 DAY6:BERT 模型详解(其实BERT真没干啥)

先说结论:BERT其实真没干啥。BERT其实就是在Transformer的基础上,只用了encoder部分,然后在输入端多了一个Segment Embedding(创新点1),用了两个预训练任务(Masked Language Model (MLM))和 Next Sentence Prediction (NSP)(创新点2),然后就没了,就这两个创新点

2025-02-01 23:59:41 1316

原创 蓝桥杯刷题DAY2:二维前缀和 & 一维前缀和 & 差分数组

蓝桥公园是一个适合夜间散步的好地方,公园可以被视为由 n × m个矩形区域构成。每个区域都有一盏灯,初始亮度为 a[i][j]。小蓝可以选择一个大的矩形区域,并按下开关一次,这将使得该区域内每盏灯的亮度减少1,但每个区域内的灯的亮度最多只能减少至 a[i][j] - c。如果此时亮度已达到 a[i][j] - c,再次按下开关将使得灯的亮度a[i][j]。现在,小蓝将进行t次操作。每次操作他会选择一个矩形区域,该区域的左上角端点为(x₁, y₁),右下角端点为(x₂, y₂)

2025-02-01 05:18:10 737

原创 表面:训练模型 实际:反向传播训练自己

用优质的八股文和 优快云 文章来反向传播训练自己,用面试和刷题来调整损失函数,用实际的面试场景作为环境,用 HR 和面试官的反馈作为奖励信号,用不断尝试不同的回答策略进行探索和利用,用最终的 offer 作为强化学习的回报,持续优化自己的策略,直至收敛到最佳求职策略。

2025-01-31 22:49:49 102

原创 强化学习 DAY1:什么是 RL、马尔科夫决策、贝尔曼方程

如HMM学习最佳范例中所说,有一类现象是确定性的现象,比如红绿灯系统,红灯之后一定是红黄、接着绿灯、黄灯,最后又红灯,每一个状态之间的变化是确定的。

2025-01-31 21:17:01 945

原创 蓝桥杯刷题DAY1:前缀和

所谓刷题,讲究的就是细心 

2025-01-31 07:42:22 1042

原创 NLP&深度学习 DAY5:Sequence-to-sequence 模型详解

在NLP任务中,我们通常会遇到不定长的语言序列,比如机器翻译任务中,输入可能是一段不定长的英文文本,输出可能是不定长的中文或者法语序列。当遇到输入和输出都是不定长的序列时,可以使用编码器-解码器(encoder-decoder)模型或者seq2seq模型。其基本思想是编码器用来分析输入序列,解码器用来生成输出序列。

2025-01-30 20:43:31 898 1

原创 NLP&深度学习 DAY4:Word2Vec详解:两种模式(CBOW与Skip-gram)

用稀疏向量表示文本,即所谓的词袋模型在 NLP 有着悠久的历史。正如上文中介绍的,早在 2001年就开始使用密集向量表示词或词嵌入。Mikolov等人在2013年提出的创新技术是通过去除隐藏层,逼近目标,进而使这些单词嵌入的训练更加高效。虽然这些技术变更本质上很简单,但它们与高效的word2vec配合使用,便能使大规模的词嵌入训练成为可能。是最早、最经典的文本表示方法之一(1980左右出现)。它将一段文本看作一个「袋子」:里面盛放了这个文本所含的所有单词,但。

2025-01-29 04:03:29 1278

原创 NLP模型大对比:Transformer >Seq2Seq > LSTM > RNN > n-gram

我们可以用一个 图书馆查询 的类比来解释它们的差异:n-gram 像用 望远镜片段观察 例:处理句子 "虽然价格贵但质量真的好"3-gram只能看到局部组合: 无法关联首尾的 "价格" 和 "质量" 的对比关系BERT 像用 全景扫描仪 通过自注意力机制,让每个词都能关注到句子中所有其他词:# "质量"对"价格"的注意力权重可能高达0.7# "但"对"虽然"的注意力权重可能达0.6 2. 语义关联能力 n-gram 的局

2025-01-28 19:52:31 1446

原创 NLP DAY3:早期的n-gram算法(最浅显易懂)

n-gram算法作为一种基于统计的NLP算法,在文本分析和处理中发挥着重要作用。通过统计文本中连续n个词的序列的频率信息,n-gram为文本生成、语言模型构建、文本分类等任务提供了有力的支持。然而,n-gram算法也存在一些局限性,如数据稀疏性、上下文信息有限以及计算复杂度高等问题。因此,在实际应用中,我们需要根据具体任务和数据特点选择合适的n值和算法参数,以充分发挥n-gram算法的优势并克服其局限性。

2025-01-28 19:28:55 1235

原创 深度学习 DAY3:NLP发展史(全网最全)

NLP发展史NLP发展脉络简要梳理如下:2001 - Neural language models(神经语言模型)2008 - Multi-task learning(多任务学习)2013 - Word embeddings(词嵌入)2013 - Neural networks for NLP(NLP神经网络)2015 - Attention(注意力机制)2015 - Memory-based networks(基于记忆的网络)

2025-01-28 05:17:06 1419 1

原创 大模型Agent方向论文阅读DAY1:《The Rise and Potential of Large Language Model Based Agents: A Survey》

PCA-EVAL 基准目前涵盖三个领域,共计300 个实例,每个领域 100 个实例。在预研究中,我们发现标注过程需要深思熟虑的问题、行动及答案,这使得质量控制具有挑战性。为了保证质量,所有测试用例均经过至少三位作者的验证。我们将在未来继续扩展该基准,以推动对端到端决策的更多关注。

2025-01-28 00:50:47 741

原创 写论文DAY1:开始写论文

开始写论文 以此记录。

2025-01-27 22:24:26 98

原创 申博 DAY1:开始申博

开始申博 以此记录。

2025-01-27 03:02:29 365

原创 大模型GUI系列论文阅读 DAY4续:《Large Language Model Agent for Fake News Detection》

在当前的数字时代,在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战,并影响着关键决策和公众舆论。为应对这些挑战,自动化假新闻检测机制的需求日益增长。预训练的大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出卓越的能力,这促使人们探索其在新闻真实性验证方面的潜力。然而,传统的 LLM 使用方式通常是。

2025-01-24 19:10:13 1421

原创 大模型GUI系列论文阅读 DAY4:《PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detecti》

我们的研究强调了仇恨言论研究中建立共识的重要性,并展示了多元观点在提高检测准确性方面的价值。尊重多元视角:PREDICT将不同数据集的标注标准视为“独立视角”,尊重多元化仇恨言论观点,并将其存储为辩论的参考依据。通过辩论达成共识:PREDICT提供了一种基于推理的辩论模拟方法,帮助多代理在不同视角下达成共识。泛化能力:我们验证了PREDICT的泛化能力及其在仇恨言论检测中的卓越性能。

2025-01-24 19:06:04 1026

原创 图神经网络系列论文阅读DAY1:《Predicting Tweet Engagement with Graph Neural Networks》

社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下,预测一篇帖子在互动方面是否会产生影响,对于推动这些媒体的盈利利用至关重要。在现有研究中,许多方法通过利用帖子的直接特征来解决这一问题,这些特征通常与文本内容以及发布该帖子的用户相关。在本文中,我们认为互动的增加还与另一个关键因素相关,即社交媒体用户发布的帖子之间的语义关联。

2025-01-24 01:58:59 876

原创 大模型GUI系列论文阅读 DAY3续5:《WebPilot:AVersatile and Autonomous Multi-Agent System for Web Task Execution 》

基于大语言模型(LLM)的自主代理通常在执行需要动态交互的复杂网页任务时失败,这主要是由于这些环境固有的不确定性和复杂性。现有的基于 LLM 的网页代理通常依赖于针对特定状态和操作的固定、专家设计的策略,缺乏适应新任务所需的灵活性和通用性。相比之下,人类擅长探索未知环境,不断根据新的观察调整策略,并通过探索来解决模糊性。为了模仿人类的适应能力,网页代理需要战略性探索和复杂的决策能力。

2025-01-21 23:54:53 904

原创 大模型GUI系列论文阅读 DAY3续4:《TREE SEARCH FOR LANGUAGE MODEL AGENTS》

自主代理由语言模型(LMs)驱动,已在执行诸如。

2025-01-21 19:14:36 797

原创 大模型GUI系列论文阅读 DAY3续3:《LASER: LLM Agent with State-Space Exploration for Web Navigation》

值得注意的是,在 Amazon.com 上,LASER 甚至优于 WebShop,这可能是由于 Amazon.com 拥有更强大的搜索引擎,而 WebShop 主要依赖于人类演示数据。大型语言模型(LLMs),如 GPT-4(OpenAI,2023),在广泛的自然语言理解(NLU)任务上取得了卓越的性能(Brown 等,2020;Wei 等,2022)。此外,现有方法假设模型在全局动作空间中自由选择任意动作,要么在提示开头定义所有可能的动作,要么期望 LLM 从上下文示例中自动推断出可执行动作。

2025-01-21 18:41:38 718

原创 大模型GUI系列论文阅读 DAY3续2:《WebVoyager : Building an End-to-End Web Agent with Large Multimodal Models》

近年来,大型语言模型(LLMs)的快速发展,如 ChatGPT 和 GPT-4(OpenAI,2023),激发了人们对基于 LLM 的自主代理(AutoGPT,2022)在复杂任务执行方面的极大兴趣(Qin 等, 2023;目前,大型多模态模型(LMMs),尤其是 GPT-4V(ision)(OpenAI,2023)和 Gemini(Team 等, 2023),表现出卓越的能力,能够整合复杂的视觉线索与文本信息。类似于人类浏览网页的方式,我们的代理将网页的视觉信息(截图)作为主要输入来源。

2025-01-21 18:00:41 1267

原创 大模型GUI系列论文阅读 DAY3:《GPT-4V(ision) is a Generalist Web Agent, if Grounded》

因此,SEEACT 探索了最新发布的更强大的多模态模型(LMMs),如 GPT-4V 和 Gemini,并通过全面的在线和离线评估,展示它们作为通用网页代理的潜力。然而,基于 LLM 或 LMM 的代理通常无法直接生成上述三元组 (e,o,v)(e, o, v)(e,o,v),而是生成描述这些变量的文本动作 a~\tilde{a}a~,包括 (e~,o~,v~)(\tilde{e}, \tilde{o}, \tilde{v})(e~,o~,v~)。(Deng 等, 2023)数据集上评估了我们的方法。

2025-01-21 17:47:15 1034

原创 大模型GUI系列论文阅读 DAY2续2:《使用指令微调基础模型的多模态网页导航》

Liu 等, 2018)上对所提出的方法进行了测试,每个任务评估 100 个回合,最终结果取自 Gur 等(2022)提供的 56 个任务的平均成功率。如果代理满足给定的指令 ggg(即 r(st,g,at)=1r(s_t, g, a_t) = 1r(st​,g,at​)=1),则视为成功;(Chung 等, 2022),一个经过指令微调的 T5,而不是像 Gur 等(2022)那样使用原始预训练的 T5。的开发环境,但其性能往往低于在线强化学习的方法(Humphreys 等, 2022;

2025-01-21 00:10:46 1129

原创 大模型GUI系列论文阅读 DAY2续:《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

此外,在附录 E 中,我们还在 WebSRC(Chen 等, 2021b)基准测试中测试了 WebAgent,该数据集专注于 HTML 结构化文档理解,并与专门的 Transformer 模型(Li 等, 2021b;在 Mind2Web(Deng 等, 2023)这一离线任务规划数据集上,HTML-T5 在 Synapse(Zheng 等, 2023)与 GPT-3.5,以及 MindAct(采用 FLan-T5-XL 和 GPT-4)等方法中取得了**最先进(SoTA)**的性能。

2025-01-20 23:41:56 1296

原创 大模型GUI系列论文阅读 DAY2:《ScreenAgent:一种基于视觉语言模型的计算机控制代理》

因此,为了实现这一目标,首先需要为视觉语言模型(VLM)代理创建一个真实的交互环境,然后引导模型与环境形成一个持续的交互流程,并通过训练提高代理的性能。【Kolb,2014】的启发,使代理能够进行反思性行为,使整个流程更加全面,并与人类的行动和思维过程保持一致。例如,基于 UI 元素元数据可以通过 HTML 或开发者模式轻松获取的基础假设,WebNav【Nogueira 和 Cho, 2016】,Mind2Web【Deng 等】等数据集提供了有限的应用场景......(请提供完整内容以完成翻译)。

2025-01-20 23:25:01 1303

原创 深度学习 DAY2:Transformer

自注意力机制(Self-Attention):这是Transformer的核心概念之一,它使模型能够同时考虑输入序列中的所有位置,而不是像循环神经网络(RNN)或卷积神经网络(CNN)一样逐步处理。多头注意力(Multi-HeadAttention):Transformer中的自注意力机制被扩展为多个注意力头,每个头可以学习不同的注意权重,以更好地捕捉不同类型的关系。自注意力的作用:随着模型处理输入序列的每个单词,自注意力会关注整个输入序列的所有单词,帮助模型对本单词更好地进行编码。

2025-01-19 23:36:45 857

原创 深度学习 DAY1:RNN 神经网络及其变体网络(LSTM、GRU)

RNN网络是一种基础的多层反馈神经网络,该神经网络的节点定向连接成环,其内部状态可以展示动态时序行为。相比于前馈神经网络,该网络内部具有很强的记忆性,它可以利用它内部的记忆来处理任意时序的输入序列,这让它在自然语言处理方面取得了很大的成功。在前面的讲解中,提到了什么是循环网络,以及循环网络的公式构造,RNN网络模型即是循环神经网络的表现。相比于前面描述的循环网络,RNN中加入了其他参数的输入。

2025-01-19 15:10:25 1059

原创 大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》(6.6W 字长文)

大型语言模型(LargeLanguageModels,LLMs)的兴起[8][9],特别是那些增强了多模态能力的模型[10],为GUI自动化带来了颠覆性变化,重新定义了智能体与图形用户界面交互的方式。我们将回顾GUI智能体的发展历史,提供构建这些智能体的分步指南,汇总基本和高级技术,评审与框架、数据和模型相关的重要工具和研究,展示典型应用,并概述未来发展方向。通过这些问题,本综述旨在提供对该领域现状的全面概览,为构建LLM驱动的GUI智能体提供指导,识别关键研究空白,并提出未来工作的方向。

2025-01-19 01:08:06 1599

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除