- 博客(14)
- 资源 (17)
- 收藏
- 关注
原创 500G!BAAI发布高质量预训练中文语料库CCI3.0-HQ
北京人工智能研究院(BAAI)发布了500GB高质量的中文语料库CCI3.0-HQ,它是中文互联网语料库3.0(CCI3.0)的子集,通过两阶段混合过滤,显著提高了数据质量。为了评估有效性,在各种数据集上从头开始训练了一个0.5B参数模型,使用100B个token,在零样本设置下,在10个基准测试中取得了比CCI3.0、SkyPile和WanjuanV1更优越的性能。(2.2)做训练数据。总体性能:在总体平均值方面,FineWeb-edu以0.350的得分保持了轻微的优势,超过了DCLM的0.348。
2024-10-27 18:51:16
689
原创 从Turtor Copilot探讨AI在教育领域的落地
技术的车轮滚滚向前,但用户的需求却相对稳定。不管是初创公司还是大厂,如果在新技术范式吹起来的这股风停下来之前,没能及时找到有希望的落地方向(能满足用户真实需求+有市场机会),风一停,就会跌落进泥土里,消失在空中;而如果落地应用难做起来的话,那些想在淘金热里靠卖铲子赚钱的业务,也不过是短暂的捞快钱,终将随之枯萎。我的草稿箱中一直有一篇关于LLM产品落地的文章,躺了很久,但迟迟成不出稿,因为确实很难写好。一方面如果是简单罗列各种LLM赋能的场景,容易显得杂碎和混乱,且当中很多应用都是锦上添花,非核心;
2024-10-15 13:23:48
957
原创 人大&百度提出个性化插件式LLM
在最前面拼接Instruction embedding(前人研究这有助于让模型注意到指令需求,和其他常规任务区分开,其实就是soft prompt),然后是上面得到的user embedding,接着是用户当前输入,让LLM输出。这个头一开,接下来就可以把推荐的那些用户行为序列建模的各种套路都抄过来了,什么各种类型的序列,超长序列,各种attention交互,来提炼更好的user embedding,enjoy yourselves。以通用人工智能著称的LLM又要怎么开启个性化服务呢?那怎么输入LLM呢?
2024-09-30 14:55:41
966
原创 北邮&剑桥最新SLM(小语言模型)研究综述
他们根据模型在常识推理和问题解决任务上的平均准确率,将过去三年的SLMs分为小于0.5B、1B、2B和3B的参数组,并分析了这些数据集的质量。这些训练算法的引入和应用,为SLMs的性能提升和应用范围拓展提供了新的可能性。通过这些方法,研究者能够更有效地利用有限的资源来训练出性能更强的模型,同时保持模型的尺寸和运行成本在可接受的范围内。知识蒸馏是大型语言模型(LLMs)领域的一个重要概念,它涉及从大型复杂的教师模型中提取有价值的知识,并将其传递给更小、更高效的学生模型。
2024-09-28 23:56:31
1454
原创 SIGIR2024 best short paper!RAG中如何评估检索质量
回到检索问题的本质,其实就是看检索出的doc是否包含目标输出的正确答案/答案片段,可以根据检索出的doc和groudtruth的匹配度作为query-doc的软标签训一个打分模型,后对doc进行打分,匹配度可以是文本相关性,也可以是精确匹配,根据实际任务调整,等价于搜索场景的相关性模型,若无现成的模型重训一个成本也较高;检索模型R,根据query q检索出doc列表R_k,对每个doc d,和q一起输入下游目标应用的模型LLM M,得到输出,与标准答案y进行比较评估。怎样的信息是补充,怎样的信息是干扰?
2024-09-22 18:57:31
638
原创 基于LLM的文本表示优化
为了训练嵌入模型,我们采用了标准的InfoNCE损失L,覆盖batch内随机采样负例和难负例:其中N表示所有负样本的集合,φ(q, d) 是一个计算查询q和文档d之间匹配分数的函数。在本文中,我们采用了以下的温度缩放余弦相似度函数:τ是一个温度超参数,在实验中固定为0.02。
2024-09-19 13:19:08
1197
原创 OpenAI o1的开源平替版self-replay RL来了!
引人注目的是,rStar将LLaMA2-7B在GSM8K数据集上的准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8BInstruct的准确率从74.53%提高到91.13%。相互一致性反映了在缺乏监督的情况下的常见人类实践,其中同行(即两个SLMs)对推导出的答案的一致性表明了更高的可能性是正确的。然而,所达到的性能往往取决于LLM的固有能力,对于SLM来说,它们较弱的指令遵循能力和不可靠的自我奖励可能会误导自我改进。
2024-09-15 16:40:35
1044
原创 LLM新里程碑!OpenAI o1!
传统LLM的scaling law主要是模型数据量和模型参数量,侧重pretrain和postpretrain阶段,但由于自然语言符合zipf’s law,一味增多训练数据,其实还是强者恒强,补充的知识大概率原来的训练数据就有的,对模型带来新信息的边际效能会逐渐递减,而从开源模型和闭源模型之间的差距在逐渐缩小也可以看出,再依靠大力出奇迹去卷数据量卷参数量,不太好使了。,告诉模型去拆碎对prompt的理解,并考虑多个方法去产生最后的答案,产生答案并作为可见的token后,模型删掉之前的。
2024-09-15 16:37:46
1553
原创 基于困惑度相关性的预训练数据质量调优
高质量的预训练数据通常被视为高性能语言模型(LLMs)的关键。然而,由于数据选择实验需要昂贵的预训练运行,对预训练数据的理解进展缓慢。我们提出了一个框架,避免了这些成本,无需我们自己的LLM训练即可选择高质量的预训练数据。我们的工作基于一个简单的观察:许多预训练文本上的LLM损失与下游基准性能相关,选择高相关性的文档是一种有效的预训练数据选择方法。
2024-09-12 13:36:14
1012
原创 如何设计能让基于LLM的embedding模型更有效?
这种策略的优势在于能够从LLM的不同层中捕获和整合信息,这可能包含关于输入文本的不同方面的语义信息。在搜广推场景,双塔模型是业界标配,尤其是搜索引擎、推荐系统和语义文本相似性场景,普遍需要获得user和item / query和doc 好的embedding表示,便于大规模高效计算,主要是通过对比表示学习实现。多层可训练池化(Multi-Layers Trainable Pooling)策略是论文中提出的一种新的池化方法,旨在从大型语言模型(LLM)的所有隐藏层中捕获更丰富的语义信息。
2024-09-11 15:26:14
1310
原创 北大&阿里最新LLM偏好学习/反馈学习论文综述
大型语言模型(LLMs)展现出强大的能力,但要实现与人类偏好的对齐,往往需要少量数据来有效提升性能。研究领域分散,方法复杂,不同方法间的关系尚未充分探索。本文提出了一个统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个组成部分,以促进对现有算法的深入理解并探索不同策略的协同优势。引言:介绍了LLMs的能力和偏好对齐的必要性。定义和公式化:定义了偏好学习的目标和过程。统一视角:提出了一个统一的框架,将偏好学习分解为四个组成部分。并对目前的反馈偏好学习进行了系统的总结归纳偏好数据。
2024-09-10 10:53:20
1410
原创 LLM的上下文学习中示例样本的作用研究
文章探讨了大型语言模型(LLMs)在回归任务中是如何利用上下文示例进行学习(Learning)和知识检索(Retrieval)的,并提出了一个评估框架来分析这两种机制。
2024-09-09 12:54:46
688
原创 RLPF:用于LLM用户摘要的预测反馈
文章介绍了一种新的强化学习方法 RLPF(Reinforcement Learning from Prediction Feedback),用于优化大型语言模型(LLMs)生成的用户摘要,以提高下游任务的性能。
2024-09-09 12:48:42
836
原创 最新LLM的attention head的机制研究报告
最近,Zifan Zheng等人在arXiv上发表了一篇论文《大型语言模型的注意力头:一项调查》,对LLMs中的注意力头进行了深入的探讨和分析。未来的研究可以探索更复杂的任务,研究提示的鲁棒性,开发新的实验方法,并构建一个全面的可解释性框架。2. **需要建模的方法(Modeling-Required)**:构建新模型来深入研究特定头的功能,如探针方法和简化模型训练。1. **无需建模的方法(Modeling-Free)**:通过修改模型的潜在状态来观察输出变化,如激活替换和消融研究。
2024-09-09 11:30:48
363
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人