东方佑
世界500强企业,算法工程师,大模型设计,炼丹
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
动态词表设计:从小说创作到超大规模语言模型的启示
在自然语言处理(NLP)领域,随着深度学习技术的发展,构建能够理解和生成人类语言的大规模语言模型成为了研究热点。然而,随着词汇量的增长,传统的固定大小词表方法面临着计算资源和效率的巨大挑战。本文将探讨一种创新的动态词表设计思路,并通过类比小说创作过程来论证这种方法的有效性。原创 2025-02-11 20:33:51 · 413 阅读 · 0 评论 -
DeepSeek V3的低训练成本:幻觉还是真实?
例如,它利用了“知识蒸馏”技术,即使用一个已经训练好的高性能教师模型(R1)来指导学生模型(V3)的学习过程。综上所述,DeepSeek V3所宣称的“低训练成本”并非完全虚构,但它确实掩盖了一些潜在的问题。在未来的发展道路上,只有持续投入资源进行原创性研究,并不断探索更加高效且可靠的方法,才能真正实现AI技术的进步与发展。尽管存在上述争议,不可否认的是,DeepSeek V3凭借其独特的优势在市场上获得了相当大的关注和支持。此外,值得注意的是,DeepSeek V3的成功还依赖于高质量的数据集支持。原创 2025-01-04 14:47:18 · 341 阅读 · 0 评论 -
文生图自回归模型设计
总结起来," Sora "模型是一个多模态模型,将图像数据和文本数据组合在一起,同时执行图像分类和文本分类。所提供的代码片段是" Sora "模型的PyTorch实现。原创 2024-03-01 09:05:27 · 496 阅读 · 0 评论 -
视频生成模型(猜测sora)demo
通过unet和 yan(任何llm结构)合并后得到一个可以在扩散和最回归vit 以及llm 三个数据集上进行训练的模型,可以叫万能模型。原创 2024-02-27 09:43:40 · 538 阅读 · 0 评论 -
扩散模型图像扩散简单的demo
【代码】扩散模型图像扩散简单的demo。原创 2024-02-27 09:03:18 · 171 阅读 · 0 评论 -
根据loss 曲率自动微调学习率代码示例
的函数,用于预处理输入数据。它接收输入数据、词汇表字典和每个单词在句子中可能的位置列表作为输入,并返回预处理后的数据列表。的神经网络模型的训练循环。该模型用于自然语言处理的任务,特别是生成文本。模型的实例,输入维度为词汇表的大小,嵌入层和隐藏层都有16个单元。设置批次大小,并创建一个进度条用于训练循环。的函数,用于计算衡量模型损失的指标。将批次数据转换为张量并输入模型。将损失函数定义为交叉熵损失。将损失值添加到损失列表中。计算梯度并更新模型的参数。遍历每个批次的训练数据。保存最终的模型和损失值。原创 2024-02-11 17:44:31 · 227 阅读 · 0 评论 -
loss的相对曲率的测量
接着,计算了loss数组前一半元素的平均值并赋值给变量one,计算了loss数组后一半元素的平均值并赋值给变量two,计算了loss数组的平均值并赋值给变量thr。最后,使用plt.plot函数绘制了loss数组的图像,并使用plt.plot函数绘制了三条直线,分别代表one、two和thr的值。接下来,统计了loss数组中满足条件loss=thr的元素个数,并将结果赋值给变量m。然后,统计了loss数组中满足条件loss=two的元素个数,并将结果赋值给变量n。原创 2024-02-09 12:00:47 · 439 阅读 · 0 评论 -
设计一个可以智能训练神经网络的流程
【代码】设计一个可以智能训练神经网络的流程。原创 2024-02-04 10:50:31 · 371 阅读 · 0 评论 -
midi 与text 互转
【代码】midi 与text 互转。原创 2024-01-31 18:02:10 · 492 阅读 · 0 评论 -
童话修仙生成器
【代码】童话修仙生成器。原创 2024-01-31 16:41:43 · 369 阅读 · 0 评论 -
少量精确数据筛选数据法for nlp
预训练的重要性在于它可以让模型从大量的数据中学习到通用的知识和特征,这些知识和特征可以在后续的任务中得到应用。预训练和微调的方法和策略需要根据目标任务的特点和需求进行调整和优化,以提高模型的性能和泛化能力。不同的模型可能在不同的任务上有不同的表现,因此需要根据目标任务的特点和需求选择合适的模型。同时,根据模型的性能和泛化能力,可以对模型进行相应的调整和优化,以提高模型的性能和泛化能力。导致今天的模型幻觉的原因是预训练的和目标任务不相关的数据,故而数据应该被清洗,在预训练之前。原创 2024-01-31 09:17:49 · 547 阅读 · 0 评论 -
jittor 和torch 的yan 模型转换代码
【代码】jittor 和torch 的yan 模型转换代码。原创 2024-01-30 15:56:00 · 459 阅读 · 0 评论 -
手搓 国内首个非Attention大模型,训练效率7倍于Transformer
该代码定义了一个名为CvFo(卷积前馈)的模型,该模型用于自然语言处理任务,如文本分类。原创 2024-01-25 22:27:54 · 397 阅读 · 0 评论 -
智谱高并发api使用
【代码】智谱高并发api使用。原创 2024-01-23 11:02:05 · 181 阅读 · 0 评论 -
这个可以叫ctx_lora
而小模型可以不断的根据loss 低的自己造的上文和输入 作为输入不断的迭代微调直到自己完全可以控制大模型生成质量更高的内容。基本思路是使用一个小模型学习如何给输入,添加一个上文让大模型输出的loss更低。原创 2024-01-23 11:00:59 · 284 阅读 · 0 评论 -
引导智谱api洗数据
content=‘莉娜的故事以对话形式转述如下:\n\n旁白:从前,在一个遥远的国度里,有一个被茂密森林环绕的小村庄。我一定要去探险看看。\n\n小白兔:勇敢的莉娜,我知道森林里的每一条路。\n\n旁白:于是,莉娜跟着小白兔穿过森林,跨过小溪,翻过山丘。\n\n树木:你好,莉娜,我是森林的守护者。\n\n小溪:欢迎你,莉娜,让我为你跳一支舞。\n\n小白兔:善良的莉娜,我只是做了我应该做的事。\n\n这个故事以对话的形式呈现了原小说的情节,希望这样的转述能够满足您的需求。原创 2024-01-22 11:26:57 · 459 阅读 · 0 评论 -
智谱VSOrion-14B-Chat
我的设计是为了提供基于现有知识和数据的信息。我可以尝试回答这些问题,但请注意,我的回答将基于截至2023年的知识和信息,并不包含个人观点。要修复此错误,您可以确保索引具有唯一值,方法是删除重复项或指定不包含任何重复项的新索引。此错误发生在您尝试使用不包含唯一值的索引来重索引pandas DataFrame或Series时。这将创建一个与原始DataFrame具有相同数据的新DataFrame,但带有新索引。的索引的DataFrame,并且您想使用一个新索引。方法要求索引必须是唯一的,以保持数据的原始顺序。原创 2024-01-22 11:09:32 · 350 阅读 · 0 评论 -
开年手搓另类gpt之千层lora
【代码】开年手搓另类gpt之千层lora。原创 2024-01-19 16:07:21 · 130 阅读 · 0 评论 -
python 使用hash 给超级多文件高速去重
函数生成每个文件内容的哈希值。接着,将哈希值作为键,文件路径作为值,创建一个新的字典。,键为文件路径,值为哈希值。接下来,遍历文件路径列表,如果该文件的路径不在。这段代码是一个用于删除重复文本文件的程序。函数,获取指定路径下的所有文件路径列表。来保存每个文件的哈希值和路径。字典中的键值颠倒,创建一个新的字典。字典中,就删除该文件。原创 2024-01-07 00:40:47 · 671 阅读 · 0 评论 -
完美的异步处理数据训练神经网络框架
只用改写一下数据对齐处理等操作。原创 2024-01-06 17:36:55 · 969 阅读 · 0 评论 -
使用贝爷公式写对联能行吗
按照后面扩写的法子可以给其加一个神经网络,不过为啥我不直接使用神经网络。按照我的水平泛化能力太差 ,不知到有没有其他方法。原创 2024-01-02 20:18:26 · 395 阅读 · 0 评论 -
大致人类应该是短时记忆和利用短时记忆控制利用周围环境达到长期记忆的吧
在主函数中,首先将输入的文本传递给temp_llm()函数,把结果存储在temp_text变量中。如果文本的长度大于1999,则将文本的总和和文本内容写入到一个指定的路径中,然后对其进行训练路由操作。否则,如果文本包含关键字"read",则从指定路径中读取数据,并进行select_llm()操作进行筛选,最后再次传递给temp_llm()函数。否则,直接将temp_text传递给temp_llm()函数并返回。主函数将输入的文本依次传递给不同的函数进行处理,最终输出结果。原创 2023-12-11 22:18:22 · 318 阅读 · 0 评论 -
外显记忆LLM
智能需要知识并且可以通过学习获取知识,这已促使大型深度建构的发展。然而,知识是不同的并且种类繁多。有些知识是隐含的、潜意识的并且难以用语言表达----比如怎么行走或狗与猫的样子有什么不同。其他知识可以是明确的、可陈述的以及可以相对简单地使用词语表达-每天常识性的知识,如猫是一种动物,或者为实现自己当前目标所需世道的非常具体的事实,如预销售团队会议在141室于下午3:00开始。原创 2023-12-09 23:51:09 · 439 阅读 · 0 评论 -
中文rlhf数据集50w条数据训练数据解码测试
【代码】中文rlhf数据集50w条数据训练数据解码测试。原创 2023-12-06 22:23:05 · 329 阅读 · 0 评论 -
使用特殊token 编码超级大的voc词表LLM
然后它将每个前缀与子集中的每个元素连接起来,创建一个新的特殊标记集。该过程继续使用新的特殊标记集作为下一个英语词汇子集的前缀,直到特殊标记的长度与英语词汇的长度相匹配。这些特殊标记是通过将一个固定的前缀(“”,其中“{}”是整数)与随机洗牌的英语词汇子集相结合而创建的。导入了pandas库,并使用它读取了一个名为"en_voc.pandas_pickle"的选定文件,该文件可能包含英语词汇。最后,通过将英语词汇和相应的特殊标记一起组合成键值对,生成了en_ch_dict字典。原创 2023-12-06 20:40:20 · 130 阅读 · 0 评论 -
如何使用llm 制作多模态
使用两位 token 表示 能 1024*1024 词 可以不断的 累乘 直到大于词表大小 固定使用 这些位的token 且 小的要前面填充0 token。由于词表远远大于该特殊token 的个数,必须使用 多个位的特殊token 表示,例如。只要设计一个神经网络学习整个映射关系,就能实现任意图像和特殊token之间的转换。将已知的所有图像数据都分割后进行str将其看做是一个长的字符,而后去重后方式一个词表。当前是如何制作两个完全有效学习特殊token和这些信息的互转的神经网络。将固定尺寸图像如256。原创 2023-12-05 21:27:21 · 239 阅读 · 0 评论 -
将显存和内存使用降低到原来的1/5左右
然而,LLM的推理过程需要大量的显存和内存,这限制了它们在资源受限环境中的应用。为了解决这个问题,我们提出了一种方法,可以将LLM的推理过程拆开,并使用特定的数据预处理技巧来减少显存和内存的使用。在我们的方法中,我们首先将数据集转换为令牌,这样可以减少文本数据在内存中的占用。然后,我们将每个序列存储为字符串格式,例如“str([1,2,3])”,这样可以在训练时重新评估序列,而不会增加内存占用。总的来说,我们的方法是一种有效的LLM推理优化策略,可以显著降低显存和内存的使用。llm数据预处理的技巧。原创 2023-12-05 21:26:05 · 570 阅读 · 0 评论 -
中英翻译数据集处理
【代码】中英翻译数据集处理。原创 2023-12-04 22:24:23 · 479 阅读 · 0 评论 -
适合任何平台任何框架的多进程异步加载数据训练神经网络框架
【代码】适合任何平台任何框架的多进程异步加载数据训练神经网络框架。原创 2023-12-04 21:01:01 · 231 阅读 · 0 评论 -
穷尽与筛选:人类思考过程的数据处理视角
本文从数据处理的角度深入探讨了人类思考过程。通过“试一试”的数据集合与“凑一凑”的数据整合两个核心阶段,本文详细分析了人们在解决问题时的数据搜寻、分析和整合的过程。此外,本文还讨论了这一过程在人工智能中的应用和未来可能的发展方向。人类的思考过程可以概括为信息的收集、分析和整合。这一过程的目标是生成知识和洞察力。本文将重点放在了两个主要的阶段:“试一试”的数据集合和“凑一凑”的数据整合。通过以上的分析,我们可以看到人类的思考过程是一个复杂而有序的过程。原创 2023-12-03 19:06:28 · 179 阅读 · 0 评论 -
基于llm的智能体-生命体
如果task_bool为False,则将[task_val, task_res, task_bool]作为值存储在self.mem字典中对应的步骤键下,并判断该步骤键对应的值列表长度是否超过了self.n。如果超过了self.n,就进行模型训练(调用train_llm方法),如果self.mem字典中task键对应的值列表长度超过了self.m,则停止训练,否则调用use_llm方法,传入self.mem字典中对应的步骤键下的值列表,获取改进后的提示字符串,并更新task_out变量。原创 2023-12-02 17:23:53 · 208 阅读 · 0 评论 -
paddle 语谱图对比
首先,我们导入了PaddlePaddle和Paddle Audio模块,以及一些用于处理音频的特征提取器,例如LogMelSpectrogram、MFCC、Spectrogram和MelSpectrogram。然后,我们选择一个特征提取器,并用它处理我们的音频数据。在这里,我们使用LogMelSpectrogram特征提取器,它可以将音频数据转化为音频信号的时频图像,并返回一个包含提取的特征的张量。接下来,我们使用Paddle Audio中的load函数导入一个音频文件,返回值为音频数据和采样率。原创 2023-12-02 11:46:41 · 475 阅读 · 0 评论 -
tree_voc简单的生成
【代码】tree_voc简单的生成。原创 2023-11-30 21:17:59 · 131 阅读 · 0 评论 -
在很多nlp数据集上超越tinybert 的新架构nlp神经网络模型
【代码】在很多nlp数据集上超越tinybert 的新架构nlp神经网络模型。原创 2023-11-29 22:19:46 · 1268 阅读 · 0 评论 -
双词表压缩性测试
【代码】双词表压缩性测试。原创 2023-11-25 17:48:06 · 132 阅读 · 0 评论 -
各种LLM数据集包括SFT数据集
通用预训练数据集 SFT datasets SFT 数据集 50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh。原创 2023-11-22 22:00:19 · 1208 阅读 · 0 评论 -
信息压缩模型在自然语言处理中的应用和探讨
随着人工智能和深度学习的发展,自然语言处理(NLP)在信息处理中的角色变得越来越重要。然而,海量的自然语言数据为信息处理带来了挑战——更多的信息通常意味着更高的处理成本,并可能导致效率降低。为了解决这一问题,我们探索了一种新的方法——信息压缩模型(ICM)。本文将阐述ICM的设计原理,以及如何利用其进行自然语言处理,并讨论其在NLP应用中的优点。原创 2023-11-22 21:56:02 · 1051 阅读 · 0 评论 -
特殊token的特殊用途
在您提供的示例中,有1000个普通 token(从普通 token 1 到普通 token 1000),以及100个特殊 token(从特殊 token 1 到特殊 token 100),以及100个特殊指示 token(从特殊指示 token 1 到特殊指示 token 100)。不同的任务可能会使用不同的特殊 token 和特殊指示 token,以达到更好的信息表示和处理效果。普通token1000,特殊token1,,,,,特殊token100 ,特殊指示token1,,,特殊指示token100。原创 2023-11-21 21:48:34 · 301 阅读 · 0 评论 -
多模态大一统:通向全模态学习和通用人工智能的未来之路
随着AI技术的不断发展,研究者们正试图构建一种真正通用的人工智能,它能像人们那样以统一的方式处理和理解多种模态的信息。在本文中,我们将详细探讨实现多模态模型的现有方法、面临的挑战以及建立全模态学习模型的潜在收益。目前,多模态模型的实现方法主要包括单独训练各领域模型、多任务学习、集成多模态模型和通用多模态模型。在LLM全模态领域,重点关注一级词表和二级词表的构建以及多模态信息的转换。成功实现全模态学习能够为AI领域带来重要的收益,包括跨领域学习、更高质量的预测、自适应性和鲁棒性,以及实现真正的智能。原创 2023-11-21 21:08:21 · 516 阅读 · 0 评论 -
自压缩llm 为 超长记忆之随机编码(非进制编码)
其中,细颗粒词表是小的词语表的token_id,明文相对位置token是固定的token(大小为1024),超大词表索引token是经过编码后的词语表。该函数根据输入的“poems.txt”文本文件,统计不同长度的词语数量,并根据筛选出长度为48、42、32的词语,生成小的词表。粗颗粒词表则是将原文本划分为长度为8的字符组成的词语,如果词语在大的词语表中出现,那么则使用大的词表索引token进行编码。该方法根据输入的“poems.txt”文本文件,使用长度为8的字符组建大的词语表。原创 2023-11-18 22:54:51 · 432 阅读 · 0 评论