【国内对话大模型】鹏城·脑海大模型的奥妙

1、学习总结:

长达半年的一个鹏程脑海200G大模型的训练过程,是人工智能界的又一宏大壮观的景象!该项目旨在打造NLP(自然语言处理)预训练大模型的底座,实现2个亿参数的稠密性人工智能大模型,将是对国内人工智能技术和国内人工智能训练芯片的一次巨大挑战!

在这里插入图片描述

2、学习心得:

【1】通过自己的使用发现,同样的参数的英伟达和昇腾芯片,昇腾可以表现出更加优越的性能,国产芯片昇腾也不弱!
【2】人工智能网络云训练平台ModelArts优点也是非常明显,远程操控,让更多热爱人工智能的人也可以实现更加优越的存储性能和训练速度,实现一个超群的精度计算。
【3】盘古大模型:21年4月实现了第一个版本的α版本,与家喻户晓的GPT-3相比,网络结构更加简单轻便,少了32层网络,训练时设置了更小的Batch Size和更小的学习率,在昇腾910芯片上采取数据、模型、流水线、优化器多种并行方式训练实现了不错的性能。

在这里插入图片描述

  • 数据集处理:训练数据收集了百科类文章、电子书、网页数据等多样化的中文数据;采取了四个阶段的数据清洗策略,其中使用了fastText模型过滤、hash去重、n-gram算法以及ppl
### 国内常用的Embedding模型列表及介绍 #### 1. Word2Vec Word2Vec 是一种流行的词向量表示方法,通过神经网络模型将词语映射到连续的向量空间中。该技术在中国的应用非常广泛,尤其是在中文语料库上的应用效果良好。阿里云提供了预训练好的中文 Word2Vec 模型供开发者使用[^1]。 #### 2. BERT (Bidirectional Encoder Representations from Transformers) BERT 是由 Google 提出的一种双向 Transformer 编码器结构的语言表征模型,在多个 NLP 任务上取得了显著的效果改进。国内多家机构已经针对中文环境优化了 BERT 模型,并发布了多种变体版本,如ERNIE(百度)、MacBERT 和 RoFormer-Sim 等。 #### 3. FastText FastText 是 Facebook AI Research 开发的一个高效学习单词表示和句子分类工具包。它不仅能够捕捉字符级别的特征,还能有效处理稀疏词汇问题。腾讯开源了适用于中文场景下的 fastText 实现,支持多标签分类等功能。 #### 4. GPT系列(Generative Pre-trained Transformer) 虽然最初是由 OpenAI 发布的大规模无监督预训练语言模型,但是国内也有不少团队基于此进行了本地化适配工作。例如华为云推出了鹏城实验室联合开发的支持超大规模参数量的盘古α架构;阿里达摩院也构建了自己的通义万相大模型体系[^2]。 #### 5. ERNIE (Enhanced Representation through kNowledge Integration) 这是百度推出的一款增强版预训练语言理解框架,特别强调融合百科全书式的知识图谱来提升下游任务的表现力。除了标准版外还有专门面向特定领域定制化的子型号可供选择,比如医疗健康方向的 MedCLP 或者法律咨询方面的 Legal-BERT。 ```python import paddlehub as hub module = hub.Module(name="ernie_tiny") # 加载ERNIE tiny模型 texts = ["今天天气真好", "明天会更好"] results = module.get_embedding(texts=texts, use_gpu=False) for result in results: print(result.shape) # 输出每条文本对应的embedding维度 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值