- 博客(26)
- 收藏
- 关注
原创 [DL]ChatGLM3
ChatGLM3训练数据更多样、训练步数更充分、训练策略更合理,在语义、数学、推理、代码、知识等不同角度的数据集上表现出色,目前在44个中英文公开数据集测试国内第一。
2024-01-10 11:06:13
1503
原创 [DL]ChatGPT背后的技术
ChatGPT是一个聚焦于对话生成的大模型,能够根据用户输入的文本描述,结合历史对话,产生相应的只能回复。GPT3模型通过对大量文本数据的学习,能够流畅的生成对话,但是有时候的回复并不符合预期,OpenAI认为生成的回复应该具备真实性、无害性和有用性。此外,GPT3主要限制在于缺乏复杂任务的推理能力,例如完成代码和解决数学问题。
2023-09-18 14:24:42
232
1
原创 [DL]大模型简介
从技术上讲,语言模型(LM)是提高机器语言智能的主要方法之一。语言建模的研究此前最受关注的是预训练语言模型(PLM),基于Transformer架构的系列模型的提出,极大地提高了 NLP 任务的性能。并确立了pretrain和fine-tune学习范式作为解决NLP任务的主要方法。然而随着2022年11月ChatGPT的发布,大语言模型(LLM),简称大模型开始进入公众视野,成为研究热点。简单来说,大模型就是扩展的PLM,扩展的是模型大小以及数据大小。
2023-09-18 14:19:48
1361
原创 [DL]CRF模型解读
CRF(conditional random field,条件随机场)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。想要理解CRF模型,需要先对概率图相关概念有所了解,并与HMM(Hidden Markov Model,隐马尔科夫模型)一起比较学习。(本文只解读思想、原理,不涉及求解过程)
2023-09-08 16:39:05
1413
原创 [ML]算法常用评估指标
算法的评估指标是指评价算法优劣的标准指标体系,针对不同的学习任务,有不同的指标体系。在分类算法中主要有Accuracy(准确率)、Precision(精确率)、Recall(召回率)、Micro F1(微平均F1值)、Macro F1(宏平均F1值)、P-R曲线、ROC曲线等,上述提到的指标是在实际任务中最常用到的,因此对上述指标进行介绍总结。
2023-09-01 16:05:39
449
原创 [DL]词向量
词向量是自然语言处理中的一种表示方法,用于将单词转换成数值向量。在传统的文本处理中,计算机难以理解和处理文字,因为它们是离散的符号,难以进行数学运算。词向量的出现解决了这个问题,它将单词映射到一个连续的向量空间中,使得单词的语义信息可以以数值形式进行表示和处理。
2023-08-22 11:09:39
519
原创 [DL]BERT模型解读
BERT(Bidirectional Encoder Representations from Transformers)模型在论文中提出,BERT即双向的Transformer的Encoder表示。pre-training:利用无监督的方式对语言模型进行预训练;fine-tuning:通过监督的方式在具体语言任务上进行fine-tuning。
2023-08-17 20:24:20
555
原创 [DL]Transformer模型解读
Transformer模型在论文中提出。Transformer中抛弃了传统的CNN和RNN,整个网络结构仅由self-Attenion和Feed Forward Neural Network组成。
2023-08-16 21:19:36
954
原创 [env]pytorch_lightning和pytorch对应版本问题
直接使用pip安装pytorch_lightning会安装最新版本的库,且自动更新环境中的torch版本,导致torch和cuda版本不兼容,无法使用torch。重装torch后,因为torch版本与pytorch_lightning版本不兼容,无法使用pytorch_lightning出现上述错误。pytorch_lightning官方文档。更多版本兼容情况,可以在官方文档查看。
2023-08-11 14:33:31
27519
9
原创 [DL]LSTM模型解读
LSTM起源于循环神经网络(Recurrent Neural Network,RNN)。RNN是一种用于处理序列数据的神经网络,它是根据人的认知是基于过往的经验和记忆这一观点提出的,即一个序列当前的输出与前面的输出也有关。
2023-08-10 19:28:49
242
原创 [DL]Batch Normalization
首先明确Batch Normalization的核心思想不是为了防止梯度消失或者过拟合,而是对数据空间/参数空间进行约束来增加鲁棒性,这种操作会带来一系列的性能改善,如加速收敛速度、保证梯度、缓解过拟合等。
2023-08-09 16:54:01
142
原创 [DL]常见的激活函数
深度学习中的激活函数是指用于神经网络中每个神经元的非线性变换函数。它的作用是将神经元的输入(加权和)映射到输出,并引入非线性来增强网络的表达能力和适应性,从而使神经网络可以更好地拟合复杂的非线性模式。激活函数的主要目的是在神经网络中引入非线性变换。如果没有使用激活函数,神经网络的每层都只是做线性变换,多层输入叠加后也还是线性变换。使用激活函数可以使神经网络具有一定的非线性表达能力,从而可以更好地拟合非线性模式,提升神经网络的性能。
2023-08-01 10:47:23
140
原创 [DL]Dropout原理解析
Dropout的作用就是在前向传播时,让某个神经元以在概率p下停止工作。这样可以避免模型过于依赖某些局部特征,增强泛化能力。
2023-07-13 14:13:03
713
原创 [DL]Bart模型解读
首先上述模型都是由transformer模型延伸而来的。GPT:是一种自回归( Auto-Regressive)的语言模型。Bert:是一种自编码(Auto-Encoding)的语言模型。Bart:结合了自回归和自编码模型。
2023-06-13 15:44:14
1367
原创 [DL]正则化为什么能降低过拟合程度
正则化即在损失函数中增加一个正则化项,该项可以看做是损失函数的惩罚项。是对损失函数中的某些参数做一些约束,使得参数的自由度变小。
2023-06-02 15:11:59
107
原创 [DL]过拟合与欠拟合
欠拟合:函数/模型过于简单无法学习到有效的数据规律,导致模型泛化能力较差,无法有效预测未知数据过拟合:函数/模型过于精确的拟合了边缘数据(特定数据),导致模型泛化能力较差,无法有效预测未知数据泛化能力(generalization ability)是指模型对未知数据(非训练集数据)的预测能力。
2023-06-01 11:27:52
168
原创 [project]CCF大数据与计算智能大赛-小样本数据分类任务
CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。2022年,是第十届CCF BDCI。本赛题为大赛赛题之一,由智慧芽公司联合举办。本赛题为专利文本分类比赛。智慧芽作为国际领先的知识产权SaaS平台,根据用户的搜索习惯等因素,制定了一套新的专利分类体系。
2023-04-03 09:46:57
1597
4
原创 [vue]解决npm run后报错 Syntax Error: Error: PostCSS received undefined instead of CSS string
本地项目上传到服务器,npm run serve启动项目后,报错Syntax Error: Error: PostCSS received undefined instead of CSS string。
2023-03-30 10:59:38
8361
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人