NLP
2tong杂货铺
哈尔滨工业大学 计算机科学与技术 硕士
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关于中文预训练模型泛化能力挑战赛学习札记
先留个坑原创 2021-02-21 00:29:32 · 294 阅读 · 0 评论 -
零基础入门NLP_Task6 基于深度学习的文本分类3_Bert
Task6 基于深度学习的文本分类3 Author: 2tong 与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。 Bert BERT是一个基于Transformer的多层Encoder,通过执行一系列预训练,进而得到深层的上下文表示。 相关知识 Transformer原理 Transformer模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。 ####### 相关论文 Attention is All You Need原创 2020-08-04 23:49:19 · 884 阅读 · 0 评论 -
零基础入门NLP_Task5_基于深度学习的文本分类2_Word2vec
Task5 基于深度学习的文本分类2 Author: 2tong 与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。 Word2vec基础知识 word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。 word2vec的主要思路:通过单词原创 2020-07-31 21:42:35 · 357 阅读 · 0 评论 -
零基础入门NLP_Task4_基于深度学习的文本分类1 学习笔记
Task4 基于深度学习的文本分类1 Author: 2tong 与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。 以FastText为例,学习基于深度学习的文本分类。 FastText基本信息 FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 所以FastText是一个三层的神经网络,输入层、隐含层和输出层。 和TF-IDF比较 FastTe原创 2020-07-26 22:02:55 · 230 阅读 · 0 评论 -
零基础入门NLP_Task03_基于机器学习的文本分类_学习笔记
Task3 基于机器学习的文本分类 学习笔记 Author: 2tong 文本表示方法 1.One-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。 One-hot表示方法的例子如下: 句子1:我 爱 哈 尔 滨 句子2:我 喜 欢 橙 子 首先对所有句子的字进行索引,即将每个字确定一个编号: { '我': 1, '爱': 2, '哈': 3, '尔': 4, '滨': 5, '喜': 6,原创 2020-07-25 22:55:29 · 187 阅读 · 0 评论 -
零基础入门NLP_Task2_数据读取与数据分析 学习笔记
Task2 数据读取与数据分析 学习笔记 Author: 2tong 教程学习 1.数据读取 >>> import pandas as pd >>> train_file = './data/train_set.csv' >>> train_df = pd.read_csv(train_file, sep='\t', nrows=100) >>> train_df.head() label原创 2020-07-22 21:24:56 · 211 阅读 · 0 评论 -
零基础入门NLP之新闻文本分类_赛题理解_学习笔记
Author: 2tong Ref: 零基础入门NLP之新闻文本分类 Task1 赛题理解 学习笔记基本信息1. 赛题目标2. 赛题任务3. 赛题数据3.1 数据大小3.2 数据格式解题思路1.赛题本质2.赛题难点3.赛题指标4.赛题分析技术储备1.分类问题常用评价指标2.TF-IDF 基本信息 1. 赛题目标 接触NLP的预处理、模型构建和模型训练等知识点 2. 赛题任务 以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 3. 赛题数据 3.1 数据大小 train..原创 2020-07-20 23:39:22 · 322 阅读 · 0 评论
分享