零基础入门NLP新闻文本分类
布丁咩咩
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
零基础入门NLP-Task6 基于深度学习的文本分类3
Transformer 原理 我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络(Feed Forward Neural Network),每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。 这里能看到Transformer的一个关键特性,每个位置的词仅仅原创 2020-08-04 20:24:40 · 291 阅读 · 0 评论 -
零基础入门NLP-TASK5基于深度学习的文本分类2
TextCNN #模型搭建 self.filter_sizes = [2, 3, 4] # n-gram window self.out_channel = 100 self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True) for filter_size in self.filter_sizes]) #前向传播 pooled_outputs = [] for i in原创 2020-07-31 23:05:27 · 161 阅读 · 0 评论 -
零基础入门NLP-Task4基于深度学习的文本分类1
介绍 Fast Text Fast Text是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 首先进行fast text的安装 方法一:电脑在本地的cmd输入 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fasttext 方法二: 参考:https://blog.youkuaiyun.com/qq_17814041/article原创 2020-07-27 23:10:42 · 167 阅读 · 0 评论 -
零基础入门NLP-TASK3基于机器学习的文本分类
在处理自然语言问题时,需要将文字处理为计算机可以理解的语言,由于文本长度不定,因此需要进行词嵌入(Word Embedding)。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。常见词嵌入方法: one-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。 One-hot表示方法的例子如下: 句子1:我 爱 北 京 天 安 门 句子2:我 喜 欢 上 海 首先对所有句子的字进行索引,即将每个字确定一原创 2020-07-25 22:36:21 · 188 阅读 · 0 评论 -
零基础入门NLP-Task2数据读取与数据分析
数据读取 数据的每一列都是以\t为分割的字符 import pandas as pd data=pd.read_csv('train_set.csv',sep='\t') data.head() 数据可视化与分析 新闻长度分析 train_df['text_len']=train_df['text'].apply(lambda x: len(x.split(' '))) print(train_df['text_len'].describe()) 每条新闻平均由907个字符构成,最短的长度为2,最长原创 2020-07-22 22:28:09 · 275 阅读 · 0 评论 -
零基础入门NLP赛事-Task1赛事理解
赛题名称:零基础入门NLP新闻文本分类 赛题数据 赛题的数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。 赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了防止选手人工表注测试集的情况,官方将比赛数据的文本按照字符级别进行了匿名处理: {‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5原创 2020-07-21 19:40:28 · 184 阅读 · 0 评论
分享