
DataWhale-自然语言处理
beautiful_well
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
零基础入门nlp--基于深度学习的文本分类-2
学习目标学习Word2Vec的使用和基础原理。 学习使用TextCNN、TextRNN进行文本表示。 学习使用HAN网络结构完成文本分类。原创 2020-08-02 16:00:42 · 313 阅读 · 0 评论 -
零基础入门nlp--基于深度学习的文本分类-1
与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理 学会使用验证集进行调参FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。如何使用验证集调参在使原创 2020-07-29 15:38:12 · 305 阅读 · 0 评论 -
零基础入门nlp--基于机器学习的文本分类
本章侧重使用传统机器学习--朴素贝叶斯算法分类1、学习目标:学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类2、TF-IDF算法3、sklearn分词的关键sklearn输出格式为矩阵,直接为后续的sklearn建模服务。需要先使用背景语料库进行模型训练。结果中给出的是字典ID而不是具体词条,直接阅读结果比较困难。class sklearn.feature_extraction.text.TfidfTransformer()...原创 2020-07-27 21:11:19 · 381 阅读 · 1 评论 -
零基础入门nlp--数据读取与数据分析
1、通过pandas的read_csv读取数据#读取数据import pandas as pdtrain_df = pd.read_csv(r'Data/nlp/train_set.csv', sep='\t', nrows=100)显示前5条数据2、数据分析的三个目标:赛题数据中,新闻文本的长度是多少? 赛题数据的类别分布是怎么样的,哪些类别比较多? 赛题数据中,字符分布是怎么样的?句子长度分析在赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词的个数来得到原创 2020-07-21 14:43:26 · 418 阅读 · 0 评论 -
零基础入门nlp--赛题理解
赛题题目:新闻文本分类 赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。赛题数据背景:整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。评价标准:评价标准为类别f1_s...原创 2020-07-19 20:50:44 · 371 阅读 · 0 评论