
零基础入门天池NLP赛事
元晦CS
一辈子很长,要和有趣的人在一起;
余生,不要再辜负青春和梦想!
展开
-
零基础入门天池NLP赛事之——新闻文本分类(6)
基于深度学习的文本分类 一、学习目标: 了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune 二、文本表示方法Part4: Transformer原理 Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。 我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个原创 2020-08-04 23:48:16 · 974 阅读 · 1 评论 -
零基础入门天池NLP赛事之——新闻文本分类(5)
基于深度学习的文本分类 一、学习目标: 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 二、文本表示方法 Part3: 词向量 本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高...原创 2020-07-31 00:46:03 · 298 阅读 · 0 评论 -
零基础入门天池NLP赛事之——新闻文本分类(4)
基于深度学习的文本分类 一、学习目标: 学习FastText的使用和基础原理 学会使用验证集进行调参 二、文本表示方法 Part2: 1. 现有文本表示方法的缺陷: 除了上一篇介绍的方法知网,还有几种文本表示方法: One-hot Bag of Words N-gram TF-IDF 也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。 与这些表示方法不同原创 2020-07-27 23:29:20 · 240 阅读 · 0 评论 -
零基础入门天池NLP赛事之——新闻文本分类(3)
一、学习目标: 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 二、机器学习模型: 机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。 机器学习有很多种分支,对于学习者来说应该优先掌握机器学习算法的分类,然后再其中一种机器学习算法进行学习。由于机器学习算法的分支和细节实在是太多,所以如果你一开始就被细节迷住了眼,你就很难知道全局是什原创 2020-07-26 00:02:50 · 283 阅读 · 0 评论 -
零基础入门天池NLP赛事之——新闻文本分类(2)
本节任务:数据读取与数据分析 1. 数据读取有分析: 数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。 1.1 学习目标: 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 1.2 数据读取: 赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 import pandas as pd train_df = pd.read_csv('../input/train_set.csv'原创 2020-07-23 01:55:10 · 218 阅读 · 0 评论 -
零基础入门天池NLP赛事之——新闻文本分类(1)
1. 赛题理解: 1.1 赛题理解: (1)赛题名称: 零基础入门NLP之新闻文本分类 (2) 赛题目标: 通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建 和 模型训练等知识点; (3) 赛题任务: 赛题以自然语言处理为背景、要求选手对新闻文本进行分类,这是一个典型的字符识别问题; 1.1.1 学习目标: (1) 理解赛题背景 与 赛题数据; (2) 完成赛题报名 与 数据下载,理解赛题的解题思路; 1.1.2 赛题数据: 赛题以匿名处理后的新闻数据为赛原创 2020-07-21 20:35:05 · 224 阅读 · 0 评论