- 博客(8)
- 收藏
- 关注
原创 python包成功安装方式汇总(持续更新)
写在前面,因为最近刚换电脑,jupyter notebook重新安装了,很多之前安装过的包又要重新安装了,所以这里正好用这篇博客记录一下安装的各种历程,因此会持续更新~ gensim 直接pip install gensim失败(Windows系统),根据一个博主的方法,试了改timeout时间: pip --default-timeout=1000 install -U pip,然后python -m pip install --user gensim 但是依然报错。。 然后在评论区看到一个解决方法,.
2020-08-18 16:31:42
220
原创 ARIMA原理简单介绍
Autoregressive Integrated Moving Average (ARIMA) ARIMA,自回归差分移动平均模型,通过采用过去的观测结果,并考虑差分、自回归和移动平均分量来分离信号和噪声。可以通过最小化AIC来寻找最优的模型参数。AIC准则是由日本统计学家Akaike与1973年提出的,全称是最小化信息量准则(Akaike Information Criterion)。它是拟合精度和参数个数的加权函数: AIC=2(模型参数的个数)-2ln(模型的极大似然函数) ARIMA模型主要由
2020-08-13 10:17:46
4934
原创 NLP入门--新闻文本分类Task6
Task6 基于深度学习的文本分类3学习目标Transformer基于预训练语言模型的词表示ELMoGPTBERT总结 这个task仍然是基于深度学习的文本分类。 学习目标 了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune Transformer 模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。 其中,在编码部分每个结构都是一样的,每个编码器的详细结构又包括两
2020-08-02 14:47:40
356
原创 NLP入门--新闻文本分类Task5
Task5 基于深度学习的文本分类2学习目标文本表示方法 Part3词向量( word2vec)基本思想基本思路两种算法两种加快训练的方法TextCNNTextRNN 本章将继续学习基于深度学习的文本分类。 学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 文本表示方法 Part3 词向量( word2vec) 基本思想 基于词的上下文环境进行预测,对于每一条输入文本,选取一定大小的窗口的上下文和一个中心词,并基于这个
2020-07-30 11:25:31
280
原创 NLP入门--新闻文本分类Task4
Task4 基于深度学习的文本分类1学习目标现有文本表示方法的缺陷FastText基于FastText的文本分类安装分类模型 之前介绍了如何使用传统机器学习方法去解决文本分类问题,而本章将基于深度学习,探索如何更好地解决文本分类问题。 学习目标 1、学习FastText的使用和基础原理 2、学会使用验证集进行调参 现有文本表示方法的缺陷 在之前介绍了包括One-hot、Bag of words等等方法,但这些方法都只是对词的一种统计,并没有考虑词与词之间的关系,且得到的向量维度很高,在面对高维数据时容易发生
2020-07-29 08:22:08
189
原创 NLP入门--新闻文本分类Task3
Task3 基于机器学习的文本分类学习目标机器学习简介文本表示方法One-hotBag of Words 在本章我们将开始使用机器学习模型来解决文本分类。 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 机器学习简介 机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。 文本表示方法 在机器学习算法的训练过程中,假定给定N个样本
2020-07-24 16:22:58
135
原创 NLP入门--新闻文本分类Task2
NLP入门学习笔记TASK2数据读取数据分析句子长度分布新闻类别分布字符分布 数据读取 对于该数据集的读取基于pandas库。 import pandas as pd train_df=pd.read_csv('C:/Users/Administrator/Desktop/wenbenfenlei/train_set.csv',sep='\t') train_df.head() 第一行导入pandas工具库,第二行读取csv格式的训练集文件,第三行显示前五行的数据。结果如下: label text
2020-07-22 10:36:18
226
原创 NLP入门--新闻文本分类Task1
NLP入门学习笔记TASK1背景介绍数据下载和分析数据读取解题思路 背景介绍 本次学习任务是基于天池的nlp入门比赛–零基础入门之NLP文本新闻分类,该赛题以当下非常火热的自然语言处理为背景,要求选手使用模型对各种新闻文本语料进行分类,以提高分类精度为目标。 数据下载地址为 [数据下载链接] 数据下载和分析 数据下载地址为 数据下载链接,该数据下载需要先报名对应的比赛,如下图所示点击报名完成相应报名步骤即可。 从官网上下载得到的数据只是提供了压缩包的下载地址,需要自行去下载然后解压,最终会得到这样的几个数
2020-07-20 15:03:12
323
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅