
机器学习
精神抖擞王大鹏
精神抖擞王大鹏
展开
-
探索循环神经网络在构建语言模型中的演化历程
任务说明用周杰伦的歌词数据构建字符级循环神经网络,并用其生成新的歌词。数据集数据集说明数据集中的训练集合采用的是周杰伦十张专辑中的歌词,用此来训练一个语言模型,并用其来生成新的歌词。数据集读取通过with open读取数据集,并将换行符替换成空格。去除换行符时,需要同时去除’\n’和’\r’:with open ('jaychou_lyrics.txt')as f: # 将文件读取...原创 2020-03-02 00:27:11 · 710 阅读 · 0 评论 -
NLP基础:枚举法和维特比搭建分词
一. 基于枚举方法搭建中文分词工具使用的数据:中文词库文件(当作词典来用);计算出部分词语的unigram概率;Step1:对于给定的字符串句子,找出所有可能的分割方式...原创 2020-02-28 23:56:58 · 1269 阅读 · 1 评论 -
NLP基础-词性标注应用去除停用词
词性标注词性标注的应用就是通过词性来进行过滤,从而得到更有效的文本。方法是首先自定义字典–确定不想要的词性,第二步是把文件读进来后,先进行分词,根据分词的词语的词性对照词典中的词进行排除并重新拼接组合。关键字提取...原创 2019-06-07 21:56:40 · 4205 阅读 · 0 评论 -
NLP基础-准确分词(使用工具分词)
关于NLP相关包安装配置,可以参考:NLP工具包安装配置关于分词的原理可以参考:自然语言处理NLP-准确分词(原理)1. 加载字典来保证词可以分准对一些专业的名词来说,使用原有的词库可能无法很好的将词分开,比如在对医疗文本进行分类时,诸如:联合奥沙利铂、氟尿嘧啶单药等专用的药品名词。jieba中自定义词典的加载将开始没分准确的词放入字典中,就可以对其正确分词jieba中的词典,通过...原创 2019-06-04 21:37:15 · 1284 阅读 · 0 评论 -
NLP工具包安装配置(附一键下载requirements.txt)
自然语言处理笔记一.NLP与Py编程常用py开发包numpynumpy用于矩阵运算pip install numpyNLTKNLTK是自然语言工具处理包pip install nltkGensimGensim:用于自动提取语义主题pip install gensim下载whl文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/,...原创 2019-05-04 15:59:55 · 948 阅读 · 0 评论 -
NLP基础:HMM
参数与概率计算原创 2020-03-06 01:32:41 · 502 阅读 · 0 评论 -
Pytorch中torch.Tensor和torch.tensor()以及其他Tensor类型的区别
torch.Tensor()默认是torch.FloatTensor()的简称,创建的为float32位的数据类型;torch.tensor()是对张量数据的拷贝,根据传入data的类型来创建Tensor;其他数据类型,如LongTensor,FloatTensor等,都是创建相对应的数据类型;...原创 2020-02-13 16:40:10 · 1354 阅读 · 0 评论 -
竞争学习神经网络-SOM
竞争学习神经网络-SOM原创 2018-11-23 15:06:31 · 4661 阅读 · 1 评论 -
Kaggle入门--泰坦尼克号存活率预测(完整流程)
1. 通过热力图的方式来查看缺失的数据sns.heatmap(train.isnull(), yticklabels=False, cbar=False, cmap='viridis')tip:对于有些数据集中可能不是显式的存在缺失值,而是把缺失值替换成了特殊的字符,这种情况的话可以先将特殊字符替换为np.nan,再用isnull()函数。2. 查看离散变量和连续变量的属性# 统计离散变...原创 2019-12-06 23:41:07 · 3280 阅读 · 0 评论 -
最优化方法问题总结
8月2日:解释梯度下降法和牛顿法原理:梯度下降法:泰勒展开到一次项,忽略二次以上的项,用一次函数来线性代替,最后通过移项来得到迭代式;牛顿法:把函数展开未二次,忽略二次以上的项,用二次函数来近似代替,最后通过对二次的函数求梯度,让梯度为0来得到迭代式;一句话解释下梯度下降及牛顿法:梯度下降法是沿初始点梯度向量的反方向进行迭代,进而得到函数的极值点,参数迭代公式为:xk+1=xk−γ∇f...原创 2019-08-02 17:32:16 · 1393 阅读 · 0 评论 -
Stanford CoreNLP配置常见错误总结
参考链接How to setup and use NLTK原创 2019-06-13 08:29:07 · 2062 阅读 · 1 评论 -
DW集训营算法基础梳理任务3:决策树
【学习任务】信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景回归树原理决策树防止过拟合手段...原创 2019-01-31 08:59:36 · 444 阅读 · 0 评论 -
Logistic回归损失函数推导
【学习任务】Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?为什么不用线性回归做分类?Logistic回归为什么不像线性回归那样用平方损失函数?Logistic回归的参数为什么不像线性回归那样直接公式求解?Logistic回归与线性回归有哪些联系?一.Logisti...原创 2019-01-29 08:10:07 · 4041 阅读 · 0 评论 -
DW集训营算法基础梳理任务1:线性回归
【学习任务】线性回归损失函数的极大似然推导:西瓜书公式3.4除了用最小二乘法以外,怎么用极大似然推得?一元线性回归的参数求解公式推导:西瓜书公式3.7和3.8怎么推来的?多元线性回归的参数求解公式推导:西瓜书公式3.10和3.11怎么推来的?线性回归损失函数的最优化算法:什么是批量梯度下降、随机梯度下降、小批量梯度下降?一. 损失函数的极大似然推导要知道如何用极大似...原创 2019-01-27 17:03:13 · 946 阅读 · 0 评论 -
Python时序分析风语咒票房预测
先占个坑,晚上总结必发!原创 2018-08-24 11:01:19 · 820 阅读 · 0 评论 -
经典机器学习算法优缺点
存在即合理,欢迎补充,拍砖KNN优点简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型和离散型数据; 训练时间复杂度为O(n),无数据输入假定; 对异常值不敏感。缺点计算复杂性高;空间复杂性高; 样本不平衡问题;朴素贝叶斯优点生成式模型,通过计算概率来进行分类,可以用来处理多分类问题; 对小规模的数据表现很好,适合多分类任务,适合...原创 2018-08-24 08:55:52 · 1288 阅读 · 0 评论 -
情感分析背后的朴素贝叶斯及实现基于评论语料库的影评情感分析(附代码)
一.情感分析的介绍 一句话概括情感分析:判断出一句评价/点评/影评的正/负倾向性; 情感分析是一个二分类的问题,一种是可以直接判断正负,一种是可以判断情感偏向正负性的一个打分;二,词袋模型(向量空间模型)2.1情感分析的流程 中文分词处理,停用词的去除,对否定词做处理,情感分析方法主要可以分为两大类,基于词典的方法和机器学习方法。 把对文本内容的...原创 2018-08-21 00:58:31 · 13018 阅读 · 3 评论 -
随机森林优化预测氪金玩家开源
有道是最终结果的好坏,特征工程占大头,而模型和算法只占一小部分。但也需好的模型来进行优化,不敢妄称开源,代码写的还不规范,有问题一起交流,欢迎拍砖!# 导入库文件import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom sklearn.tree import Decisi...原创 2018-08-20 01:13:09 · 390 阅读 · 1 评论 -
sklearn决策树回归使用预测氪金玩家(网格搜索)
使用sklearn的DecisionTreeRegressor解决分类问题实例。数据集描述 数据集存放在一个csv的文件中,其中有108个特征,1列目标变量。其中特征中有一个特征是玩家id,以及玩家的注册时间,将这两个无关变量剔除掉。剩余106个特征,特征变量的类型为数字。加载数据 import numpy as npimport pandas as ...原创 2018-08-07 21:30:33 · 1363 阅读 · 3 评论