
数据挖掘
chnhbhndchngn
这个作者很懒,什么都没留下…
展开
-
方阵的特征值和特征向量的求解案例(三阶方阵)
下面验证一下原创 2021-01-27 16:19:58 · 10017 阅读 · 1 评论 -
方阵的特征值和特征向量的求解案例(二阶方阵)
原创 2021-01-27 15:44:20 · 14097 阅读 · 0 评论 -
安装nltk后下载数据时, 网络出错处理方法
安装nltk工具包后需要下载很多文本数据或者停用词但是有可能出现错误, 如下图所示关闭窗口后, 会出现服务器的地址, 但是仍然是没有数据这时只需要讲服务器的地址修改为 http://www.nltk.org/nltk_data/回车即可如下图:然后选取要下载的数据, download就可以下载了...原创 2021-01-26 15:54:16 · 432 阅读 · 1 评论 -
关于计算文本关键字textrank技术点之窗口中的词对
不多说了自己的笔记, 只是计算一个分词组成的列表, 中窗口大小的分词对def word_combine(words, window=2): if window < 2: window = 2 for x in range(1, window): print("\n 跨度:", x) if x >= len(words): break words2 = wor原创 2020-08-16 21:21:51 · 263 阅读 · 0 评论 -
通过tfidf求文本的关键字
通过tfidf 求文本的呃关键字原创 2020-07-13 00:59:54 · 537 阅读 · 0 评论 -
metrics.classification_report评估模型结果
今天做分类任务遇到一种特殊的情况, 测试集的数据比较小, 预测的结果并不是每个类别都有, 这时使用sklearn.metrics, 并且指所有类别标签的时候会出错但是只要预测的每个类别都有, 真实的可以不全也不会报错...原创 2020-07-08 21:44:41 · 1747 阅读 · 0 评论 -
gensim训练词向量
gensim训练词向量# -*- coding: utf-8 -*-# @Time : 2020/7/7 12:41# @Author : WngXngimport jiebafrom gensim.models import word2vecimport gensimimport warningswarnings.filterwarnings("ignore")# 对初始语料进行分词处理后,作为训练模型的语料with open("corpus.txt", 'r', e原创 2020-07-08 00:37:36 · 1250 阅读 · 0 评论 -
基于gensim的lda的小案例
这里有两类文本, 一类是讲环保环境的, 一类是将经济建设的from gensim.corpora import Dictionaryfrom gensim.models.ldamodel import LdaModelfrom gensim import modelstexts = [['社会', '经济', '发展', '国民经济', '各行各业'], ['环境影响', '评价', '城市', '建设项目', '环保'], ['监管', '标准', '手段'原创 2020-07-07 18:09:24 · 763 阅读 · 0 评论 -
聚类的评估指标 轮廓系数
原创 2020-06-06 15:51:39 · 979 阅读 · 0 评论 -
LabelEncoder
from sklearn import preprocessingla = preprocessing.LabelEncoder()categories = ['健康','军事','产业','领导', '体育','政治','教育']la.fit(categories)res = la.transform(categories)res结果:array([2, 3, 0, 6, 1, 4, 5], dtype=int64)LabelEncoder()会在内部对类别进行重新排序, 并..原创 2020-05-28 01:10:13 · 567 阅读 · 2 评论 -
交叉熵函数tf.softmax_cross_entropy_with_logit()的实际计算
在分类问题中最后计算的损失函数大多都是使用的交叉熵函数, 那么它内部到底是咋计算的呢,这里举例说明先假设这里只有一个样本, 实际类别的one-hot编码是[0, 0, 1], 而预测结果为[0.4, 0.3, 0.6], 这里并没有经过softmax进行归一化处理, 因为tf不建议我们自己进行 归一化处理, 在调用函数时内部会进行softmax的归一化处理.y_onehot = tf.constant([[0, 0, 1]])y_pre = tf.constant([[0.4, 0.3, 0.6原创 2020-05-23 11:27:57 · 686 阅读 · 0 评论 -
Batch Normalization 的拆解操作
第一步:创建数据,这里是两个样本,每个样本是两个通道的三乘四矩阵第二步: 求解所有样本每个通道的均值, 注意维度第三步: 求解所有样本的每个通道的方差, 注意维度第四步: 标准化处理第五步:整合成函数,并做处理注:这个函数是从https://zhuanlan.zhihu.com/p/81891467抄来的第六步: 试验一把其实画图更好理解:...原创 2020-05-07 15:39:16 · 194 阅读 · 0 评论 -
手写计算PCA算法过程,并与程序对比
假设这里有5个二维的样本,我们通过PCA将其降到一维,手写过程如下直接理解就是在平面上的五个点,如下图 然后我们通过改变坐标系的位置,将平面上的五个点转化到一维数轴上的五个点.我们通过代码验证import numpy as npfrom sklearn.decomposition import PCAx0 = np.array([[1, 2], ...原创 2020-05-04 00:10:58 · 2308 阅读 · 3 评论 -
TfidfTransformer和 CountVectorizer的使用
构建词向量简单的有两种分别是TfidfTransformer和 CountVectorizer,这里探索一下他们的使用方法第一种使用方法,先使用CountVectorizer对原始文本数据进行处理,转换成各个词的频率,没有出现的就是0(这里需要注意的是,直接忽略词汇的长度小于2的,这里的"我"直接被删除了), 然后再使用对产生的数字矩阵进行处理,从而产生tf-idf的矩阵,实例代码如下:...原创 2020-01-03 23:52:51 · 4481 阅读 · 3 评论 -
PermissionError: [WinError 5] 拒绝访问。: 'd:\\software\......_path.cp36-win_amd64.pyd'解决办法
已有环境是:anaconda+tensorflow安装tensorlayer的命令是pipinstalltensorlayer最后报错:PermissionError: [WinError 5] 拒绝访问。: 'd:\\software\\anaconda3.4.4\\lib\\site-packages\\matplotlib\\_path.cp36-win_amd64.pyd'...原创 2019-02-20 22:02:48 · 8574 阅读 · 0 评论 -
基于Tensor Flow孤独的神经元之单细胞算法
import tensorflow as tfwith tf.name_scope("data-set"): rlog = "./singlecell" x = tf.constant(2.0, name = "input") w = tf.Variable(0.8, name = "weight") y_predict = tf.multiply(w, x, ...原创 2018-08-12 09:26:04 · 393 阅读 · 0 评论 -
李航 统计学习方法 中的adaboost案例详解
书上给出的解答虽然步骤上是很清楚但是个具体的结果并不是很详细,为了加强理解,自己实现了解题过程的所有数据,详细代码如下:初始化数据和初始的权重import numpy as npx = np.arange(10)y = np.array([1] * 3 + [-1] * 3 + [1] * 3 + [-1])w1 = np.array([.1] * 10)寻找简单分类器的...原创 2019-11-23 19:23:45 · 1392 阅读 · 2 评论 -
基于机器学习多种方法的kaggle竞赛入门之手写数字的图像识别预测
关于kaggle,不多说了,直接上干货,我这次做的是入门级别的这个题目——手写数字的图像识别预测,主要使用了KNN、LR、RF、SVM四种分类器进行预测。一、KNN分类器KNN算法是所有机器学习算法中最简单的模型了,可以说是不需要训练的,直接计算最近距离样本的类别来进行划分,最大的缺点就是计算量大。首先导入各种第三方包,并读取数据import pandas as pdimport numpy a...原创 2018-01-20 16:22:52 · 1813 阅读 · 0 评论 -
机器学习关于支持向量机的面试题总结
1.SVM的原理是什么?SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机)(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;(3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非...原创 2018-03-16 21:07:08 · 5757 阅读 · 0 评论 -
中文文本分类
将文本进行分类是自然语言处理当中最主要的工作之一,本文处理很重要的一项工作就是对文本进行向量化,本文不做详细的介绍,只是采用TF-IDF的方法对文本进行向量化,然后分别采用SVM, Bayes, RandomForest,BP四种方法对文本进行分类。训练语料是在excel中存储的,格式见下图:data = pd.read_excel('../corpus.xlsx...原创 2018-11-25 11:37:45 · 716 阅读 · 0 评论 -
kenlm使用研究
yum install -y cmakeyum install -y boostyum install -y boost-develyum install -y boost-docyum install -y zlibyum install -y zlib-develyum install -y gcc gcc-c++ kernel-develwget -O - https://...原创 2019-05-27 19:30:53 · 1167 阅读 · 0 评论 -
tf.nn.conv2d进行卷积计算时卷积核大小的两个特例
在进行tf.nn.conv2d进行卷积计算的时候有两个特殊的卷积核,一个是1x1,另一个就是和原始图像大小一样的卷积核,这里分别进行验证.一 卷积核是1x1的情况 一般情况,步长并不会比卷积核的尺寸大, 因为如果步长比卷积核的尺寸大就会丢失数据,因此这只考虑步长等于1 的情况import tensorflow as tfinput = tf.ones([1, 5, 5...原创 2019-06-20 22:30:21 · 2568 阅读 · 0 评论 -
二类分类中基尼指数、 熵之半和分类误差率的关系
import numpy as npfrom matplotlib import pyplot as plt import matplotlib as mplmpl.rcParams['font.sans-serif'] = ['simHei']mpl.rcParams['axes.unicode_minus'] = Falsep = np.linspace(0.0001, 0.99...原创 2019-07-12 15:10:26 · 4366 阅读 · 4 评论 -
简单线性回归的应用及画图(一)
本文采用线性回归的模型进行了练习。使用的模型的损失函数如下: 代码首先生成了一些用于使用线性回归的数据然后加上了一些噪声,然后使用简单的线性回归和多项式回归进行拟合,画图计算的得分值并画图来判断拟合的效果:import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sk...原创 2019-07-23 22:47:14 · 7062 阅读 · 0 评论 -
简单线性回归Ridge的应用及画图(二)
上篇提到,当次数高时就会出现严重的龙格现象,实际上就是过拟合了,为了降低过拟合的现象,本文使用的模型是Ridge模型,就是在损失函数中加入了L2正则项,函数 表达式如下:其中生成的数据跟上篇一样,代码如下:import numpy as npfrom sklearn.linear_model import RidgeCVfrom sklearn.preprocessing imp...原创 2019-07-23 23:20:29 · 1083 阅读 · 0 评论 -
简单线性回归Lasso的应用及画图(三)
上篇提到了Ridge,表现很好,避免了过拟合的情况,本文使用的模型是Lasso模型,就是在损失函数中加入了L1正则项,函数 表达式如下:代码如下:import numpy as npfrom sklearn.linear_model import LassoCVfrom sklearn.preprocessing import PolynomialFeatures...原创 2019-07-23 23:37:37 · 9958 阅读 · 1 评论 -
简单线性回归 Elastic Net 的应用及画图(四)
上篇提到了Lasso,表现虽然不如Ridge好,但是具有特征选择的特性那么能不能把这两个模型进行融合呢,Elastic NEt 就是起到了这样的作用,损失函数表达式如下:代码如下:import numpy as npfrom sklearn.linear_model import ElasticNetCVfrom sklearn.preprocessing impo...原创 2019-07-23 23:52:48 · 1830 阅读 · 0 评论 -
决策树做回归及其与Ridge回归的对比
决策树是既可以做分类又可以做回归的模型,这篇文章我们来测试一下它的回归的效果如何。首先,我们来生成一些数据:import numpy as npimport matplotlib as mplfrom sklearn.linear_model import RidgeCVfrom sklearn.ensemble import BaggingRegressorfrom sklea...原创 2019-07-28 11:45:41 · 568 阅读 · 0 评论 -
使用随机森林的方法预测鸢尾花数据的分类
首先说一下,该数据集来源于网络。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。数据来源:http://archive.ics.uci.edu/ml/datasets/Irisimport numpy as npimpor...原创 2019-07-28 20:28:27 · 2861 阅读 · 0 评论 -
决策树回归
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeRegressorif __name__ == "__main__": N = 50 x = np.linspace(-3, 3, N) y = np.sin(x) + np.random.ra...原创 2019-07-28 20:58:39 · 285 阅读 · 0 评论 -
基于机器学习预测Lending Club网站贷款申请结果
前提简介:Lending Club是美国的一家贷款公司,自2007年以来,致力于将借款人和投资者聚集在一起,改变人们获得信贷的方式。在过去的十年中,帮助数百万人控制了他们的债务,发展了他们的小企业并为未来投资。本文意在从Lending Club网站下载贷款申请的数据来创建模型,预测贷款申请的结果。本文所使用的数据来源是该公司网站公开提供的,网址是:https://www.lendingclub.c...原创 2018-02-27 23:54:34 · 9033 阅读 · 4 评论