
数据挖掘
Claroja
这个作者很懒,什么都没留下…
展开
-
树模型
决策树-剪枝方法决策树Ensemble LearningbooststrapingBaggingBoostingBoosting AdaBoostBoosting GDBTBoosting Xgboost参考文献:原创 2021-04-27 14:02:18 · 1148 阅读 · 0 评论 -
朴素贝叶斯(naive Bayes) 二
重复词语处理 1.多项式模型(词袋模型) 词语每出现 一次就计数一次 2.伯努利模型(词集模型) 将重复的词语都视为只出现一次 3.在计算句子概率时(训练时),不考虑重复词语出现的次数,但在计算词语概率P(“词语”|c)时(判断时),却考虑重复词语的出现次数工程应用注意事项 1.对数处理,因为乘法运算,计算的时间开销比较大,一般都是先计算出所有可能的结果,然后查表 2.转换权重,...原创 2018-04-18 11:10:02 · 281 阅读 · 0 评论 -
TF-IDF
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。 逆向文件频率 (inverse document frequency, IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。 TFIDF实际上是:TF * IDF TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率...原创 2018-04-18 15:02:18 · 458 阅读 · 0 评论 -
百度 自然语言处理API
接口名称 描述 lexer 分词,词性标注 depParser 句子结构分析 wordEmbedding 转换为词向量 dnnlm 语法分析,看是否符合语言表达习惯 wordSimEmbedding 词语相似度 simnet 文本相似度 commentTag 评论观点抽取 sentiment...原创 2018-04-18 16:16:39 · 4755 阅读 · 0 评论 -
降维与分类
1.假设我们有m维的样本x1,x2,...,xNx1,x2,...,xN{x^1,x^2,...,x^N},N1N1N_1属于ω1ω1\omega_1,N2N2N_2属于ω2ω2\omega_2 2.我们需要寻找一个标量yyy,将样本xxx投影到一条线上(C-1空间,C=2)。 3.这些条线需要满足投影后类间的差距必须最大。 类间差距太小,这不是需要的直线 类间差距足够大,这就是我...原创 2018-05-10 17:38:52 · 1813 阅读 · 0 评论 -
pca
参考文献: https://zhuanlan.zhihu.com/p/21580949原创 2018-05-17 15:36:38 · 314 阅读 · 0 评论 -
opencv 直方图均等化
一个好的图像将会有来自图像所有区域的像素。参考文献:https://docs.opencv.org/3.4.3/d5/daf/tutorial_py_histogram_equalization.htmlhttps://blog.youkuaiyun.com/qq_41905045/article/details/81563436...原创 2018-10-17 08:33:31 · 206 阅读 · 0 评论 -
opencv-api erode
返回为形态学操作返回结构化的元素retval = cv.getStructuringElement( shape, ksize[, anchor] )参数描述shape元素形状ksize结构化元素的大小anchorAnchor position within the element.参考文献:https://docs.opencv.org/mas...原创 2018-10-29 14:38:30 · 263 阅读 · 0 评论 -
统计翻译
中文语料预处理1.由于数字、日期、时间、网址等采用正则表达式,用特殊名字泛化。类型转化例子数字类型$number如:321日期类型$date如:1995年 2 月 3 日时间类型$time如:3:13网址等类型$literal如:www.youkuaiyun.com2.不要对组织机构名进行捆绑为一个词汇。例如将“东北大学信息学院”最好分成两个词...原创 2018-11-22 11:49:17 · 798 阅读 · 0 评论 -
机器学习 正则化(regularization)
方法 1.丢弃一些特征,手工或者使用一些算法(如PCA) 2.正则化,保留特征,但是减少参数大小.正则化 高次项导致了过度拟合,所以只要将高次项的系数逼近为0的话,就可以拟合了,既在一定程度上减少参数θθ\theta的值. 其中λλ\lambda称为正则化参数(regularization parameter),根据惯例,不需要对θ0θ0\theta_0进行惩罚. 正则化线性...原创 2018-04-04 16:33:46 · 2123 阅读 · 0 评论 -
机器学习 线性回归
梯度下降实现线性回归 求导 最终算法: 多变量线性回归 基础知识 n 代表特征数量 x(i)x(i)x^{(i)}代表第i个训练实例,是特征矩阵中的第i行,是一个向量(vector) x(i)jxj(i)x^{(i)}_j代表特征矩阵中第i行的第j个特征,也就是第i个训练实例的第j个特征.多变量假设模型hθ(x)hθ(x)h_\theta(x) 也可以用向量表示...原创 2018-04-04 16:12:59 · 415 阅读 · 0 评论 -
机器学习实战(MachineLearinginAction) 第一章
机器学习包括了计算机科学,工程技术和统计学等多个学科.attributes(属性) features(特征)特征可以是数值型,二值型(真,假),枚举型训练集(training set) 测试集(test set)训练样本(training examples) 目标变量(target variable)分类(classification) 回归(regression) ...原创 2018-03-12 11:01:25 · 412 阅读 · 0 评论 -
数据挖掘
机器学习 基础知识 机器学习 线性回归 机器学习 过度拟合 机器学习实战(MachineLearinginAction) 第一章机器学习实战(MachineLearinginAction) 第二章 k-近邻算法机器学习实战(MachineLearinginAction) 第三章 决策树朴素贝叶斯(naive Bayes) 朴素贝叶斯(naive Bayes) 二Logist...原创 2018-03-12 13:30:59 · 1371 阅读 · 0 评论 -
机器学习实战(MachineLearinginAction) 第二章 k-近邻算法
k-近邻算法(k-Nearest Neighbors,KNN) 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度,空间复杂度高 适用数据范围:数值型(numeric values)和标称型(nominal values)伪代码 1.计算已知类别数据集中的点与当前点之间的距离 2.按照距离递增次序排序 3.选取与当前点距离最小的k个点 4.确定前k个点所在类别的出现频...原创 2018-03-12 14:12:26 · 359 阅读 · 0 评论 -
机器学习实战(MachineLearinginAction) 第三章 决策树
决策树(decision tree)很流行的一个原因就是对机器学习算法的知识要求很低.决策模块(decision block) 终止模块(terminating block):表示已经得出结论,可以终止运行 分支(branch)连接决策模块或终止模块.有点:计算复杂度不高,易于理解,对中间值的缺失不敏感,可处理不相关特征数据. 缺点:可能会产生过度匹配问题. 使用数据类型:数值型和...原创 2018-03-12 14:34:59 · 405 阅读 · 0 评论 -
朴素贝叶斯(naive Bayes)
有点:数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据准备方式比较敏感 适用数据类型:标称数据朴素贝叶斯(Naive Bayes) 贝叶斯决策理论(Bayesian decision theory) 条件概率(conditional probability) 文本分类(document classification) 独立(independence)朴素贝叶斯一...原创 2018-03-14 15:06:44 · 637 阅读 · 0 评论 -
神经网络
神经网络可以解决当特征太多,计算负荷过大的问题.比如在处理图像问题时,一张图片每一个像素都是一个特征,用神经网络就比较合适. 神经网络起源于80~90年代,但是在90年代后期就减少了.而现在神经网络又再次兴起,原因是计算机运行速度变快,解决了神经网络计算量偏大的问题. 每个神经元都可以被认为是一个处理单元/神经核(processing unit/ Nucleus),它含有许多输入/树突(inp...原创 2018-04-08 11:59:19 · 453 阅读 · 0 评论 -
神经网络(二)
训练样本有m个,输入为x,输出为y,L表示神经网络的层数,SlSlS_l表示每层neuron个数,SLSLS_L表示输出层神经元个数,k也可以表示为输出层神经元的个数. 相比逻辑回归里的代价函数,其实就是多了多分类加和.梯度下降法,使得代价函数最小 神经网络总结 ...原创 2018-04-16 10:10:10 · 317 阅读 · 0 评论 -
机器学习 基础知识
m 代表训练集(training set)中实例的数量 x 代表特征(feature)/输入(input) 变量 y 代表目标(target)/输出(output) 变量 (x,y) 代表训练集中的实例 (x(i),y(i))(x(i),y(i))(x^{(i)},y{(i)})代表第i个观察实例 h代表学习算法的模型,也称假设(hypothesis),hθ(x)=θ0θ1xhθ(x)=...原创 2018-04-04 14:15:49 · 865 阅读 · 0 评论 -
Logistic回归
二元分类问题 因变量(dependant variable)可以分为两个类,负向类(negative class)和正向类(positive class),既因变量y∈{0,1}y∈{0,1}y\in\{0,1\}线性回归也可以预测,分类问题,但是由于线性是两边无限延伸的,所以不太合适. 上图中,这样的线性模型似乎能很好的完成分类任务.但假设我们又观测到了一个非常大的恶性肿瘤,将他作为...原创 2018-03-15 11:26:57 · 332 阅读 · 0 评论