
机器学习
charie411
这个作者很懒,什么都没留下…
展开
-
Logistic Regression
Logistic Regression干什么用解决二分类问题。优点是对数据不进行分布假设,模型简单。思路原理是线性回归模型的预测值zzz经过单调可微的Logistic函数(sigmoid函数)映射到y^\hat{y}y^,进而根据阈值可以判断分类标记y。其中Logistic函数(sigmoid函数)y^=1/(1+exp−z)\hat{y}=1/(1+\exp^{-z})y^=1/...原创 2019-08-27 18:54:54 · 213 阅读 · 0 评论 -
神经网络学习
神经网络学习深度学习→一类通过多层非线性变换对高复杂性数据建模算法的合集。一 基于TensorFlow搭建神经网络3个步骤定义神经网络的结构和前向传播的输出结果,比如输入x、输入层/输出层权重系数w1/w2,前向传播的输出y=(xw1)w2y=(xw_1)w_2y=(xw1)w2定义损失函数以及选择反向传播优化的算法,以交叉熵为损失函数,反向传播更新输入层/输出层系数生成会话并在...原创 2019-08-29 18:10:27 · 255 阅读 · 0 评论 -
分类器性能指标:混淆矩阵、ROC曲线和AUC
ROC曲线和AUC混淆矩阵真正例率TPR=TP/(TP+FN)假正例率FPR=FP/(TN+FP)ROC和AUC根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出FPR和TPR,分别作为横纵坐标,得到ROC曲线。进行学习器性能比较时,比较ROC曲线下的面积即AUC。...原创 2019-08-30 12:56:46 · 868 阅读 · 0 评论 -
模型调参与性能优化
模型选择与调参给定学习任务,有包含m个样例的数据集D=(x1,y1),(x2,y2),...,(xm,ym)D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}D=(x1,y1),(x2,y2),...,(xm,ym),我们可以选择不同的算法,而同一算法也可以配置不同的参数,从而得到不同的模型。选取模型的问题等价于寻找泛化误差最小的模型。我们将数据集划分为2个部...原创 2019-09-05 08:54:04 · 1126 阅读 · 0 评论 -
文本挖掘
自然语言处理是计算机对语言信息进行处理的方法和技术。应用范围包括文本分类、情感分析(如政府舆情分析)、自动摘要等。中文文本挖掘流程预处理部分中文英文是否处理编码问题document.decode(‘GBK’)不需要待处理非文本内容1.中英文标点 2.HTML标签1.标点 2.大小写 3.拼写错误分词:基于语料库的统计概率,最大化联合分布概率所对应的分...原创 2019-09-12 16:54:44 · 750 阅读 · 0 评论