
数据挖掘
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
推荐算法工程师必备!!!协同过滤推荐算法总结
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种:1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独原创 2020-05-18 16:15:55 · 920 阅读 · 0 评论 -
了解数据挖掘
1763 年,Thomas Bayes 的论文在他死后发表,他所提出的 Bayes 理论将当前概率与先验概率联系起来。因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础。1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回归确定了天体(彗星和行星)绕行太阳的轨道。回归分析的目标是估计变量之原创 2016-10-27 09:13:26 · 1113 阅读 · 0 评论 -
数据挖掘之数据预处理
为了解决毕设,还是要学习一个数据预处理的知识。数据清洗 把逻辑上明显不对的数据样本人为地去除 把缺失过多的字段去除 解决过拟合 增大样本量 增加正则化 数据采样 保证正负样本的均衡性,也就是正负样本比例不可太大,如果样本不均衡,比如10:1,可以把每一份的正样本与负样本形成分类器,最后进行bagging。 特征处理 one-hot编码,比如颜色属性包括红黄蓝,...原创 2019-04-05 16:01:42 · 792 阅读 · 0 评论 -
sklearn中的train_test_split函数
train_test_split函数用于将数据集随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参数解释:t...原创 2019-04-15 12:03:41 · 812 阅读 · 0 评论 -
sklearn中的Linear_model的score函数讲解
注意这里的X是test集中的属性,y是test集中的标签(而不是预测出的结果!!!)原创 2019-04-15 13:13:24 · 16279 阅读 · 0 评论 -
威斯康星大学乳腺癌肿瘤数据预测分类代码讲解
原创 2019-04-15 13:25:01 · 4122 阅读 · 0 评论 -
kaggle数据挖掘竞赛Home Credit Default Risk讲解
1.从常理来说这种预测的结果应该是0,1,也就是分为欺诈和不欺诈两种,一般衡量指标为accuracy,但是如果这样会有缺点,因为可以预测所有人都是不欺诈的,这时accuracy的值就会很大,但这样的方案无法应用。所以这里把预测的结果写为连续,这样衡量指标就可以主要用ROC,AUC和F1 Score作为衡量指标,也更准确了。2.EDA(Exploratory Data Analysis)探索...原创 2019-06-11 17:14:11 · 2222 阅读 · 0 评论