- 博客(38)
- 资源 (3)
- 收藏
- 关注
原创 Kaggle滑水 - CTR预估(FM_FFM)
本文继续以Avazu-CTR赛题为背景,尝试采用FM(Factorization Machine,因子分解机)及FFM(Field-aware Factorization Machine,场感知因子分解机)来进行CTR预估任务。本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.概念商用推荐场景中的CTR预估工作易面临大规模稀疏数据的挑战...
2018-06-15 11:31:17
2575
1
原创 Kaggle滑水 - CTR预估(GBDT-LR)
本文继续以Avazu-CTR赛题为场景,采用GBDT(梯度提升树)与LR(逻辑回归)相结合的方法来完成CTR预估任务;本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.GBDT-LR方案集成模型如GBDT、XGBoost等,可被用于原始特征的转换与组合,从而自动构建出新的特征用于改进数据挖掘任务。这里,我们采用业界常用的GBDT-LR方...
2018-06-15 11:30:18
4135
原创 Kaggle滑水 - CTR预估(LR)
下面,我们结合Kaggle赛题:Avazu:Click-Through Rate Prediction,练习数据挖掘技术在CTR预估中的应用。本文内容包括赛题任务简析,以及基于LR(逻辑斯蒂回归)的初步实现。本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.任务概述CTR(Click Through Rate,点击率),是“推荐系统...
2018-06-15 11:28:47
2031
3
原创 Kaggle滑水 - 泰坦尼克之灾(决策树)
本文以Kaggle新手习题——Titanic: Machine Learning from Disaster为场景开展实验,以此熟悉Kaggle平台。本文的源码托管于我的Github:Practice-of-Machine-Learning/code/Kaggle_Titanic/,欢迎查看交流。1.任务概述Titanic: Machine Learning from Disa...
2018-04-26 11:52:56
1573
原创 深度学习基础 - 对象检测(CNN+滑窗+YOLO)
本文以自动驾驶场景下的对象检测(Object Detection)为研究对象,学习理解滑窗卷积和YOLO等内容。1.对象检测对象检测(Object Detection)的目的是”识别对象并给出其在图中的确切位置”,其内容可解构为三部分:识别某个对象(Classification);给出对象在图中的位置(Localization);识别图中所有的目标及其位置(Detecti...
2018-04-20 17:11:03
6887
3
原创 深度学习基础 - MNIST实验(tensorflow+CNN)
深度学习基础 - MNIST实验(Tensorflow-CNN)本文的完整代码托管在我的Github PnYuan - Practice-of-Machine-Learning - MNIST_tensorflow_demo,欢迎交流。1.任务背景这里,我们拟通过搭建卷积神经网络(CNN)来完成MNIST手写数字识别任务,关于MNIST任务的相关内容可参考前文深度学习基础 - ...
2018-03-17 12:07:53
2488
原创 深度学习基础 - MNIST实验(tensorflow+MLP)
采用MLP(多层感知机)模型进行mnist分类任务,尝试Adam、Dropout等训练策略。本文的完整代码托管在我的Github PnYuan - Practice-of-Machine-Learning - MNIST_tensorflow_demo,欢迎交流。1.任务背景在前一篇深度学习基础 - MNIST实验(tensorflow+Softmax)的基础上,我们进一步引入ML...
2018-03-15 16:43:17
2064
原创 深度学习基础 - MNIST实验(tensorflow+Softmax)
基于tensorflow开发框架,搭建softmax模型完成mnist分类任务。本文的完整代码托管在我的Github PnYuan - Practice-of-Machine-Learning - MNIST_tensorflow_demo,欢迎访问。1.任务背景1.1.目的以MNIST手写数字识别为课题,研究基本深度学习方法的应用。本文先从Softmax模型切入,以熟悉t...
2018-03-15 16:38:44
1066
原创 周志华《机器学习》课后习题解答系列(七):Ch6 - 支持向量机
本章学习了支持向量机。基础知识部分包括SVC、软间隔、核技巧、SVR等,实践部分涉及了SVM、SVR的实现。
2017-07-25 17:00:48
11211
1
原创 天池离线赛 - 移动推荐算法(四):基于LR, RF, GBDT等模型的预测
本文讨论如何基于模型来进行预测,使用的模型包括逻辑回归(LR)、随机森林(RF)、梯度迭代提升树(GBDT)。.
2017-07-22 22:47:03
21599
24
原创 周志华《机器学习》课后习题解答系列(七):Ch6.3 - SVM对比实验
采用UCI-Breast Cancer数据集进行分类实验,对比分析了SVM/BP网络/C4.5决策树...
2017-07-06 11:17:57
5183
原创 周志华《机器学习》课后习题解答系列(七):Ch6.2 - 支持向量分析实验
支持向量机拟合实验,比较不同核函数下支持向量的差别,实验基于sklearn完成。
2017-07-05 10:11:46
3926
4
原创 Hadoop环境搭建(ubuntu+hadoop2.7 - 伪分布式)
简要回顾了Hadoop的基本知识,介绍了基于Ubuntu的Hadoop伪分布式环境搭建。
2017-05-22 22:28:16
3102
原创 天池离线赛 - 移动推荐算法(一):题目与数据解析
移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用户-商品行为数据为基础来构建商品推荐模型。该题现已成为新人入门的经典演练对象,博主也希望基于该题场景,加深对机器学习相关知识的理解,积累实践经验。题目回顾关于题目和数据的介绍可访问天池官网中的:离线赛(移动推荐算法)-赛题与数据业务场景 在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推...
2017-05-17 23:10:16
17540
9
原创 周志华《机器学习》课后习题解答系列(六):Ch5.10 - 卷积神经网络实验
本文基于python-theano实现了一个CNN模型,并用以解决MNIST手写字符识别实验(多分类)。
2017-05-12 08:41:47
17903
原创 深度学习基础 - 基于Theano-MLP的字符识别实验(MNIST)
本文面向著名的“MNIST字符识别”问题,基于theano实现了一个简单的MLP模型,并在此基础上开展了字符识别实验并进行了总结。
2017-05-10 16:37:24
2870
原创 周志华《机器学习》课后习题解答系列(六):Ch5.6 - BP算法改进
引入“动量项+自适应学习率”来进行BP算法改进,采用iris数据集进行了改进前后对比实验。
2017-04-27 11:06:27
12777
14
原创 周志华《机器学习》课后习题解答系列(六):Ch5.5 - BP算法实现
基于pybrain包分别实现标准BP算法与累积BP算法,进行了结果比较。
2017-04-18 17:43:18
9048
1
原创 周志华《机器学习》课后习题解答系列(五):Ch4 - 决策树
本章讲述决策树的相关内容,包括决策树的生成,剪枝,连续值、缺失值的处理,多变量决策树等内容。
2017-04-06 11:18:15
13903
2
原创 周志华《机器学习》课后习题解答系列(五):Ch4.4 - 编程实现CART算法与剪枝操作
基于训练集构建的完全决策树易陷入过拟合,为提升模型泛化能力,通常需要对树进行剪枝。此处基于基尼系数构建出决策树(CART算法),然后编程实现预剪枝和后剪枝操作,最后分析比较了他们的作用。
2017-04-05 09:49:55
7945
7
原创 周志华《机器学习》课后习题解答系列(五):Ch4.3 - 编程实现ID3算法
这里采用了自己编程的方式实现ID3算法,并基于西瓜数据集生成了决策树,评估了其好坏。
2017-04-03 14:38:08
12714
2
原创 概率图模型基础 - 贝叶斯网络参数学习(贝叶斯估计+碎权更新法)
贝叶斯网络是一种性能优秀的不确定推理方法。本文考虑整合专家知识,在数据驱动的大思路下进行贝叶斯网络的参数学习。通过分析贝叶斯估计的实现过程来给出完整数据样本下的参数学习方法,同时引入碎权更新法来应对数据缺失的挑战。
2017-03-26 17:06:34
16480
1
原创 周志华《机器学习》课后习题解答系列(四):Ch3 - 线性模型
本章讲述线性模型,包括线性回归、对率回归、线性判别分析、多分类、类别不平衡等内容。课后练习开始涉及编程实现。
2017-03-22 16:48:48
17296
8
原创 周志华《机器学习》课后习题解答系列(四):Ch3.5 - 编程实现线性判别分析
本系列主要采用Python-sklearn实现,环境搭建可参考 数据挖掘入门:Python开发环境搭建(eclipse-pydev模式).相关答案和源代码托管在我的Github上:PnYuan/Machine-Learning_ZhouZhihua.3.5 编程实现线性判别分析(LDA) 本题采用题3.3中的西瓜数据集如下图示: 这里采用基于sklearn和自己...
2017-03-21 16:32:21
9427
16
原创 周志华《机器学习》课后习题解答系列(四):Ch3.4 - 交叉验证法练习
3.4 比较k折交叉验证法与留一法。本题采用UCI中的 Iris Data Set 和 Blood Transfusion Service Center Data Set,基于sklearn完成。
2017-03-20 19:30:00
8584
1
原创 周志华《机器学习》课后习题解答系列(四):Ch3.3 - 编程实现对率回归
这里采用Python-sklearn的方式,环境搭建可参考 数据挖掘入门:Python开发环境搭建(eclipse-pydev模式).相关答案和源代码托管在我的Github上:PY131/Machine-Learning_ZhouZhihua.思路概要编程实现对率回归: * 采用sklearn逻辑斯蒂回归库函数实现,通过查看混淆矩阵,绘制决策区域来查看模型分类效果; * 自...
2017-03-19 13:53:42
20534
7
原创 周志华《机器学习》课后习题解答系列(三):Ch2 - 模型评估与选择
本章概要本章讲述了模型评估与选择(model evaluation and selection)的相关知识:2.1 经验误差与过拟合(empirical error & overfitting) 精度accuracy、训练误差(经验误差)training error(empirical error)、泛化误差**generalization error、过拟合**overf...
2017-03-15 22:21:30
23174
9
原创 数据挖掘入门:Python开发环境搭建(eclipse-pydev模式)
数据挖掘入门:Python-sklearn开发环境搭建(Eclipse-pydev模式)为便于使用Python进行机器学习与数据挖掘的学习,先安装sklearn等常用库。然后搭建出集成开发环境。由于之前常采用Eclipse IDE来开发C/C++和Java,故先考虑搭建Eclipse-pydev环境来学习使用Python。
2017-03-10 22:49:17
3621
数字手势数据集(Coursera - Deep Learning)
2017-10-04
[Psychson-master] BadUSB制作工程源代码
2016-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人