张月鹏-优快云博客

原创 xgboost 使用 MAE或MAPE 作为目标函数

xgboost目标函数首先我们知道xgboost支持自定义目标函数，参见：https://github.com/dmlc/xgboost/blob/master/demo/guide-python/custom_objective.py但是其要求目标函数必须二阶可导，我们必须显式给出梯度（可理解为一阶导）和hess阵（可理解为二阶导），但是MAE不可导。具体xgboost的原理的我

2018-01-30 16:21:40 7971

原创类别特征处理与实体嵌入

常见的类别特征处理方法one-hot （太经典这里不再介绍）histgram 映射Entity Embeddings（实体嵌入）histgram 映射比如我们根据人们的一些身体特征来预测这个人会不会得糖尿病其中有一个类别特征为男或者女，这时候我们如何对这个特征进行映射处理呢。按照histgram 的处理方式，会按照预测的类别的占比来标注属性。也是假如有这样一个统计列

2018-01-07 22:42:33 6897 2

原创 java.io.IOException: No FileSystem for scheme: file spark hadoop

在spark实例程序中报错：No FileSystem for scheme: file

2017-11-23 16:43:12 4572 1

原创 Prophet（预言者）facebook时序预测----论文总结以及调参思路

一篇关于Prophet论文总结以及调参思路的总结

2017-10-30 22:17:06 19134

原创 kafka consumer 如何设置每次重启时从最新数据开始读取

最近在做实时报警的机制，显然我需要程序每次重启时都读取最新数据。但是寻找了半天无论是kafka的java客户端还是python客户端都没有这样的设置参数。没办法只能自己实现了，思路有两种。

2017-10-25 16:22:53 16562

原创 ImportError: cannot import name activity_l2

在学习fast.ai第一课运行代码就会报错：ImportError: cannot import name activity_l2，这是因为最新版本的keras已经不再提供activity_l2接口，最简单的方式大家可以使用命令：pip install keras == 1.2.2将版本退回到1.2.2 。

2017-09-19 15:11:10 3798

原创 Andrew Ng(吴恩达) deep learning 课程 (coursera)

引言前段时间 Andrew Ng(吴恩达)在 Coursera 开设了深度学习的课程，正如 Andrew 在 Coursera 上的机器学习课程一样，Andrew 总是面向零基础的工程师来授课，而不是有专业背景的人员。所以课程总是会力求直观且应用性强，但是往往对专业从事机器学习的人员来看略显简单，但是大牛对事物的理解还是值得参考的，所以我把课程中自己学到的要点记录如下。第一课：神经网络...

2017-09-16 10:16:10 8101

原创离群点检测与序列数据异常检测以及异常检测大杀器-iForest

异常检测，它的任务是发现与大部分其他对象不同的对象，我们称为异常对象。异常检测算法已经广泛应用于电信、互联网和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。这些异常对象的主要成因有：来源于不同的模式、自然变异、数据测量以及随机误差等。而常见的异常检测算法都是针对独立的数据点进行异常检测，此时异常检测又称为离群点检测。而在序列数据的异常检测过程中，我们既可以直接使用对序列进行异常检测的算法，也可以先对序列数据进行特征提取然后转化为传统的离群点检测。

2017-08-16 20:21:59 13513

原创 pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

我所了解到的，将json串解析为DataFrame的方式主要有一样三种：利用pandas自带的read_json直接解析字符串利用json的loads和pandas的json_normalize进行解析利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)

2017-07-30 18:25:03 50393 5

原创 sklearn(scikit-learn) logistic regression loss(cost) function（sklearn中逻辑回归的损失函数）

讲述 sklearn 中逻辑回归的损失函数为什么与常见的形式不同。

2017-05-23 00:26:45 5102 1

原创 xgboost 参数 scale_pos_weight 详解

从官网解说、源码和实验三个角度来解说 xgboost 参数： scale_pos_weight

2017-05-16 12:42:56 42290 17

原创携程-出行产品未来14个月销量预测-第七名代码解读

本文简短介绍了我们团队-小月亮团队的解决方案，以及源码地址。还有top3队伍的解决思想

2017-05-16 00:04:51 4693 1

原创《TensorFlow实战》与《TensorFlow实战Google深度学习框架》对比认识

研究生的毕业论文提交以后，有了一定的闲暇时间就读了最近刚出版的两本介绍 TensorFlow 的书籍《TensorFlow实战》和《TensorFlow实战Google深度学习框架》。以下是我对两本书的对比认识，希望对打算买书的人有所参考。

2017-05-05 20:12:31 20658

原创深度学习（deep learning）优化调参细节（trick）

深度学习中的优化调参细节总结

2017-04-22 23:00:10 14051

原创模型融合-Kaggle Ensembling Guide

本文主要是参考 Kaggle Ensembling Guide 所写的读后感，原文网址详见：https://mlwave.com/kaggle-ensembling-guide/首先，我们讲到的模型融合的方式主要有三种：bagging （随机森林模型是基于bagging融合的代表）boosting （GBDT和XGboost模型是基于boosting融合的代表）stacking

2017-04-11 19:22:10 7863

原创 Windows+python安装xgboost（fix windowerror-127）

Windows安装xgboost（绝对最靠谱，没有之一）话不多说，今天看一个python源码用到了xgboost，而安装xgboost本来是比较简单的，遇到坑了，最后终于顺利安装完毕。

2017-03-26 18:52:24 908 1

原创浅议深度学习

浅议深度学习从2012年开始，深度学习无论是在学术界还是在工业界都引起了极大的关注，深度学习应该说是代表了AI的最高成果，那么深度学习为什么这么火，让我们来一探究竟。从机器学习到深度学习learning让人一听就是高大上的感觉，但是大部分做的东西其实与数据挖掘无异。机器学习最经典的用法大部分都是从数据中挖掘出一些潜在的规律，这些东西主要包括监督学习（主要包括分类和回归的方法）以及无监督学习（主要包括

2016-08-05 20:16:35 935

原创 kafka offset 如何保证三种语义传递

kafka 提供三种语义的传递： 1至少一次 2至多一次 3精确一次首先在 producer 端保证1和2的语义是非常简单的，至少一次只需要同步确认即可（确认方式分为只需要 leader 确认以及所有副本都确认，第二种更加具有容错性），至多一次最简单只需要异步不断的发送即可，效率也比较高。

2016-06-30 10:07:51 5625

张月鹏的博客