- 博客(20)
- 收藏
- 关注
原创 iforest
features_list_tb = []times = 41# 环比特征for d in range(1, times): feature_name = 't' + str(d) data_tb = data[['ts', 'value']].rename(columns={'value': feature_name}) data_tb['ts'] = data_t...
2019-02-02 09:45:46
347
转载 教你成为全栈工程师(Full Stack Developer) 三十四-基于python的高效中文文本切词
http://www.shareditor.com/blogshow/?blogId=47
2018-11-06 16:35:48
345
转载 TF-IDF
http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html
2018-11-02 20:28:23
101
转载 python源码
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction
2018-11-02 18:33:56
268
转载 XGBOOST
http://mlnote.com/2016/10/05/a-guide-to-xgboost-A-Scalable-Tree-Boosting-System/
2018-08-28 10:18:58
124
转载 GBDT源码
https://github.com/RRdmlearning/Machine-Learning-From-Scratch/tree/master/gradient_boosting_decision_treehttp://www.dmlearning.cn/single/a5bf33e7b2c44e499a1cb7b2d5f8fbfa.html https://github.com/...
2018-08-18 17:42:35
351
原创 xgboost
https://blog.youkuaiyun.com/github_38414650/article/details/76061893目标要求预测误差尽量小,叶子节点尽量少,节点数值尽量不极端(这个怎么看,如果某个样本label数值为4,那么第一个回归树预测3,第二个预测为1;另外一组回归树,一个预测2,一个预测2,那么倾向后一种,为什么呢?前一种情况,第一棵树学的太多,太接近4,也就意味着有较大的过拟...
2018-07-31 15:37:27
382
原创 集成学习
团队合作多个分类器集合,每个分类器抓住不同特征,就像打游戏一样,需要射手,法师,坦克。复杂模型往往容易高方差,低偏差bagging 适应于复杂模型,过拟合,多个分类器好的进行组合随机森林: 行采样,列采样,有放回的取样 没有办法更好的去fit函数 Boosting: 一个原则:可以使分类错误率高过50%的分类器达到错误率0%的情...
2018-07-31 14:31:29
219
原创 DBSCAN
https://blog.youkuaiyun.com/zdy0_2004/article/details/72953531https://blog.youkuaiyun.com/lishuhuakai/article/details/53980517import numpy as npimport pandas as pdfrom sklearn.cluster import DBSCANimport ...
2018-07-27 18:24:09
661
原创 聚类算法
一、简单的聚类算法 KNN K-means二、层次聚类 将每个样本视为一类,进行合并,最终聚为k类。 将所有样本视为一类,进行分裂,最后分裂为k类。三、密度聚类 1、优点:克服基于距离聚类发现的类圆问题,发现任意形状聚类,对噪声不敏感 2、缺点:计算复杂度大 DBSCAN J...
2018-07-25 17:54:05
150
原创 完成订单分析
SELECT brands_id, total_ord, total_user, total_amt, total_amt * 1.0 / total_ord as avgfrom ( SELECT brands_id, chan_cd, count(DISTI...
2018-07-25 16:49:54
677
原创 SQL读取数据2
统计粉丝情况SELECT brands_id, count(DISTINCT pin) as 粉丝数from ( SELECT a.brands_id, b.created_time, b.pin from ( ...
2018-07-25 16:49:25
365
原创 SQL读取数据1
成交量,成交人数,成交价格SELECT brands_id as 品牌代号, brand_nm as 品牌名称, total_ord_amt as 完成订单金额, total_sale_order as 完成订单数量, total_usr as 成交用户数, total_ord_amt * 1.0 / total_sale_order as 客单...
2018-07-25 16:48:34
320
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人