
机器学习实战
小智rando
这个作者很懒,什么都没留下…
展开
-
机器学习实战:信用卡欺诈行为检测
大概内容1、解决数据不平衡的两个方式下采样(Undersampling):随机删除具有足够观察多样本的类,以便数据中类的数量比较平衡。虽然这种方法非常简单,但很有可能删除的数据中可能包含有关预测的重要信息。过采样(Oversampling):对于不平衡类(样本数少的类),随机地增加观测样本的数量,这些观测样本只是现有样本的副本,虽然增加了样本的数量,但过采样可能导致训练数据过拟合。合成取...原创 2019-04-21 22:24:47 · 1395 阅读 · 0 评论 -
数据预处理的一些操作(一)
做了个房价预测的模型,其中数据预处理部分占了很多工作量,说一下其任务流程:(一):分析数据指标不同指标对结果的影响*特征相关性连续值与离散值的情况*boxplot(二):观察数据正太性(符合大部分人群的指标)如地皮面积很大,价格却很低,这是比较偏离普遍性的情况,通过观察正太分布分析数据是否满足正太分布*偏度*QQ图*正太分布图数据倾斜的处理*样本正太分...原创 2019-04-27 21:46:31 · 1919 阅读 · 0 评论 -
时间序列之模型优化
1、差分.diff(1)一阶差分:pd[‘diff_1’] = pd[‘row’].diff(1) #对列数据做差分2、ACF和PACF的绘制importstatsmodels.api assmdef tsplot(y, lags=None, title=’’, figsize=(14, 8)):fig = plt.figure(figsize=figsize)layout = (...原创 2019-04-24 20:16:39 · 7052 阅读 · 0 评论 -
音乐推荐系统
推荐系统音乐数据处理基于商品相似性的推荐基于SVD矩阵分解的推荐1、数据概况:在数据中有用户,歌曲,播放量shape:(48373586, 3)memory usage: 1.1+ GB2、数据处理:(1)对每一个用户,分别统计他的播放总量key:用户value:播放量查询该用户是否在字典中,若在则更新value,否则新用户加入字典数据中会存在很多惰性用户,行为量...原创 2019-06-25 13:24:49 · 6198 阅读 · 11 评论 -
基于surprise库的推荐系统
surprise官网:http://surprise.readthedocs.io/en/stable/index.htmldateset:http://files.grouplens.org/datasets/movielens/ml-100k-README.txtfrom surprise import KNNBasic,SVDfrom surprise import Datasetf...原创 2019-06-25 15:16:01 · 1531 阅读 · 4 评论 -
基于tensorflow的隐语义推荐系统
使用Tensorflow构造隐语义模型的推荐系统3900 个电影6,040个用户数据简介: http://files.grouplens.org/datasets/movielens/ml-1m-README.txt数据下载地址:http://files.grouplens.org/datasets/movielens/ml-1m.ziphttp://www.lfd.uci.edu/~g...原创 2019-06-25 17:37:50 · 567 阅读 · 0 评论 -
AdaBoost-code
link创建一个Adaboost_Demonstration类:初始化参数:学习率,权重=1/Nclass Adaboost_Demonstration: def __init__(self, X, y, learning_rate=1.): """ 输入的X为N*2矩阵, y为一维向量, y的值只能取1或-1 :param X: 数据点...原创 2019-08-22 14:29:02 · 190 阅读 · 0 评论