
机器学习
cf_wu95
这个作者很懒,什么都没留下…
展开
-
数据挖掘面试 模型对比
决策树ID3优点:是理论清晰、方法简单、学习能力较强缺点:只能处理分类属性的数据,不能处理连续的数据;划分过程会由于子集规模过小而造成统计特征不充分而停止;ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。C4.5采用二分法对连续属性进行处理。先将特征取值排序,...原创 2019-03-16 16:25:17 · 317 阅读 · 0 评论 -
各类衡量指标总结
MAE(Mean Absolute Error) 平均绝对误差基础的评估方法,后面的方法一般以此为参考对比优劣。MSE(Mean Square Error) 平均平方差对比MAE,MSE可以放大预测偏差较大的值,可以比较不同预测模型的稳定性,应用场景相对多一点。RMSE(Root Mean Square Error) 方均根差 ...原创 2019-06-20 16:58:30 · 3548 阅读 · 0 评论 -
特征工程读书笔记
特征工程特征工程的前提是有足够多的数据,其次是从大量数据中提取关键信息并表示为模型所需要的形式。 特征工程分为三部分:特征构建(这是特征交叉的一部分,属于特征提取),特征提取和特征选择。参考https://www.cnblogs.com/wxquare/p/5484636.html特征提取特征工程的第一步是理解业务数据和业务逻辑。 我们需要将此信息表示为数值类型,即为特征抽取的过...原创 2019-05-26 21:09:26 · 324 阅读 · 0 评论 -
线性模型与非线性模型判别
线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的,例如logistics模型。 区分是否为线性模型:最简单判别一个模型是否为线性的,只需要判别决策边界是否是直线,也就是是否能用一条直线来划分 看一个乘法式子中自变量x前的系数w,如果w只影响一个x(注:应该是说x只被一个w影响),那么此模型为线性模型。(这时候是与神经网络进行对比,不是很准确,可以看下面LR) 机器学习中线性模型和...原创 2019-05-06 17:19:52 · 5712 阅读 · 0 评论 -
用户画像
用户画像是真实用户的虚拟代表。也就是用户信息标签化,给用户打标签(属性)。作用:和营销和推荐挂钩。怎么建立画像数据分为静态数据和动态数据。静态信息:用户相对稳定的信息,如性别,地域。动态数据:用户不断变化的行为信息,如浏览网页,搜索商品等。应用1.各种推荐系统。2.广告投放。3.用户需要什么,企业就生产啥,企业生产啥就卖给相应的用户...原创 2019-05-09 15:13:38 · 288 阅读 · 0 评论 -
如何判断使用lr和svm哪个效果好?
源自吴恩达的机器学习课程:n是数据中特征的数量 m是样本数1、如果n相对于m来说很大,或者跟样本数量差不多,则使用LR算法或者不带核函数的SVM(线性核函数)n远大于m,n=10000,m=10-10002、如果n很小,m的数量适中(n=1-1000,m=10-10000)使用带有核函数的SVM算法。一般使用高斯核3、如果n很小,m很大(n=1-1000,m=50000+)手动增加更...转载 2019-05-06 16:43:05 · 503 阅读 · 0 评论 -
降维
PCA判断降维维数:在判断降维的维数时,可以通过np.cumsum(var_exp)来判断要降多少维,var_exp表示排好序的特征值。求得的list表示前n个特征值的重要程度之和目的:投影后的投影的值尽可能分散,方差尽可能大。优化目标:将一组N维向量降为K维(K大于0,小于N),目标是选择K个单位正交基,使原始数据变换到这组基上后,各字段两两间协方差为0,字段的方差则尽可能大1....原创 2019-05-06 15:02:21 · 170 阅读 · 0 评论 -
Xgboost调参策略
Xgboost参数- 'booster':'gbtree',梯度提升决策树- 'objective': 'multi:softmax', 多分类的问题- 'num_class':10, 类别数,与 multisoftmax 并用- 'gamma':损失下降多少才进行分裂,这个需要调一下,越大越不易过拟合,但是模型性能会降低。- 'max_depth':12, 构建树的深度,越大越容...原创 2019-05-08 20:55:06 · 707 阅读 · 0 评论 -
支持向量机
1.支持向量机可以做多分类任务2.支持向量机可以通过核技巧将原始空间映射到高维,实际的计算是在低维空间完成的。这样的计算与在高维空间中直接进行求解结果是一致的。...原创 2019-05-05 17:17:27 · 142 阅读 · 0 评论 -
推荐系统
对于基于用户的协同过滤所存在问题的解决方案:相似度计算使用皮尔逊相似度 考虑共同打分的数目 对打分进行归一化 设置相似度阈值tip:1.在处理数据之前进行一波减均值的操作2.处理冷启动问题可以采取推荐排行榜单...原创 2019-05-05 09:45:06 · 179 阅读 · 0 评论 -
自然语言处理小项目-新闻分类
读入数据 使用结巴分词器进行分词 使用停词表进行过滤(例如哈工大停词表) 将过滤后的单词进行词频统计,生成词云(wordcloud) 可以根据jieba.analyse包使用对原始数据进行处理,提取出每条新闻的关键词。 使用gensim自然语言处理包对过滤后的数据进行处理,得到LDA主题模型(类似Kmeans自己指定主题数,返回主题和当前主题的关键字以及关键词的重要程度,例如:0.006...原创 2019-05-03 22:36:17 · 853 阅读 · 0 评论 -
GBDT与XGBOOT
总结:https://blog.youkuaiyun.com/legendavid/article/details/78904353GBDT1.Boosting的最大好处在于,每一步的残差计算其实变相地增大了分错instance的权重,而已经分对的instance则都趋向于0。这样后面的树就能越来越专注那些前面被分错的instance。(残差存在的意义,防止过拟合)2.Adaboost的方法被实...原创 2019-04-12 10:57:31 · 302 阅读 · 0 评论 -
逻辑回归求解
注意点:一般来讲,更多的迭代次数会使损失下降的更多。 随机梯度下降更快,但是我们相应的为了获得相应的结果需要迭代的次数也需要更多,所以还是用batch的比较合适!!! 注意要对数据进行打乱(shuffer)。 逻辑回归LR的特征为什么要先离散化对于年龄等特征首先应该离散化的原因:1.简化模型。计算简单。(原先是连续值,比如年龄,现在转换成1,2,3,4,5的离散值,计算简单...原创 2019-04-11 12:49:22 · 728 阅读 · 0 评论 -
数据挖掘类竞赛笔记
MSE损失函数惩罚损失力度更大,最好要用MSE来当损失函数而不是MAE.MSE、MAE对异常值进行处理。步骤:数据探索分析:1.数据基本情况,看是否有缺失值,各字段数据类型,数值型字段的统计分布等。2.观察数据集的密度曲线,看看以后是否需要对数据进行填补以及处理等。3.类别特征中不同取值下、目标变量的分布。(例如看这个特征对信用分的影响,比如看不看电影对信用分有没有影响)。...原创 2019-03-24 15:59:23 · 343 阅读 · 0 评论 -
网络挖掘(Graph Mining)
网络挖掘模型社交网络分析:Pandas+Matplotlib。推荐系统:大概率余弦相似性、协同过滤。风控:LR(逻辑回归)、XGBoost这些成熟的模型占据。搜索引擎、知识图谱、城市计算。用处链路预测(最短路径) 关键节点挖掘(寻找权威节点) 网络遍历(搜索与检索) 社区发现(组群画像) 相似节点挖掘(相似性推荐)...原创 2019-03-22 21:43:08 · 2295 阅读 · 0 评论 -
竞赛笔记
全球城市计算AI挑战赛信息训练:开放了20190101至20190125共25天地铁刷卡数据记录,共涉及3条线路81个地铁站约7000万条数据作为训练数据(Metro_train.zip),供选手搭建地铁站点乘客流量预测模型。 训练数据(Metro_train.zip)解压后可以得到25个csv文件,每天的刷卡数据均单独存在一个csv文件中,以record为前缀。如2019年1月1日...原创 2019-03-25 22:30:16 · 357 阅读 · 0 评论 -
seq2seq相关资料加重点总结
RNN/LSTMRNNTO LSTM:https://www.cnblogs.com/jiangxinyang/p/9362922.html1.U,W,V这三个矩阵就是我们的模型的线性关系参数,它在整个RNN网络中是共享的。也正是因为是共享的,它体现了RNN的模型的“循环反馈”的思想。RNN Encoder-Decoder and GRU链接地址:https://zhuanl...转载 2019-07-08 14:37:10 · 248 阅读 · 0 评论