
机器学习
文章平均质量分 66
Watch_dou
一名算法工程师,欢迎交流,由于比较忙,来不及回复评论,有事可以私戳我
展开
-
关于最大熵原理的理解
李航老师《统计学习方法》一书描述:最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。以上描述,读完一遍蒙圈,即使读了100遍可能还存在疑问。熵越小不是越确定嘛,咋就整成熵越大越好?为啥选择熵越大的模型?...原创 2020-03-23 22:01:40 · 1687 阅读 · 0 评论 -
集成算法之CatBoost参数解释
参考1Catboost基础介绍作者介绍的很详细了,包括:安装Pool/FeaturesData(内存和速度都更优)CaseVisualization(fit时settingplot=True,实时观测训练情况)Early Stopping策略(防止过拟合、节约训练时间)Feature-Importance value&Visualization outputCV(Cro...原创 2019-11-10 10:42:43 · 2666 阅读 · 0 评论 -
数据降维PCA
主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法,早在1901年卡尔(Karl)与皮尔逊(Pearson)提出,应用于非随机变量,后经霍蒂林(Hostelling)将这个概念推广至随机向量。1. 简介PCA,就是找出多个多维变量之间的线性组合关系,用线性组合后的向量来代表新的维度,说明一下,这里新型组合后的向量之间是正交的,选择少数几个组合...原创 2019-10-22 22:38:57 · 602 阅读 · 0 评论 -
Python之K-means详细案例
#!/usr/bin/env python2.7# -*- coding: utf-8 -*-# from __future__ import division import requestsimpor...原创 2018-12-27 09:43:49 · 3855 阅读 · 0 评论 -
SVM原理推导
知其然,知其所以然,只知道皮毛,永远体会不了其中的伟大与微妙之处,犹如《生僻字》,头大。此处应有音乐。。。㙓茕茕孑立 沆瀣一气踽踽独行 醍醐灌顶绵绵瓜瓞 奉为圭臬龙行龘龘 犄角旮旯娉婷袅娜 涕泗滂沱呶呶不休 不稂不莠卬咄嗟 蹀躞 耄耋 饕餮囹圄 蘡薁 觊觎 龃龉狖轭鼯轩 怙恶不悛其靁虺虺 腌臢孑孓陟罚臧否 针砭时弊鳞次栉比 一张一翕推导begin:...原创 2018-12-22 21:18:02 · 831 阅读 · 0 评论 -
kNN源码解析
说明'''Created on 10,2019kNN: k Nearest Neighbors@author: Watch_dou(modifucations bases on pbharrin)'''import operatorimport matplotlib.pyplot as pltfrom numpy import *from os import listdir...原创 2019-10-11 01:00:51 · 935 阅读 · 0 评论 -
Bagging你真的懂吗
Bagging概念Bagging算法 (英语:Bootstrap aggregating,引导聚集算法),又称装袋算法,是一种重要的集成学习方法。最初由Leo Breiman于1996年提出。用途Bagging算法可用于分类、回归。优点提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。工作机理通过多次多轮的sampling with replacement,构建多...原创 2019-10-09 13:52:10 · 2681 阅读 · 2 评论 -
提升方法AdaBoost你真的懂吗
1. 来源提升(boosting)方法是一种常用的统计学习方法。其代表性的提升算法就是AdaBoost(Adaptive Boosting 自适应增强的缩写),AdaBoost算法是1995年由Yoav Freund和Robert Schapire提出。2. 思路AdaBoost基于思想:针对一复杂任务,综合多个专家判断得出的结论,好过其中任何一个专家的结论,类似“三个臭皮匠赛过诸葛亮”。...原创 2019-10-24 09:21:13 · 384 阅读 · 0 评论 -
风险等级进行评价与预测
主要内容1、数据批量读取整合 2、缺失值插补 3、数据深度分箱 4、聚类划分风险等级 5、聚类结果处理 6、构建贝叶斯网络,划分训练与测试集7:3,训练集上正确率99.80989%,测试集上正确率97.76786%codelibrary(readxl)packageVersion('readxl')setwd("C:/R/working/523/新建文件夹/新数据")...原创 2018-06-08 16:43:50 · 1842 阅读 · 0 评论 -
网红数据分析实例
用户基本分析library(data.table)library(dplyr)library(ggthemr)library(showtext)library(cluster)library(sqldf)library(NbClust)library(psych)library(VGAM)library(nnet)library(easyGgplot2)require(s...原创 2018-05-14 17:12:23 · 4648 阅读 · 0 评论 -
熵的通俗理解
上次说了有关熵、条件熵、相对熵、互信息的概念及其之间的关系。为了更好的了解熵,这次谈一谈熵的通俗理解。1. 公式及其含义 2.信息量 3. 由信息量想到的 4. 信息熵 1. 公式及其含义熵的公式:熵的含义:样本集合不纯度,熵越小,集合不纯度越低; 知识的不确定性,熵越小,不确定性越小; 系统的复杂度,熵越大,系统越复杂。(系统越复杂,出现不同情况越多,信息量越大,熵越大。)2.原创 2017-08-28 19:21:34 · 8148 阅读 · 0 评论 -
关联规则
1. 算法简介关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题原创 2017-11-13 20:15:55 · 2802 阅读 · 0 评论 -
决策树
1.简介1.1 干啥的?决策树是一个预测模型,决策树模型常常用来解决分类和回归问题; 做决策树的过程也是一个特征选择的过程,选择重要的特征先划分,何为重要?那就需要算法,后文说。1.2 代表什?对象属性与对象值之间的一种映射关系。啥啥啥,特征与结果的一种mapping;1.3 树啥样子?树中每个节点表示某个对象;每个分叉路径则代表的某个可能的属性值;每个叶结点则对应从根节点到该叶节点所经历的原创 2017-11-13 20:17:23 · 424 阅读 · 0 评论 -
xgboost: 速度快效果好的 boosting 模型
机器学习 ⊹ R 语言 转自统计之都 xgboost: 速度快效果好的 boosting 模型 何通 关键词:boosting; Gradient Boosting Machine; xgboost; 数据建模预测 本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家转载 2018-02-07 12:20:00 · 710 阅读 · 0 评论 -
推荐算法之关联规则实例
利用的知识深度分箱 Apriori算法 数据连接、聚合等处理数据说明本数据来源于last.fm的数据 数据包含:1892 users 17632 artists12717 bi-directional user friend relations, i.e. 25434 (user_i, user_j) pairs avg. 13.443 f...原创 2018-05-14 09:58:30 · 4473 阅读 · 3 评论 -
推荐算法之协同过滤实例
接着上次的数据进行协同过滤算法应用应用的知识python的surprise R数据构建 KNNBasic KNNWithMeans KNNWithZScore数据处理与算法# 协同过滤算法数据构建user_artist_sum_weight <- sqldf::sqldf('select userID,artistID, sum(weight) as play...原创 2018-05-14 10:10:32 · 2183 阅读 · 0 评论 -
推荐算法之矩阵分解实例
矩阵分解的数据利用的上篇文章的数据,协同过滤用到的知识python的surprise SVD SVDpp NMF算法与结果可视化# 可以使用上面提到的各种推荐系统算法from surprise import SVD,SVDpp,NMFfrom surprise import Datasetfrom surprise import print_perfimport...原创 2018-05-14 10:18:13 · 1164 阅读 · 6 评论 -
贝叶斯网络风险系统实例
应用的知识最优分段 主成分分析 贝叶斯网络 套袋算法 数据重命名、连接、聚合等等处理code#加载所需的包library(data.table)library(dplyr)library(psych)library(caret) library(smbinning) #设置工作路径setwd('D:\\R\\wokingdiretory\\work\\4_29'...原创 2018-05-14 10:36:30 · 2259 阅读 · 0 评论 -
决策树中的熵(一)
通俗介绍决策树中关于熵的理解,包括熵、条件熵、相对熵、互信息以及他们之间关系的推导,通俗理解(后文会继续)。本次只说他们之间的关系。1. 熵 2. 条件熵 3. 相对熵 4. 互信息 5. 相互关系1. 熵样本集合不纯度,熵越小,集合不纯度越低;知识的不确定性,熵越小,不确定性越小。(为什么?下期解说。)2. 条件熵H(X,Y)表示在已知随机变量X的条件下,随机变量Y的不确定性。(条原创 2017-08-27 11:43:30 · 8168 阅读 · 0 评论