
机器学习
文章平均质量分 83
lee_沐
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
KNN(一)
对机器学习实战这本书的KNN部分进行整理,代码分两部分,一部分是myKNN.py,包含了所需的函数,另一部分是myKNN_run.py,对所需函数进行调用。python版本为3.X。 myKNN.py: # coding: utf-8 # In[3]: from numpy import * import operator import os def classify0(inX, d...原创 2019-02-14 19:09:09 · 708 阅读 · 0 评论 -
LightGBM(二):参数微调
一、有关leaf_wise tree的参数 Parameters 含义 用法 num_leaves 这是控制树模型复杂度的主要参数,理论上,我们可以设置num_leaves = 2^(max_depth)来获得与深度树相同数量的叶子。然而,这种简单的转换在实践中并不好。原因是,对于固定数量的叶子,叶型树通常比深度型树要深得多。无约束深度会引起过拟合。因此,当尝试优化num_...原创 2019-09-26 16:47:44 · 726 阅读 · 0 评论 -
推荐系统(一)
目录 1、基于内容的推荐算法: 2、协同过滤算法(CF): 3、基于知识的推荐算法 推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。 1、基于内容的推荐算法: 是什么:根据用户以往评价过或访问过的的物品属性对用户的兴趣建模,也可以说用户喜欢和自己关注过的Item在内容上类似的Item。 比如你看了哈利波特I,基于内容的推荐算法发...转载 2019-09-15 21:56:14 · 268 阅读 · 0 评论 -
分类精度评价(二)
目录 1、roc_curve: 2、auc: 3、roc_auc_score 4、confusion_matrix 1、roc_curve: sklearn.metrics.roc_curve(y_true,y_score, pos_label=None, sample_weight=None, drop_intermediate=True) 注意: 预测输入是概率值,而不是分类后...原创 2019-08-30 10:26:32 · 2182 阅读 · 0 评论 -
(一)房价预测
1from sklearn.datasets import load_boston import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split import numpy as np from sklearn.preprocessing import...原创 2019-07-30 23:06:33 · 425 阅读 · 0 评论 -
KNN(二):知识点总结
1、字典取数: sortedDistIndices = distances.argsort() #argsort()函数是将x中的元素从小到大排列,提取其对应的index(索引),然后输出到y #确定前k个点所在类别出现频率 classCount = {} for i in range(k): voteIlabel = labels[sorte...原创 2019-02-26 21:59:15 · 357 阅读 · 0 评论 -
逻辑回归学习笔记1
一、理论基础: 1、是一分类算法(二分,也可解决多分类问题),一般作为分类的优先选择算法,建立base model; 2、Sigmod 函数: ...原创 2018-07-10 18:00:40 · 157 阅读 · 0 评论 -
逻辑回归学习笔记2(python)
一、读入数据; pdData = pd.read_csv(path, header=None, names=['Exam 1', 'Exam 2', 'Admitted']) 画图: positive = pdData[pdData['Admitted'] == 1] negative = pdData[pdData['Admitted'] == 0] fig, ax = plt.su...原创 2018-07-18 21:32:37 · 393 阅读 · 0 评论 -
决策树学习笔记1
一、衡量标准: 1、熵:随机变量不确定性的度量 2、信息增益:特征X使类Y的不确定性减少的程度 举例计算:有如下数据,4个特征,1个结果(play) 计算类Y(打不打球)的熵值:0.94; Outlook = sunny 的熵值计算: -2/5*log2(2/5)-3/5*log2(3/5) = 0.971; 3、信息增益率: 二、算法分类: 1、ID3; ...原创 2018-07-19 15:28:39 · 266 阅读 · 0 评论 -
决策树学习笔记2(Python)
一、导入数据 1、库 %matplotlib inline import matplotlib.pyplot as plt import pandas as pd 2、sklearn导入数据 from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_califor...原创 2018-07-21 10:34:55 · 412 阅读 · 0 评论 -
集成算法
目录 一、集成学习(Ensemble learning) 二、Boosting 三、Bagging 一、集成学习(Ensemble learning) 定义:通过构建并结合多个学习器来完成学习任务,又称多分类器系统、基于委员会的学习等。 基学习器:同质集成的个体学习器; 组件学习器/个体学习器:异质个体组成; 核心:生成“好而不同” 的个体学习器。 根据个体学习器的生成方式...原创 2018-07-21 12:13:22 · 2494 阅读 · 0 评论 -
sklearn 的 Decision Trees
sklearn.tree的函数结构: 1、介绍: are a non-parametric supervised learning method used for clas...原创 2018-07-26 12:00:01 · 580 阅读 · 0 评论 -
贝叶斯算法(1)
一、什么是贝叶斯: 作用:用于解决逆向概率问题:根据现象学习预测总体。 什么是正向概率:假设袋子里面有N个白球,M个黑球,你把手伸进去摸一把,摸出黑球的概率是多大? 什么是逆向概率:如果我们事先不知道袋子里黑球,白球的比例,而是闭着眼睛摸出一个(或多个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面黑白球的比例做出什么样的推测。 为什么用贝叶斯: 1、现实世界本身就是不确定...原创 2018-08-03 18:51:40 · 509 阅读 · 0 评论 -
sklearn的detasets模块
from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() print(housing.DESCR) 一、介绍 对于不同类型的数据集,有三种不同类型的数据集接口。 1、生成数据函数与svmlight loader共享同一规则。 返...原创 2018-08-20 18:20:27 · 1238 阅读 · 0 评论 -
分类精度评价
1、混淆矩阵(以二分类为例) 标准集 验证集 真实的P样本(positive) 真实的N样本(Negtive) 预测的P样本 TP(预测的P是真的) FP(预测的P是假的) 预测的N样本 FN(预测的N是假的) TN(预测的N是真的) 现在开始解释各种真阳、假阴。 举例:由医学引入机器学习; 一个病人,长了个肿瘤,去医院...原创 2018-11-11 17:35:55 · 2059 阅读 · 0 评论 -
Linux命令技巧(一)
目录 一、tail 二、chmod 三、wc 统计 四、rename 五、dos2unix 一、tail inux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更新,tail会自己主动刷新,确保你看到最新的档案内容。 tail命令语法 tail [ -f ] [ -c Number...原创 2019-10-11 15:11:46 · 217 阅读 · 0 评论