自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 20/05/31 机器学习---基础算法 (11)

聚类实践 层次聚类方法 凝聚的层次聚类:AGNES算法 一种自底向上的策略,合并原子簇成为越来越大的簇,直到某个终结条件被满足 簇间距离的不同定义 最小距离——容易形成链状结构 最大距离——若存在异常值则不稳定 平均距离——平均值average/平方和ward 分裂的层次聚类:DIANA算法 自顶向下的策略,逐渐细分为越来越小的簇,直到达到了某个终结条件 密度聚类方法 指导思想:只要样本的密度大于某阈值,组将该样本添加到最近的簇中。 优点:可以克服基于距离的算法只能发现类圆形(凸

2020-05-31 23:54:51 168

原创 20/04/06 机器学习---基础算法 (10)

聚类 聚类定义:类别内的相似度较大,类别间的数据相似度较小 无监督学习 相似度度量 实际物理点,倾向于使用欧式距离;函数间相似性:用相对熵 文本相似性:往往用cos余弦相似度 在mu x=mu y=0时,余弦相似度与pearson相似系数是等价的 H*距离,alpha取1,即K-L距离,alpha取0,即对(根号p-根号q)积分 都可以做距离度量方案,根据实际物理场景选择合适的度量方案 ...

2020-04-07 01:02:48 181

原创 20/04/04 机器学习---基础算法 (9)

SVM 核函数 可以使用核函数,将原始输入空间映射到新的特征空间,从而使得原本线性不可分的样本可能在核空间可分。 多项式核函数:κ(x1,x2)=(x1⋅x2+c)d\kappa (x_1,x_2)=(x_1\cdot x_2+c)^dκ(x1​,x2​)=(x1​⋅x2​+c)d 高斯核RBF函数:κ(x1,x2)=exp(−γ⋅∣∣x1−x2∣∣2)\kappa (x_1,x_2)=ex...

2020-04-04 22:49:57 149

原创 20/03/29 机器学习---基础算法 (8)

SVM 支持向量机 分类 线性可分SVM 硬间隔最大化 hard margin maximization 硬间隔支持向量机 线性支持SVM 软间隔最大化 soft margin maximization 软间隔支持向量机 非线性支持SVM 基于上述两个,添加核函数 原理 $$ c越大,过渡带越窄,gamma越大,曲面越大 要做什么?离切割面最近样本的距离取最大 ...

2020-03-29 21:23:25 209

原创 20/03/22 机器学习---基础算法 (7)

提升实践 XGBoost 使用梯度提升框架的机器学习库 将树的生成并行完成,从而提升学习速度 一般来说,XGBoost的速度和性能优于sklearn.ensenble.GradientBoostingClassifier类 自身的数据结构:DMatrix class xgboost.DMatrix(data,label=None,missing=None,weight=None,silent...

2020-03-22 23:42:34 125

原创 20/03/21 机器学习---基础算法 (6)

提升 提升是个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升。 提升的理论意义:如果一个问题存在弱分类器,则可以通过提升的方法得到强分类器。 ...

2020-03-22 01:17:08 196

原创 阶段性代码笔记

机器学习包用法: mean_squared_error 计算均方误差 from sklearn.metrics import mean_squared_error mse = mean_squared_error(y_test, y_pred) 计算准确率(R2) r2 = model.score(x_test, y_test) train_test_split 在机器学习中,我们通...

2020-03-17 23:05:15 399

原创 20/03/15 机器学习---基础算法 (5)

决策树与随机森林(续) 决策树的评价: 对所有叶结点的熵求加权加和,该值越小说明对样本的分类越精确 评价函数:C(T)=Σt∈leafNt⋅H(T)C(T)=\Sigma_{t\in leaf}N_t\cdot H(T)C(T)=Σt∈leaf​Nt​⋅H(T) 由于该评价函数越小越好,所以可以称之为损失函数 决策树的过拟合 决策树对于训练集有很好的分类能力,但是对于未知的测试数据未必有...

2020-03-15 14:30:28 185

原创 20/03/13 机器学习---基础算法 (4)

决策树和随机森林 CART(Classification and Regression Tree) 好处:训练速度快,可以集成形成更优的决策树 信息熵 离散随机变量的熵H(P)=−Σi=1nPilnPiH(P)=-\Sigma_{i=1}^nP_ilnP_iH(P)=−Σi=1n​Pi​lnPi​(一定是正数 ) 连续随机变量的熵H(P)=−∫f(x)lnxdxH(P)=-\int f(x)l...

2020-03-13 21:20:40 156

原创 20/03/08 机器学习---基础算法 (3)

回归(续) 决定系数 Coefficient of Determination MSE(均方误差)=1mΣi=1m(yi−y^)2MSE(均方误差)=\frac 1 m\Sigma_{i=1}^m(y_i-\hat y)^2MSE(均方误差)=m1​Σi=1m​(yi​−y^​)2 RMSE(标准误差)=MSERMSE(标准误差)=\sqrt {MSE}RMSE(标准误差)=MSE​ R2=1...

2020-03-08 22:03:28 220

原创 20/03/07 机器学习---基础算法 (2)

回归 线性回归 使用极大似然估计解释最小二乘 y(i)=θTx(i)+ε(i)y^{(i)}=\theta^Tx^{(i)}+\varepsilon^{(i)}y(i)=θTx(i)+ε(i) 误差ε(i)\varepsilon^{(i)}ε(i)是独立同分布的,服从均值为0,方差为某定值σ2\sigma^2σ2的高斯分布【中心极限定理】 将ε\varepsilonε替换为y,x,θy,x,...

2020-03-07 23:52:43 222

原创 20/03/04 机器学习---基础算法 (1)

数据清洗与特征选择 赔率 下注金额 ,不论输赢,下注金都给庄家 设x,y两种情况,x赢的赔率为2,y赢赔率为3 假设下注10元压x赢 若结果是x赢,一共20元,扣除本金10元得到10元 若结果是y赢,赔去本金10元 实际问题中,庄家往往会用公平赔率某小于1 的系数α\alphaα 了解Fuzzywuzzy包-Levenshtein distance:计算字符串之间的编辑距离,用于模糊...

2020-03-04 23:45:38 126

原创 20/03/04 机器学习---导论 (2)

机器学习关于数据集的概念 什么样的数据集 数据集的行:记录(关系型数据库) 数据集的行:样本或实例(机器学习) 数据集的列:字段(关系型数据库) 数据集的列:特征、属性(机器学习) =>特殊的列:类别标签 =>特征或属性空间:由特征张成的维 =>特征或属性向量:组成特征或属性特征的样本点(行) =>特征或属性值:组成特征向量中的值 将数据集切分,训练集:测试集 =6:4...

2020-03-04 16:48:36 210

原创 20/03/01 机器学习---导论 (1)

大数据时代究竟改变了什么 改变的是思维方式 数据重要性: 数据资源 > 数据资产(增值) 方法论: 基于知识的理论完美注意 > 基于数据的历史经验主义 数据分析 统计学(抽样)> 数据科学(大数据) 数据科学家(大数据+算法+更加丰富的业务知识) 计算智能 复杂算法>简单算法(MaoReduce) 决策方面 基于目标决策 > 基于数...

2020-03-01 21:44:16 217

原创 20/02/27 机器学习---数学基础加强 (3)

矩阵和线性代数 矩阵 线性代数 行列式 伴随矩阵 方阵的逆 $A\cdot A^*=|A|\cdot I $ 范德蒙行列式 矩阵的乘法/状态转移矩阵 随机过程,转移概率矩阵 全概率公式与矩阵乘法的关系 矩阵和向量组 特征值和特征向量 对称阵、正交阵、正定阵 实对称阵不同特征值的特征向量正交 数据白化 正交基 QR分解/LFM 矩阵求导 向量对向量求导 标量对向量求导 标量对...

2020-02-27 22:24:23 301

原创 20/02/24 机器学习---数学基础加强 (2)

概率论与贝叶斯先验 概率论基础 概率与直观 本福特定律:在实际生活得出的一组数据中,以1为首位数字出现的概率约为总数的三成 条件概览 P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)} {P(B)}P(A∣B)=P(B)P(AB)​ 全概率公式 P(A)=ΣiP(A∣Bi)P(Bi)P(A)=\Sigma_iP(A|B_i)P(B_i)P(A)=Σi​P(A∣Bi​)P...

2020-02-25 00:39:57 167

原创 20/02/23 机器学习---数学基础加强 (1)

机器学习与数学分析 什么是机器学习? 使用计算机设计一个系统,使他能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断学习和改进,通过参数优化的学习模型,能够用于预测相关问题的输出。 v.s.专家系统(非ML):罗列一个数据库,当看到实际场景时就调用数据库中的一个规则,利用该规则来进行相应的决策(eg 深蓝) 有监督学习(有Y标签) f(x,θ) ~y 无...

2020-02-23 18:53:30 167

原创 20/02/13 数据科学包学习 (6)

Matplotlib 实战项目part2 球员能力图 #_*_ coding:utf-8 _*_ import numpy as np import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties plt.style.use('ggplot') font=FontProperties(fn...

2020-02-13 19:32:26 113

原创 20/02/12 数据科学包学习 (5)

matplotlib 带箭头注释 plt.annotate(‘注释文字’,xy=(0,1),xytext=(0,20),arrowprops=dict(facecolor=‘r’,frac=0.2,headwidth=20,width=15)) 纯文字标注 plt.text(0,40,‘注释文字’,family=‘字体名’,size=,color=,bbox=dict(facecolor=‘r’...

2020-02-12 19:46:58 157

原创 20/02/11 数据科学包学习 (4)

Matplotlib 基本图形画法 import matplotlib.pyplot as plt 散点图 plt.scatter(x,y) 外观调整 颜色:c 点大小:s 透明度:alpha 点形状:marker 折线图 plt.plot(x,y) 适合表现数据随着时间变化的表现 # 数据处理: import matplotlib.dates as mdates date,open...

2020-02-11 19:55:21 148

原创 20/02/10 数据科学包学习 (3)

Pandas 索引 重复索引 df.index.is_unique() 查看是否有重复的索引 df.index.unique() 返回唯一索引列表 s.groupby(s.index).sum() 对重复索引的处理(如sum求和,first取第一项,mean求均值) 多重索引 a=[['a','a','b','b','c'],[1,1,2,3,4]] t=list(zip(*...

2020-02-10 16:35:19 303

原创 20/02/08 数据科学包学习 (2)

Pandas python里分析结构化数据的工具集 基础是numpy:高效能矩阵运算 图形库matplotlib:提供数据可视化

2020-02-08 21:12:18 159

原创 20/02/06 数据科学包学习 (1)

numpy import numpy as np array=np.array([[1,2,3], [4,5,6]]) print(array) print('num of dim:',array.ndim) #返回维度 print('shape:',array.shape) #返回行数列数 print('size:',array.size) #返回总元素数 定义矩阵的方...

2020-02-07 00:26:33 91

原创 20/02/01 Python基础知识学习(14)

SQLite [软件↓]SQLite expert professional 动态类型 NULL INTEGER REAL TEXT BLOB 简单SQL语句: 选择语句 SELECT * FROM 表名 插入一行数据 INSERT INTO 表名 (列1,列2,…)values (‘值1’,‘值2’,…); #列值一一对应,值只能用单引号包括 更新语句 UPDATE 表名 SET ...

2020-02-02 01:12:48 106

原创 20/01/30 Python基础知识学习(13)

数据文件读取处理 CSV 文件读取处理 csv基本读取 读取csv并用nametuple映射列名 读取csv到字典表 import csv from collections import nametuple #为表头定义建议类名 def csv_read(): """csv基本读取""" with open ('product.csv',encoding='utf-8...

2020-01-31 00:45:02 149

原创 20/01/29 Python基础知识学习(12.2)

装饰器 概述 用于管理和增强函数和类行为的代码 提供一种在函数或类定义中插入自动运行代码的机制 特点 更明确的语法 更高的代码可维护性 更好的一致性 编写 函数基础 将函数赋给变量 将函数作为参数传递 函数嵌套及跨域访问 函数定义装饰器 (可以用于脚本里的普通函数上,也可以用于类定义方法) def p_decorator(func): def wrapper(*args,**k...

2020-01-29 21:36:57 92

原创 20/01/28 Python基础知识学习(12.1)

并发编程 概述 非并发 程序由单个步骤序列构成 包含独立子任务的程序执行性能低 并发 异步、高效 分解子任务、简化流程与逻辑 进程 process 一个程序的执行实例 每个进程有自己的地址空间、内存、数据栈及辅助数据 线程 thread 同一进程内可被并行激活的控制流 共享相同上下文(空间地址、数据结构) 特点:便于信息共享和通信;线程访问顺序差异会导致结果不一致(条件 race condi...

2020-01-28 22:17:30 128

原创 20/01/27 Python基础知识学习(11)

正则表达式 概述 概念 Regular Expression,是一种文本模式,描述了在搜索文本时要匹配的一个或多个字符串 典型场景 数据验证/文本扫描/文本提取/文本替换/文本分割 语法 字面值 普通字符 需转义 \ ^ $ . | ? * + () [] {} 元字符 匹配 单字,预定义元字符 . 除\n 外的所有字符 \d 数字,等同[0-9] \D 非数字,等同[...

2020-01-27 23:29:46 95

原创 20/01/26 Python基础知识学习(10)

对象持久化 应用场景 序列化与反序列化:将当前正在计算的某个数据结果、进度或状态存储到某些物理没接上;未来在某一特定情境下将存储的数据还原到内存里去。 技术 扁平文件 文本文件scores=[99,88,77,66] def write_score(): with open('datalist.txt','w',ecoding='utf8') as f: f.write(strin...

2020-01-26 21:57:58 724

原创 20/01/21 Python基础知识学习(9)

错误异常处理 错误类型 语法错误 syntaxerror 语义错误 逻辑错误 try: 尝试有可能会出现异常的代码 except: 捕获异常,可以如如下多个分开罗列 except ZeroDivisionError as e: # 不能除零 print(e) except AttributeError as e: # 属性异常 print(e) else: 没有异常...

2020-01-21 23:44:51 114

原创 20/01/20 Python基础知识学习(8)

面向对象编程OOP 静态函数 与实例无关:def func(无需self): 计数-类的计数,与实例无关 class Book: count = 0 def __init__(self, a, b): self.a=a self.b=b return 计数-实例自身的计数 class Book: count = 0 def __init__(self, a, ...

2020-01-20 22:28:42 91

原创 20/01/18 Python基础知识学习(7)

包与模块管理 使用目的 代码重用 命名空间 实现数据共享 模块指令 import from from 模块名 import 功能名 as 新命名 导入后想修改或使用最新的功能: import importlib importlib.reload(模块) 步骤 找到模块文件 编译为字节码 运行模块文件 搜索范围 程序主目录 环境变量 标准库 扩展库 包 init 只在被...

2020-01-18 22:34:28 81

原创 20/01/17 Python基础知识学习(6)

函数 参数 匹配 位置匹配 关键字匹配 默认值(调用时省略传值) >定义时赋值 *args 任意数量参数 **kwargs传递一个字典表 def avg(*scores): return sum(scores)/len(scores) results=avg(1,2,3,4) print(results) 同理调用时,如果直接引用一个list /dict, 使用...

2020-01-17 21:55:36 95

原创 20/01/16 Python基础知识学习(5)

迭代 迭代协议 可支持迭代协议都可以使用遍历or循环的语句。原理是其内部有一个 next()方法可以移动指针获取下一个元素。 迭代工具 for… 推导… (用C层面的原理来完成,效率相对最高) e.g. [x for x in list if …] map… 迭代器对象 已经实现(文件) 可迭代对象 iter() ->__iter__用于生成迭代器(list) 是否已经使用迭代器测试代码...

2020-01-16 22:13:21 81

原创 20/01/14 Python基础知识学习(4)

语句与表达式 代码格式指南 PEP8 缩进4空格 一行不超过79个字符 Func之间空2行 赋值语句 基本赋值 序列赋值 扩展序列解包赋值 *变量 可获取剩余变量到list(不论多或少或正好都生成列表) 一个表达式只能有一个变量带 * a,b,*c='youpin' a 'y' b 'o' c ['u','p','i','n'] 多目标赋值 参数化赋值 a+=b ->...

2020-01-14 21:10:48 135

原创 20/01/13 Python基础知识学习(3)

字典表与元组 字典表 Dict 声明 d={‘键’:‘值’,‘键’:‘值’,…} d.get(‘键’,默认值) hash算法导致内部元素位置随机 操作 合并多个字典表 Orig_dict.update(add_dict) 弹出元素 d.pop() 属性 d.keys() 字典表里所有的键 不是列表 d.values() 字典表里所有的值 d.items() 字典表里所有元素 ...

2020-01-13 22:16:11 80

原创 20/01/12 Python基础知识学习(2)

数值与字符串 上节核心数据类型举例讲解 ()元组 [ ]list {}字典表 d={‘键’:‘值’,‘键’:‘值’} d.get(‘键’) 列表与元组的区别:列表支持原位修改,但是元组不可 数值 显示: 修正格式,传递到制定位置,以浮点型保留两位小数 ‘f={0:.2f}’.format(f) 比较:返回布尔型结果(True/False) > < >= <= =...

2020-01-12 17:49:52 95

原创 20/01/11 Python基础知识学习(1)

Python运行逻辑: 理念:程序是由算法+数据结构组成,先有合适的机构表现关心的数据,再选择合适的算法来决定如何处理对象。 语句: print(' ') / print(" ") 打印字符串 type() 检测变量类型 id() 存储位置 sys.getrefcount( ) 统计对象被引用次数 [需要导入系统模块import sys] math.sqrt...

2020-01-11 20:33:15 76

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除