mangogogo321-优快云博客

原创机器学习基础算法（五）-----线性回归

文章目录一. 回归算法-线性回归1. 线性模型2. 线性回归3. 损失函数（误差大小）4. 最小二乘法之正规方程5. 最小二乘法之梯度下降二. 线性回归实例三. 回归性能评估四. 过拟合和欠拟合1. 过拟合2. 欠拟合五. 岭回归一. 回归算法-线性回归1. 线性模型2. 线性回归3. 损失函数（误差大小）4. 最小二乘法之正规方程sklearn.linear+model.LinearRegression5. 最小二乘法之梯度下降sklearn.linear_model.SGDRe

2021-01-23 06:29:03 245

原创机器学习基础算法（四）----- 决策树和随机森林

文章目录一. 决策树1. 认识决策树2. 信息论基础-银行贷款分析3. 决策树的生成4. 泰坦尼克号乘客生存分析二. 集成学习方法-随机森林1. 随机森林的概念2. 随机森林的过程3. 随机森林的优点3. 泰坦尼克号乘客生存分类分析一. 决策树1. 认识决策树2. 信息论基础-银行贷款分析3. 决策树的生成常见决策树使用的算法sklearn决策树API4. 泰坦尼克号乘客生存分析决策树的结构、本地保存import pandas as pdfrom sklearn.fea

2021-01-16 06:07:07 353 1

原创机器学习基础算法（三）----- 朴素贝叶斯算法、模型调优与选择

文章目录一. 概率基础1. 联合概率和条件概率2. 朴素贝叶斯-贝叶斯公式3. 拉普拉斯平滑二. 朴素贝叶斯算法案例1. sklearn朴素贝叶斯实现API2. 朴素贝叶斯案例流程3. 朴素贝叶斯分类优缺点三. 分类模型的评估1. 混淆矩阵2. 精确率与召回率3. 分类模型评估API四. 模型选择与调优1. 交叉验证2. 网格搜索一. 概率基础概率定义为一件事情发生的可能性1. 联合概率和条件概率2. 朴素贝叶斯-贝叶斯公式3. 拉普拉斯平滑如果得到的概率为零，可用拉普拉斯平滑系数解决

2021-01-12 06:23:59 1254

原创机器学习算法基础（二）----- sklearn数据集，转换器和估计器

文章目录一. sklearn数据集1. 数据集划分2. sklearn数据集接口介绍3. sklearn分类数据集4. sklearn回归数据集二. 转换器与预估器1. 转换器2. 估计器一. sklearn数据集1. 数据集划分2. sklearn数据集接口介绍3. sklearn分类数据集from sklearn .datasets import load_irisli = load_iris()print("获取特征值")print(li.data)print("获取

2020-12-25 00:35:16 227

原创机器学习算法基础（一）-----特征预处理

文章目录一. 特征预处理1. 特征处理的方法2. sklearn特征处理API一. 特征预处理通过teddy的统计方法（数学方法）将数据转换成算法要求的数据1. 特征处理的方法数值型数据：归一化，标准化，缺失值归一化：注意：在特定场景下最大值最小值是变化的，另外最大值与最小值非常容易受异常点影响，所以这种方法robust较差，只适合传统精确小数据场景标准化如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小在已有样本足够多的情况下比较稳定，

2020-12-11 06:25:10 268

原创数学基础加强（三）----- 矩阵和线性代数

文章目录一. 矩阵1. SVD的提法2. 方阵的行列式3. 代数余子式4. 伴随矩阵5. 平稳分布6. 矩阵和向量的乘法7. 矩阵的秩二. 特征值和特征向量1. QR分解三. 矩阵求导1. LFM(Latent Factor Model)2. 向量的导数3. 标量对向量的导数一. 矩阵1. SVD的提法2. 方阵的行列式3. 代数余子式4. 伴随矩阵5. 平稳分布6. 矩阵和向量的乘法7. 矩阵的秩二. 特征值和特征向量1. QR分解三. 矩阵求导1. LFM(

2020-11-17 06:30:01 159

原创数学基础加强（二）----- 概率论与贝叶斯

文章目录一. 概率论基础1. 概率公式2. 贝叶斯公式3.事件的独立性二. 分布1. 两点分布2. 二项分布3. 泊松分布4. 均匀分布5. 指数分布6. 正太分布7. Beta分布三. 统计量1. 期望2. 方差3. 协方差4. Pearson相关系数5. 协方差矩阵四. 定理1. 切比雪夫不等式2.大数定律3. 中心极限定理4. 最大似然估计一. 概率论基础1. 概率公式2. 贝叶斯公式3.事件的独立性二. 分布复习各种常见分布本身的统计量在复习各种分布的同时，重温积分、Taylo

2020-11-12 06:28:57 515

原创数学基础加强（一）----- 机器学习与数学分析

文章目录一. 机器学习介绍1.机器学习的一般流程2 . 机器学习方法二. 数学分析1. 导数2. Taylor公式 - Maclaurin公式3. 方向导数4. 梯度5. Gamma函数6. 凸函数7. 一阶可微8. 二阶可微9. 概率论一. 机器学习介绍1.机器学习的一般流程数据收集 -> 数据清洗 -> 特征工程 -> 数据建模2 . 机器学习方法different assumptions on datadifferent scalability profiles at

2020-11-11 06:28:25 221

原创 Python数据科学包（九）----- 球员能力图和股票K线图

文章目录一. 球员能力图二. 股票K线图一. 球员能力图import numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')ability_size = 6ability_label = ['attack','defence','wait','speed','patience','method']player = { 'M':np.random.randint(size=ability_size,low=

2020-10-29 10:20:03 137

原创 Python数据科学包（八）----- 美化图形

文章目录1. 注释2. 文字3. Tex 公式4. 区域填充5. 形状6. 美化7. 极坐标8. 函数积分9. 散点—条形图1. 注释import matplotlib.pyplot as pltimport numpy as npx = np.arange(-10,11,1)y = x*xplt.plot(x,y)plt.annotate('this is the bottom',xy=(0,1),xytext=(0,20), arrowprops=dict(

2020-09-08 21:21:07 288

原创 Python数据科学包（七）----- 画图

文章目录一. 图形1. 散点图2. 折线图3. 条形图4. 直方图一. 图形1. 散点图正相关，负相关,点的大小，点的形状import numpy as npimport matplotlib.pyplot as pltheight=[161,170,182,175,173,165]weight=[50,58,80,70,69,55]plt.scatter(height,weight)plt.show()N=1000x=np.random.randn(N)y1=np.ran

2020-08-25 04:56:33 448

原创 Python数据科学包（六）-----数据可视化和例子

文章目录一. 数据可视化1. 线型图2. 柱状图3. 直方图4. 密度图5. 散布图6. 饼图7. 高级绘图二. 股票数据分析1. 分析波动幅度2. 增长曲线3. 增长倍数4. 当前增长倍数及复合增长率5. 平均年化增长率一. 数据可视化Pandas 的数据可视化使用 matplotlib 为基础组件。更基础的信息可参阅 matplotlib 相关内容。本节主要介绍 Pandas 里提供的比 matplotlib 更便捷的数据可视化操作。1. 线型图Series 和 DataFrame 都提供了一个

2020-08-12 10:23:20 643

原创 Python数据科学包（五）-----载入数据和时间序列

文章目录一. 载入数据到Pandas一. 载入数据到Pandas索引：将一个列或多个列读取出来构成 DataFrame，其中涉及是否从文件中读取索引以及列名类型推断和数据转换：包括用户自定义的转换以及缺失值标记日期解析迭代：针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别不规整数据问题：跳过一些行，或注释等等索引及列名df = pd.read_csv('data/ex1.csv')df = pd.read_csv('data/ex1.csv', sep=

2020-08-07 05:20:58 554

原创 Python数据科学包（四）----- 索引和分组

文章目录一. 索引1. 行索引2. 重复索引3. 层次化索引二. 分组计算1. 对Series进行分组2. 对DataFrame进行分组3. 转化为字典三. 数据聚合1. 内置聚合函数2. 自定义聚合函数四. 分组运算和转换1. transform2. apply一. 索引1. 行索引s = pd.Series(np.random.rand(5), index=list('abcde'))s.indexs.index.name = 'alpha'df = pd.DataFrame(np.rand

2020-08-06 04:28:22 810 1

原创 Python数据科学包（二）----- Pandas快速入门

文章目录一. 快速入门（一）1. 创建数据2. 查看数据3. 排序4. 修改元素5. 处理缺失数据6. 合并数据7. 分类统计二. 快速入门（二）1. 数据的整形一. 快速入门（一）1. 创建数据#创建seriess = pd.Series([1,3,5,np.NaN,8,4])sOut[6]: 0 1.01 3.02 5.03 NaN4 8.05 4.0dtype: float64#创建日期dates = pd.date_range('2

2020-07-27 06:20:03 370

原创 Python数据科学包（三）----- Pandas后续

文章目录一. 电影数据分析1. 数据读取2. 数据合并3. 按性别查看各个电影的平均评分4. 男女意见想差最大的电影5. 活跃电影排行榜6.高分电影7. 好电影二. 核心数据结构1. Series2. DataFrame3. 索引和选择4. 数据对齐5. 使用numpy 函数6. Panel三. pandas基础运算1. 重新索引2. DataFrame3. 丢弃部分数据4. 广播运算5. 函数应用6. 排序一. 电影数据分析1. 数据读取import pandas as pdunames = ('

2020-07-27 06:19:06 442

原创 Python数据科学包（一）----- numpy

numpy1. arrayarray把数组变成matriximport numpy as nparray = np.array([[1,2,3], [2,3,4]])print(array)print('number of dim:',array.ndim)print('shape:',array.shape)print('size:',array.size)创建array#两行三列的矩阵a = np.array([[2,23,4],

2020-07-15 11:40:27 161

原创 Python数据结构与算法（八）----- 树与树算法

文章目录树与树算法1. 二叉树2. 二叉树的遍历树与树算法1. 树的概念树（英语：tree）是一种抽象数据类型（ADT）或是实作这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：每个节点有零个或多个子节点；没有父节点的节点称为根节点；每一个非根节点有且只有一个父节点；除了根节点外，每个子节点可以分为多个不相交的子树；2.

2020-06-25 05:46:19 276

原创 Python数据结构与算法（七）----- 归并排序，二分查找

文章目录排序与搜索1. 归并排序2. 搜索排序与搜索1. 归并排序归并排序是采用分治法的一个非常典型的应用。归并排序的思想就是先递归分解数组，再合并数组。将数组分解最小之后，然后合并两个有序数组，基本思路是比较两个数组的最前面的数，谁小就先取谁，取了后相应的指针就往后移一位。然后再比较，直至一个数组为空，最后把另一个数组的剩余部分复制过来即可。def merge_sort(alist): '''归并排序''' n = len(alist) if n <= 1:

2020-06-24 23:58:38 252

原创 Python数据结构与算法（六）----- 希尔排序和快速排序

文章目录排序与算法1. 希尔排序2. 快速排序排序与算法1. 希尔排序希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因DL．Shell于1959年提出而得名。希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整个文件恰被分成一组，算法便终止。希尔排序的基本思想是：将数组列在一个表中并对列分别进行插入排序，重复这过程，不过每次

2020-06-24 02:55:46 145

原创 Python数据结构与算法（五）----- 栈、队列和排序

文章目录一. 栈1. 栈结构实现2. 栈的操作二. 队列1. 队列的实现2. 操作3. 双端队列三. 排序与搜索1. 冒泡排序3. 选择排序4. 插入排序一. 栈栈（stack），有些地方称为堆栈，是一种容器，可存入数据元素、访问元素、删除元素，它的特点在于只能允许在容器的一端（称为栈顶端指标，英语：top）进行加入数据（英语：push）和输出数据（英语：pop）的运算。没有了位置概念，保证任何时候可以访问、删除的元素都是此前最后存入的那个元素，确定了一种默认的访问顺序。由于栈数据结构只允许在一端进

2020-06-20 11:32:59 505

原创 Python数据结构与算法（四）-----双向链表和单向循环链表

文章目录一. 双向链表1. 操作2. 添加元素3. 删除元素二. 单向循环链表1. 操作2. 求长度和遍历3. 添加元素4. 删除元素一. 双向链表一种更复杂的链表是“双向链表”或“双面链表”。每个节点有两个链接：一个指向前一个节点，当此节点为第一个节点时，指向空值；而另一个指向下一个节点，当此节点为最后一个节点时，指向空值。1. 操作is_empty() 链表是否为空length() 链表长度travel() 遍历链表add(item) 链表头部添加append(item) 链表尾部添

2020-06-17 09:39:23 205

原创 Python数据结构与算法（三）----- 单向链表

文章目录链表单向链表1. 节点实现2. 单链表的操作3. 单链表的实现4. 头尾和指定位置添加5. 查找和删除元素6. 链表与顺序表的对比链表链表（Linked list）是一种常见的基础数据结构，是一种线性表，但是不像顺序表一样连续存储数据，而是在每一个节点（数据存储单元）里存放下一个节点的位置信息（即地址）。单向链表单向链表也叫单链表，是链表中最简单的一种形式，它的每个节点包含两个域，一个信息域（元素域）和一个链接域。这个链接指向链表中的下一个节点，而最后一个节点的链接域则指向一个空值。P

2020-06-16 09:11:30 203

原创 Python数据结构与算法（二）----- 顺序表

文章目录一. 顺序表1. 顺序表的基本形式2. 顺序表的结构与实现3. 顺序表的操作4. Python中的顺序表一. 顺序表1. 顺序表的基本形式2. 顺序表的结构与实现(1) 顺序表的结构一个顺序表的完整信息包括两部分，一部分是表中的元素集合，另一部分是为实现正确操作而需记录的信息，即有关表的整体情况的信息，这部分信息主要包括元素存储区的容量和当前表中已有的元素个数两项。（2）顺序表的两种基本实现方式图a为一体式结构，存储表信息的单元与元素存储区以连续的方式安排在一块存储区里，两部

2020-06-12 06:34:02 211

原创 Python数据结构与算法（一）----- 算法效率

文章目录一. 引入二 . 算法效率三. Python内置类型性能分析1. timeit模块四. 数据结构一. 引入先来看一道题：如果a+b+c=1000, 且a2+b2=c^2(a,b,c为自然数)，如何求出所有a,b,c可能的组合？(1) 枚举法import timestart_time = time.time()for a in range(0,1001): for b in range(0,1001): for c in range(1,1001):

2020-06-11 05:44:59 483

原创 Linux基础（三）----- 系统管理

文章目录一. 系统管理1. 磁盘管理命令2. 内存使用监管命令3. 软件安装方式3. Linux Crontab定时任务一. 系统管理1. 磁盘管理命令#显示系统$ uname$ uname -r#显示内存信息$ cat /proc/cpuinfo$ cat /proc/meminfo#显示当前系统日期时间$ date$ date -R#显示日历表$ cal 2015##设置系统时间井 date -s 2016-09-30井 date -s 14:42:45#显示分区使用

2020-05-30 02:48:38 148

原创 Linux基础（二）----- 基础命令

文章目录一. 用户和组二. 文件1. 在Linux系统下面，文件类型2. 文件的权限3. 文件的归属4. 设置文件对不同用户的权限5. 文件拷贝6. 改变文件拥有者和所属组7. 文件创建8. 文件拷贝，移动，重命名9. 文件的删除10. 创建目录11. 连接12. 文件搜索一. 用户和组Linux系统上，创建用户的时候，默认情况会给我们创建一个用户组（名称与用户名称相同）二. 文件1. 在Linux系统下面，文件类型文件 -目录（类似Win7下的文件夹）d连接（类似Win7下快捷方式） l

2020-05-29 05:02:42 160

原创 Linux基础（一）-----基本环境

文章目录一. 设置IP二. linux基本命令三. 远程连接工具四. 基本命令一. 设置IP有两个字符#：表示当前用户属于root用户，超级管理员用户对系统进行配置管理时，需要使用root用户$: 表示用户属于普通用户在Linux系统下，查看IP地址命令#ifconfig类似于我们在Win系统下自动获取IP地址 --可以连接互联网自动获取IP地址，有时候会进行改变，需要设置固定的IP地址注意：手动设置IP地址后，虚拟机不能连接互联网二. linux基本命令清理屏幕#clea

2020-05-26 06:17:19 231

原创 Git和Github

文章目录一. git操作二. github介绍与实操三. idea中使用git四. 分支一. git操作##初始化git init##添加文件git config user.name'zhang3'git config user.email 'zhang3@163.com'git config --global user.name 'zhangchen'git config --global user.email 'zhangchen@163.com'##提交文件夹git add

2020-05-24 23:49:30 119

原创 Mysql基础（四）----- 运算符，函数和索引

文章目录一. 运算符1. 算数运算符2. 比较运算符3. 逻辑运算符二. 函数1. 数学函数2. 字符串函数3. 日期时间函数4. 条件判断函数和系统函数5. 其他常用的函数三. 索引1. 普通索引2. 唯一索引3. 全文索引4. 单列索引5. 多列索引6. 空间索引四. 图形化工具管理MySQL1. PHPMyAdmin2. SQLyog一. 运算符1. 算数运算符SELECT 1+1;SELECT 3 div 0;2. 比较运算符结果只能为真或者假SELECT id,username,a

2020-05-20 02:37:57 344

原创 Mysql基础（三）----- 查询

文章目录一. 数据的操作1. DML2. DQL二. 连接查询1. 内连接查询2. 外连接查询3. 外键操作4. 联合查询三. 子查询1. 引发子查询的情况2. 将查询结果写入数据表中3. 创建数据表时同时将查询结果写入数据表中四. 正则表达式查询一. 数据的操作1. DML更新数据--更新用户名为4位的用户，让其年龄-3UPDATE cms_user SET age=age-3 WHERE username LIKE '____';--更新前三条记录，让已有年龄+10,更新或删除时不能用偏

2020-05-17 05:08:29 218

原创 Mysql基础（二）----- 表结构和数据的操作

文章目录一. 数据表完整性约束条件1. Primary Key 主键2. AUTO_INCREMENT 自增长3. NOT NULL非空4.DEFAULT 默认值5. UNIQUE KEY 唯一二. 表结构相关内容1. 修改表名2.添加和删除字段3.修改字段4. 添加删除默认值5. 添加删除主键6. 添加删除唯一7. 删除数据表三. 数据的操作1. DML2. DQL一. 数据表完整性约束条件CREATE TABLE IF NOT EXISTS tbl_name(字段名称字段类型 [UNSIGNED

2020-05-15 02:12:59 345

空空如也

空空如也