自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (1)
  • 收藏
  • 关注

原创 随机投影——介绍链接

随机投影与ICA - it610.com让人惊叹的Johnson-Lindenstrauss引理:理论篇 - 知乎让人惊叹的Johnson-Lindenstrauss引理:应用篇 - 知乎

2022-10-11 11:56:31 623

原创 十大经典排序算法(动图演示)

感谢原文作者:https://www.cnblogs.com/onepixel/articles/7674659.html本文基本框架、文字、图片基本主要来自原文,原中是用java实现的,这里我把代码全部用python做了实现,内容也做了一些补充。0、算法概述0.1 算法分类十种常见排序算法可以分为两大类:比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此也称为非线性时间比较类排序。非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的

2020-10-14 00:57:33 1178

原创 完全二叉树的深度

一个有nnn个节点的完全二叉树的深度kkk如何计算?以下是计算步骤。当树深k=1k=1k=1时,n=1n=1n=1当树深k=2k=2k=2时,n=3n=3n=3当树深k=3k=3k=3时,n=7n=7n=7所以节点个树n和树深k的关系为:2k−1=n2^k-1=n2k−1=n所以树深:k=log2(n+1)k=log_2(n+1)k=log2​(n+1)...

2020-09-17 19:32:17 5113 1

原创 二分查找法时间复杂度计算

假设序列里有nnn个元素第一次二分后,需要继续在n2\frac{n}{2}2n​个元素中进行查找第二次二分后,需要继续在n22\frac{n}{2^2}22n​个元素中进行查找最坏的情况下,只剩下一个元素,也就是继续在n2t\frac{n}{2^t}2tn​个元素中进行查找所以ttt是查找的次数,我们使得n2t=1\frac{n}{2^t}=12tn​=12t=n2^t=n2t=nt=log2(n)t=log_2(n)t=log2​(n)所以时间复杂度为O(log2n)O(log_2n.

2020-09-17 19:03:11 3554 1

转载 常用异常点检测算法

机器学习-异常检测算法(一):Isolation Forest机器学习-异常检测算法(二):Local Outlier Factor机器学习-异常检测算法(三):Principal Component Analysis

2020-06-19 15:39:41 542

原创 数学——欧几里得算法和扩展欧几里得算法

欧几里得算法欧几里德算法是用来求两个正整数最大公约数的算法。古希腊数学家欧几里德在其著作《The Elements》中最早描述了这种算法,所以被命名为欧几里德算法。假如需要求 1997 和 615 两个正整数的最大公约数,用欧几里德算法,是这样进行的:1997 ÷\div÷ 615 = 3 (余 152)615 ÷\div÷ 152 = 4(余7)152 ÷\div÷ 7 = 21(余5)7 ÷\div÷ 5 = 1 (余2)5 ÷\div÷ 2 = 2 (余1)2 ÷\div÷ 1 = 2

2020-05-27 20:49:03 4794 1

转载 优化算法(一):牛顿法与拟牛顿法

机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一,在20世纪50年...

2020-04-27 11:53:01 1943

转载 如何形象的理解泰勒展开

作者:「已注销」链接:https://www.zhihu.com/question/25627482/answer/313088784来源:知乎今天,我要讲讲我和苍井空的故事。FBI Warning:未成年人请在家长陪同下观看。德艺双馨的苍老师是我的启蒙老师。初入大学,暂时摆脱高考的巨大压力后,终于可以放飞自我。在那个草长马发情的年代,无数个月光如水的燥热夜晚,苍老师的课件一次次给我以直逼心...

2020-04-21 13:33:00 986 2

原创 经济学知识——LPR、MLF、SLF、SLO、PSL、OMO

我们都知道国家宏观调控经济的手段分为货币政策和财政政策,其中货币政策针对的主要是货币供应量和利率,央行需要把这两者控制在适合国家经济发展水平内,这就需要依靠各种工具和操作,MLF、SLF等就是具体的工具和操作。LPR:全称为贷款市场报价利率,是商业银行对其最优质的客户执行的贷款利率,其他贷款利率可以在此基础上加减点生成。LPR由18家报价行于每月20日(遇节假日顺延)9时前,以0.05个百分点为...

2020-04-20 17:14:53 13824

原创 约束规划——拉格朗日乘数法

拉格朗日乘数法拉格朗日乘数法的基本思想拉格朗日乘数法(Lagrange Multiplier Method)是一种优化算法,拉格朗日乘子法主要用于解决约束优化问题,它的基本思想就是通过引入拉格朗日乘子来将含有n个变量和k个约束条件的约束优化问题转化为含有(n+k)个变量的无约束优化问题。拉格朗日乘子背后的数学意义是其为约束方程梯度线性组合中每个向量的系数。如何将一个含有n个变量和k个约束条件...

2020-04-15 20:12:49 7637

原创 线性代数——奇异值分解(SVD)

在前几篇文章中介绍了:主成分分析和矩阵知识,本文介绍矩阵压缩的另一种方法SVD,这个方法相对于主成分分析更灵活,尤其是在推荐系统中非常常见。什么是奇异值分解在矩阵知识我们知道,对于实对称矩阵AAA必能找到正交矩阵QQQ,使得A=QTΛQA=Q^T\Lambda QA=QTΛQ,其中Λ\LambdaΛ是对角线上为特征值的对角阵,Q是特征向量组成的正交矩阵。但是这个只能对方阵进行分解,对于m×n...

2020-04-08 12:56:49 2413

原创 线性代数——矩阵复习

这篇文章是为了复习矩阵的一些知识正交矩阵如果:AAT=EAA^T=EAAT=E(EEE为单位矩阵,ATA^TAT表示“矩阵AAA的转置矩阵”),或ATA=EA^TA=EATA=E,则nnn阶实矩阵AAA称为正交矩阵。若AAA为正交阵,则满足以下条件 :1)ATA^TAT是正交矩阵2)(EEE为单位矩阵)3)ATA^TAT的各行是单位向量且两两正交4)ATA^TAT的各列是单位向量且两...

2020-04-08 11:04:55 2087

原创 线性代数——PCA主成分分析计算步骤

主成分分析线性代数概念复习向量的内积基协方差矩阵实对称矩阵特征值和特征向量主成分分析的计算步骤本文不会深究原理,如果有时间我会把原理补上,这篇文章主要是讲主成分分析的计算步骤。在开始详细介绍PCA算法前,我们先来复习一下线性代数中几个重要的概念线性代数概念复习向量的内积假设a⃗=[a1a2...an]\vec{a}=\begin{bmatrix} a_1 \\ a_2 \\ ...\\...

2020-04-05 21:01:31 12024 3

原创 常见加密算法介绍,以及MD5算法、RSA算法详细介绍

来自知乎的介绍:HASH算法不是大学里数据结构课里那个HASH表的算法。这里的HASH算法是密码学的基础,比较常用的有MD5和SHA,最重要的两条性质,就是不可逆和无冲突。所谓不可逆,就是当你知道x的HASH值,无法求出x; 所谓无冲突,就是当你知道x,无法求出一个y, 使x与y的HASH值相同。这两条性质在数学上都是不成立的。因为一个函数必然可逆,且由于HASH函数的值域有限,...

2020-03-31 17:02:38 3024 1

原创 WOE和IV

这篇文章参考了https://blog.youkuaiyun.com/shenxiaoming77/article/details/78771698,如果想要看WOE和IV的例子可以到这里学习。另外kaggle有一篇特别好的文章,建议大家可以去看看:https://www.kaggle.com/pavansanagapati/weight-of-evidence-woe-information-value...

2020-03-09 15:36:34 383

原创 分类器评估指标——混淆矩阵 ROC AUC KS AR PSI Lift Gain

以下混淆矩阵、ROC、KS值、AR值都是二分类模型的评估指标,PSI是评估模型稳定性的指标。1、混淆矩阵混淆矩阵是最简单、最基础的分类的评估指标,在这里只讲二分类的混淆矩阵,多分类与二分类类似。以下是二分类的混淆矩阵实现:from sklearn.metrics import confusion_matriximport matplotlib.pyplot as ...

2020-01-15 13:24:46 7180 2

翻译 机器学习——陈天奇Boosted Tree(GBDT)详解

工作了好多年,从最开始使用xgboost,到后来的lightGBM,它们的底层原理都是Boosted Tree,之前一直没有做过总结,今天我就把陈天奇的Boosted Tree翻译一下,让大家从原理了解什么是Boosted Tree,如果有任何理解或者描述错误的地方,欢迎大家批评指正。如果涉及到我自己的理解的内容,我会用绿色的字来表示。建议大家直接看原文档,链接为:https://home...

2019-12-09 20:04:09 3720

原创 python3——解决MAC在import lightgbm时报错image not found

网上有一堆解决import lightgbm报错image not found的帖子,但是很多帖子都写的不清不楚的,在踩了好多坑之后,我决定发一个详细的教程,解决这个问题。在解决问题的之前,先来看一下自己的环境:MacOS 10.14.6Python3.7以下是详细教程:1、先把已经安装的lightgbm卸载:pip uninstall LightGBM2、然后安装两...

2019-11-28 17:48:17 1969 5

原创 python3遍历文件夹和子文件夹中的所有文件

本文介绍的是python3如何遍历指定文件夹及其子文件夹中的所有文件。假设我想遍历一个test的文件夹中的所有文件,文件目录如下:可以看到里面有四个文件,分别是r.txt, A.txt, A_1.txt, B.txt, 它们都分布在不同的子文件夹中。以下是python代码:import osmydir = u'/Users/Desktop/test' # test的文件路...

2019-11-14 10:18:44 2288 1

原创 超详细的信息熵、信息增益、信息增益比、基尼系数

一、信息在开始解释信息熵和信息增益之前,我们先来解释一下什么是信息:能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉老大从数据中发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息,但是如果你告诉老大女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用户消费金额最多...

2019-11-06 16:52:53 12179 3

翻译 深度学习不可不知的矩阵微积分

这篇文章介绍了深度学习中会用到的矩阵微积分,帮助我们更好的理解深度学习。文章里面介绍的内容来自于https://explained.ai/matrix-calculus/index.html,感谢原作者,在这里我只是个搬运工。如有问题请指教,谢谢!目录引言 常用微积分介绍向量微积分和偏导介绍矩阵微积分Jacobian矩阵向量对应元素二元运算的导数链式法则1. 单...

2019-03-23 12:12:48 2442

原创 Python2离线安装xgboost

如果我们要在python 2.7中安装xgboost, 您不需要下载VS2013来构建它,因为我已经构建了它,您可以下载我构建的文件并直接安装它。1、从百度云下载它:https://pan.baidu.com/s/1ht5f8kk2、解压它,把它放到如下目录:python安装目录\Lib\site-packages,例如下图所示:3、在python-package文件夹下, 使用cmd, cd这个...

2018-03-05 10:27:36 1166

原创 STL——以鲁棒局部加权回归作为平滑方法的时间序列分解方法

摘要STL是一种把时间序列分解为趋势项(trend component)、季节项(seasonal component)和余项(remainder component)的过滤过程。STL有一个简单的设计,它包含了loess平滑法的一系列应用;这个简单的设计允许对过程的属性进行分析,也可以实现快速计算,即使对于长时间的时间序列、以及大量的趋势和季节性的平滑,也可以进行快速计算

2018-01-22 10:11:04 18229 8

原创 统计学——单因素方差分析

概念方差分析:又称变异分析,是英国统计学家R.A.Fisher于1923年提出的一种统计方法,故有时也称为F检验。可简写为ANOVA。用于多组均数 之间的显著性检验。要求:各组观察值服从正态分布或近似正态分布,并且各组之间的方差具有齐性。基本思想:将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计...

2018-01-11 10:14:38 51908 8

原创 统计学——F分布

设X1服从自由度为d1的χ2分布,X2服从自由度为d2的χ2分布,且X1、X2相互独立,则称变量F=(X1/d1)/(X2/d2)所服从的分布为F分布,其中第一自由度为d1,第二自由度为d2,记为F~F(d1,d2)关于什么是卡方分布请参考:http://blog.youkuaiyun.com/snowdroptulip/article/details/78770088以下是R模拟

2018-01-10 17:52:35 18265

原创 统计学——线性回归决定系数R2

决定系数(coefficient ofdetermination),有的教材上翻译为判定系数,也称为拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.表达式:R2=SSR/SST=1-SSE/SST其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(reg

2018-01-10 13:19:17 307673 10

原创 统计学——线性回归公式推导

假设我们有n个点,(x1,y1), (x2,y2), ... ,(xn,yn),如下图所示:我们要求这几个点的线性回归方程,假设方程为y=mx+b,如下图所示:我们的目的是使误差的平方和最小即求:的最小值。

2018-01-10 10:39:49 8539

原创 统计学——小样本容量置信区间

一般来讲,nT分布和正态分布相似,具有fatter tail,因为低估了S。对应的,不再去查z table,而是去查t table。T table的列为自由度degrees of freedom,即n-1。有些记法在上面加了个帽子记为,表示这是由样本标准差估算出来的sample mean的standard devication。例题:7名学生在使用了新研制的钙片3个

2018-01-05 12:01:29 12560

原创 统计学——中心极限定理(R语言)

中心极限定理用通俗的话来讲就是,假设有一个服从(μ,σ2)的总体,这个总体的分布可以是任意分布,不用是正态分布,既可以是离散的,也可以是连续的。我们从该分布里随机取n个样本x1,x2,...,xn,然后求这些样本的均值x_mean,这个过程我们重复m次,我们就会得到x_mean_1,x_mean_2,...,x_mean_m,如果n-->∞,这些样本的均值服从N(μ,σ2/n)的正态分布。

2018-01-04 12:00:36 16895

原创 Kaldi学习笔记(五)——使用CVTE训练好的SR模型做中文在线识别

关于Kaldi的下载与编译请参考:http://blog.youkuaiyun.com/snowdroptulip/article/details/78896915CVTE公司开源其训练好的TDNN模型,我们可以使用该模型来进行在线识别。一、下载首先从http://kaldi-asr.org/models.html下载模型;二、解压把下载好的模型

2018-01-02 15:39:22 13726 1

原创 Kaldi学习笔记(四)——thchs30中文在线识别

在前面的笔记中,我们已经训练出thchs30模型。这篇文章主要介绍如何用训练好的模型识别我们自己的语音。一、安装portaudio首先我们cd到tools下面,执行:./install_portaudio.sh然后在cd到src下面,执行:make ext二、创建相关文件从voxforge把online_demo拷贝到thchs30下,和s5同级,online_demo

2018-01-02 11:12:19 13182 11

原创 Kaldi学习笔记(三)——运行thchs30(清华大学中文语料库)

Kaldi中文语音识别公共数据集一共有4个(据我所知),分别是:1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本,见kaldi-master/egs/aishell2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08)3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32)4

2017-12-31 22:57:58 48982 11

原创 Kaldi学习笔记(二)——实例yesno和timit的应用

Kaldi的安装与编译请参考:Kaldi的安装与编译Kaldi的例子有很多,在egs目录下面,对Kaldi不熟悉的小白们可以先从yesno和timit两个例子入手,这样可以对Kaldi有个直观的认识。一、运行yesno实例该实例是一个非常小的数据集,每一条记录都是一系列yes或者no的语音,标注是由文件名来标注的。先运行一下。切换到./egs/yesno/s5目录下,运行sudo.

2017-12-27 17:37:59 9063 5

原创 Kaldi学习笔记(一)——Kaldi的下载安装与编译

Kaldi是一款基于C++编写的开源语音识别工具箱。这款工具既可以在Windows下编译也可以在Linux下编译。本次我是在虚拟机装上了Ubuntu。文档里面也说还是建议在Linux下使用Kaldi。一、下载下载直接利用git版本控制系统就可以了,打开终端,直接在你的实验目录下输入命令:git clone https://github.com/kaldi-asr/kaldi.g

2017-12-25 21:08:01 22839 6

原创 特征选择——卡方检验(使用Python sklearn进行实现)

在看这篇文章之前,如果对卡方检验不熟悉,可以先参考:卡方检验Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。1. 首先import包和实验数据:from sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import

2017-12-21 19:44:32 52314 7

转载 R语言——中文分词包jiebaR

R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要

2017-12-18 20:38:42 17272 1

原创 R语言——UTF-8各种问题解决方法

R语言在碰到读UTF-8文件,或者处理UTF-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类总结出了一些解决办法:1. 读UTF-8文件,例如UTF-8格式的csv:最好的处理办法就是:a1=read.table('C:\\test11.csv',sep=',',fileEncoding = 'UTF-8',header = F)如果使

2017-12-14 20:31:26 58385 2

原创 统计学——卡方检验和卡方分布

什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。例子1:四格卡方检验...

2017-12-11 13:02:37 222273 47

转载 R语言——关于R在Linux服务器上生成图片中文乱码原因及解决办法

乱码原因:    主要是因为Linux没有对应字体库导致。Linux本身自带字体库(具体有啥,暂不深究),但不包含windows上的,尤其像“微软雅 黑”这样的字体库(主因应该是版权问题);所以在Windows开发R程序,在设置字体后(如“宋体”、“黑体”、“微软雅黑”),在Linux上是无法 显示的。 解决办法:    以CentOS为例,其他版本请自行对照相应路

2017-11-29 19:23:24 3279

原创 R语言——在linux环境下如何画图或保存图片

通常在win环境下,我们利用RStudio画图非常方便,直接plot就可以展现出图片,但是在linux环境下,我们通过shell则无法画图。问题例如我们在linux下的R中输入如下命令:png('test.png')则会出现如下错误信息:Error in .External2(C_X11, paste("png::", filename, sep = ""), g$wi

2017-11-29 10:47:14 13492 2

用牛顿法和弦截法求解线性方程

MFC编一个小程序,面对复杂的非线性方程时,利用此软件就可以方便快捷的求出解,其中我们在使用牛顿法的时候,需要输入要求的表达式,并输入初始值和精度,在使用弦截法的时候,同样输入初始值和精度,不同的是有两个初始值。改软件可以极大的方便我们求解复杂的非线性方程,不用再做各种复杂的运算,只需输入简单的几项,很快就能得到我们需要的结果。 改软件以C++作为前台界面,利用MFC做出的界面清爽、一目了然,简单易操作,极大的方便了我们在日常生活中遇到的非线性方程的求解问题,具有很大的实际意义。

2012-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除