- 博客(201)
- 资源 (1)
- 收藏
- 关注
原创 sklearn数据分析概览
一 分析算法的选择二 流程train_x,train_y,test_x,test_y = getData()model = somemodel()model.fit(train_x,train_y)predictions = model.predict(test_x)score = score_function(test_y,predictions)...
2020-04-27 08:18:14
625
转载 高维多数据聚类(sklearn.cluster.affinityPropagation)和降维(manifold.LocallyLinearEmbedding)
一 、聚类cluster.affinityPropagation适合高维、多数据快速聚类不需要指定最终聚类族的个数对数据的初始值不敏感对初始相似度矩阵数据的对称性没有要求和k-centers聚类方法相比,其结果的平方差误差较小原理:在开始时,将所有节点都看成是聚类中心,通过在样本对之间发消息知道收敛来创建聚类。然后使用少量实例样本作为聚类中心来描述数据集,聚类中心时数据集种最能代...
2020-04-25 14:57:19
3328
原创 稀疏逆协方差矩阵估计(GraphicalLassonCV)
1.本方法适用于相关性不大的特征(对象)的相关行分析,同时,样本数量要比特征数量少。2.如果相关性比较大的话则适合用shrinkage covariance(缩放相关性分析)以下为sklearn官方解释:协方差矩阵的逆矩阵(精度矩阵)与偏相关矩阵正比例,即它能给出数据之间的部分关系。也就是说,如果在一定条件下,两个特征彼此独立,则它们的协方差矩阵的对应系数将为零。所以,通过从数据中学习...
2020-04-24 21:00:22
5292
1
原创 期权定价公式的推导(欧式)
1.C=e−rTEQ[max(ST−K,0)]C = e^{-rT}E^{Q}[max(S_T-K,0)]C=e−rTEQ[max(ST−K,0)]又可以写为C=e−rTEQ[(ST−K)]IIST>=K](1)C = e^{-rT}E^{Q}[(S_T-K)]II_{S_T > =K }] \tag 1 C=e−rTEQ[(ST−K)]IIST>=K](1)其中QQ...
2020-04-15 17:46:10
7933
原创 量化面试题及答案
3月份亏钱了,还有房贷,可是想来想去还是想做股票。也许这就叫做狗改不了吃屎。空仓,每天做一些题,加深理解,在此做个记录。对冲和复制问2.32:看跌期权可以用来做什么?答:对冲,投机,套利4月15日:要把握的是确定性(趋势),而不是被波动性牵着鼻子走The Greeks(期权价格的敏感度)问2.43:在给定计算价格的方法时,计算Greeks的方法都有哪些,各有那些优缺点?...
2020-04-15 17:22:39
7484
原创 几个重要的凸集
1.任意线段{x0+θv∣θ⩾0}x0∈Rn,θ∈R,v∈Rn\{x_0 + \theta v | \theta \geqslant 0 \} x_0 \in R^n,\theta \in R,v \in R^n{x0+θv∣θ⩾0}x0∈Rn,θ∈R,v∈Rn2.超平面与半空间超平面(hyperplane){X∣aTX=b},X,a∈Rn,b∈R,a≠0\{X|a^TX = b\},...
2020-04-13 18:58:54
488
原创 凸优化基本概念-仿射集,凸集,凸锥
1)凸集,凸函数,凸优化仿射集例1:任何一个线性方程的解集一定是一个仿射集c={x∣AX=b},A∈Rm×n,b∈Rm,x∈Rnc=\{x|AX = b\},A \in R^{m\times n},b \in R^m,x \in R^nc={x∣AX=b},A∈Rm×n,b∈Rm,x∈Rn证明如下:∀X1,X2∈c\forall X_1,X_2 \in c∀X1,X2∈c,AX1=b...
2020-04-12 23:16:04
795
原创 凸优化:一些简单的相关概念
一 基本准则:1.有一个可解集合2.有一个寻找准则二 数学语言如下:最小化方程式:f0(x)(1)f_0(x) \tag1f0(x)(1)限制条件: fi(x)<=bi,i=1,2,3,......m(2)f_i(x) <= b_i,i=1,2,3,......m\tag2fi(x)<=bi,i=1,2,3,......m(2)优化变量:X=[x1,x2,x...
2020-04-12 12:17:03
235
原创 矩阵乘法
矩阵A.B=C,则CijC_{ij}Cij等于A中的i行乘以B中的j列.参考课程[a11a12a13a14a21a22a23a24a31a32a33a34](A) \left[ \begin{matrix} a11 & a12& a13&a14\\ a21 & a22 & a23 & a24 \\ a31 & a3...
2019-10-19 07:48:11
537
转载 (Q-Q图)分位数图详解
一 定义:设原序列为X=x1,x2,x3,......xNX = {x_1,x_2,x_3,......x_N}X=x1,x2,x3,......xN,分位数Qi=xi−mean(x)δQ_i = \frac{x_i - mean(x)}{\delta}Qi=δxi−mean(x),其本质是某个值偏离均值的单位。二 做法:三 解图如果是在同一条线上,则样本分布和理论...
2019-10-12 21:58:57
8089
转载 python中import其他文件夹下的模块
如果要import不在同一个路径下的module,则需要先把这个module的路径添加进来。例如:
2019-09-19 15:32:01
6264
1
原创 选股方法
注意:本文是课堂笔记,完全是为方便个人复盘记录的,没有方便大众的意图,不喜勿喷。1,2如图3.遗传算法(计算时所选数据不要超过3年)4.根据marchenko-pastur分布来干掉随机干扰项(第九课,1:41:31)...
2019-09-16 09:15:34
701
原创 量化交易第9课笔记
线性函数:A⃗x⃗=λx⃗\vec{A} \vec{x} = \lambda \vec{x}Ax=λx的含义是经过A⃗\vec{A}A变化后得到的值仍然与向量X⃗\vec{X}X共线性并不是所有的X⃗\vec{X}X都满足这个等式。如果X⃗=X⃗T\vec{X} = \vec{X}^TX=XT,则X为对称阵。对称阵的特征值为实数。所有特征值对λi\lambda_iλi应的x⃗i\vec...
2019-09-15 21:57:11
321
转载 install quantopian时出现No module named pip.req的解决办法
参考:https://stackoverflow.com/questions/25192794/no-module-named-pip-req其中适用于我的解决办法:把setup.py中的
2019-09-06 16:04:12
3636
转载 ADF检验
一 在python中的实现:import statsmodels.tsa.stattools as stmstm.adfuller(data,x, maxlag=None, regression=‘c’, autolag=‘AIC’, store=False, regresults=False)二 背景知识补充:1.平稳性: 假定某个时间序列是由一系列随机过程生成的,即假定时间序列xt(t...
2019-08-30 18:47:47
25773
原创 WOE,IV ,PSI,单变量PSI,KS值,capture rate
1.WOEWeight of Evidence,证据权重。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(离散化,分箱等)。分组后,对于第i组,这个组中响应客户站样本中所有响应客户的比例为pyip_{yi}pyipyi=yiyTp_{yi}=\frac{y_i}{y_T}pyi=yTyi这个组中未响应客户占所有未响应客户的比例为pnip_{ni}pnipni=ni...
2019-08-04 17:42:23
4703
原创 FM(factorization Machines)
《Factorization Machines》paper的阅读笔记,仅为了整理个人思路。个人觉得FM的本质就是预测值=偏置+权重1单变量+权重2变量之间的相互作用。偏置和权重都可以是标量,也可以是向量下面是本人认为重要的文章内容摘抄与翻译,能力有限,水平不足,不喜请绕道。一 FM的优点- 能够估计SVM所不能的稀疏矩阵的参数(FMs allow parameter estimatio...
2019-08-02 15:51:50
236
转载 估算张量(Tensor.eval)与执行操作(Operation.run)
import tensorflow as tf#创建数据流图:y = Wx + b,其中,W和B为存储节点,x为数据节点x = tf.placeholder(tf.float32)W = tf.Variable(1.0)b = tf.Variable(1.0)y = Wx + bwith tf.Session() as sess:tf.global_variables_initial...
2019-07-24 22:07:02
357
转载 Momentum, RMSProp, Adam,自适应学习率
https://blog.youkuaiyun.com/willduan1/article/details/78070086上面这篇文章讲得很好
2019-07-12 10:32:53
799
转载 keras中的类ModelCheckpoint讲的比较通俗的文章
https://machinelearningmastery.com/check-point-deep-learning-models-keras/
2019-07-11 19:15:30
1192
原创 seven老师直播课笔记(7月9号,流水账式,没整理)
raw 数据——>能被学习的数据的过程:特征工程分类:离散的输出空间回归:连续的输出空间线性分类器:D维的空间映射到K维的空间的空间,W=W*D维向量的点积:其物理意义是计算两个变量之间的相关度和相似性softmax:输出的是概率空间yiy_iyi是一个独热编码列向量,yi^\hat{y_i}yi^也是列向量所以Li=−yi.log(yi^)L_i=-y_i.log(\...
2019-07-10 17:32:03
216
原创 7月5号线下课:集成学习(杨老师,流水账式,没整理)
同质集成:基学习器异质集成:组建学习器Boosting:串行学习,bias比较小Bagging:并行学习,variance比较小stacking:投票方法是学出来的,学:其实就是迭代,纠错,递归,集成学习一 wide(逻辑回归)&deep learning(深度学习)(Google):wide:记忆性Generalization:泛化性平衡相关性和多样性特征工程一定是层...
2019-07-10 17:31:00
295
转载 model优化方法及偏差与方差
目标:argminxf(x)arg min_{x} f(x)argminxf(x),其中,g(x)=∇f(x),H(x)=∇∇f(x)g(x)=\nabla f(x), H(x)=\nabla \nabla f(x)g(x)=∇f(x),H(x)=∇∇f(x)1.梯度下降(Gradient Descent):xk+1←xk−a.g(xk)x^{k+1} \leftarrow x^{k}-a....
2019-07-04 10:27:37
332
转载 特征工程中的常用操作
1.数值型数据幅度缩放(最大最小值缩放,归一化…)离散化/分箱分桶(等距:pd.cut,等频:pd.qcut)(特征交叉)统计值(Max,min,quentile)四则运算(加减乘除)幅度变化(有一些模型对输入数据有分布建设,LR建设输入连续值特征符合正太分布)监督学习分箱(用决策树建模,用决策树学习连续值划分方式,把决策树中间节点取出来作为特征组合)2.类别型OneHot-...
2019-07-03 23:58:54
395
转载 循环神经网络与应用
循环神经网络 RNN :循环神经网络,处理的是后续的输出与之前的内容有关联的任务。 RNN引入“记忆”的概念 “循环”2字来源于其每个源于都执行相同的任务,但是输出依赖于输入和“记忆”。NMT: neural machine translation一.场景与多种应用:模仿生成论文(生成序列)二.层级结构xtx_{t}xt是时间ttt处 的输入StS_tSt是时...
2019-07-03 15:23:49
2021
转载 卷积神经网络
一 卷积神经网络层级结构保持了层级网络结构不同层次有不同形式(运算)与功能主要是以下层次:数据输入层/input layer三种常见的数据处理方式去均值:把输入数据各个维度都中心化到0归一化:幅度归一化到同样的范围PCA/白化:用PCA降维,白化是对数据每个特征轴上的幅度归一化卷积计算层/CONV layer局部关联:每个神经元看作一个filter窗口(receptive...
2019-07-02 10:10:18
141
转载 机器学习工具包链接
1.sklearn:https://scikit-learn.org/stable/modules/classes.html#module-sklearn.discriminant_analysis2.lightgbmhttps://lightgbm.readthedocs.io/en/latest/Python-API.html#training-api
2019-07-02 08:11:19
450
转载 很赞的讲神经网络BP的文章
有多赞呢,我觉得看完后几乎不需要看书了~https://www.zybuluo.com/hanbingtao/note/433855
2019-06-28 21:16:19
709
翻译 神经网络之传递函数(sigmoid ,双S)
1.S函数(sigmoid)f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+e−x12.双S函数f(x)=1−e−x1+e−xf(x)=\frac{1-e^{-x}}{1+e^{-x}}f(x)=1+e−x1−e−x
2019-06-27 16:26:01
6228
转载 交叉熵损失函数(softmax分类器)
对于训练集中第iii张图片数据xix_ixi,在WWW下会有一个得分结果向量fyif_{y_i}fyi,则损失函数几座Li=−log(efyi∑jefj)L_i=-log(\frac{e^{f_{y_i}}}{\sum_j e^{f_j}})Li=−log(∑jefjefyi)或者Li=−fyi+log∑jefiL_i=-f_{y_i}+log\sum_{j}{e^{f_i}...
2019-06-27 13:50:32
3757
转载 hinge loss(损失函数)详解
hinge loss:支持向量机损失函数1.对于训练集中的第iii张图片数据xix_ixi,在WWW下会有一个得分结果向量f(xi,W)f(x_i,W)f(xi,W);2.第jjj类的得分我们记作f(xi,W)jf(x_i,W)_jf(xi,W)j;3.则在该样本上的损失,我们由下列的公式可以计算得到(1)Li=∑j≠yimax(0,f(xi,W)j−f(xi,W)yi+△)L_i=...
2019-06-27 12:33:35
14445
转载 控制树模型过拟合的方式
1.增加样本量2.控制模型复杂度,比如限制最大树深,限制最小叶子结点样本量,结点进行分裂的样本最小值3.学习率4.阈值限定,比如信息增益小于某个值,停止增长5.交叉验证,如果验证集熵目标函数下降变缓慢或开始上升,则停止6.剪纸PS:来自七月在线作业题...
2019-06-25 12:47:54
554
原创 6月24 七月在线直播课笔记(流水账式,非技术,没归类)
仅对老师课堂上说的注意点之类的做了记录:1.一定要看case,以便了解模型预估咋哪里出现了什么问题导致AUC降低2.所有的问题尽可能转化为分类问题,少去做回归例如:大于0.5,标为1,反之,标为0.连续数值的label转为离散类别来做。3.无监督学习K-means:文本聚类plsalda4.PCA:降维,选择前面n个feature。算法工程师:工业界有数据作弊的情况(刷单,设...
2019-06-24 22:53:08
240
原创 分裂前后增益计算方法
ID3->信息增益C4.5->信息增益比CART->采用Gini系数XG Boost->L~∗=−12∑j=1TGj2Hj+λ+γT\tilde{L}^*=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_{j}^2}{H_j+\lambda}+\gamma TL~∗=−21∑j=1THj+λGj2+γT...
2019-06-23 17:18:31
1411
原创 梯度提升树(Gradient Boosting Tree)算法原理
一 计算过程:输入: *(xi,yi),T,L(x_i,y_i),T,L(xi,yi),T,L1.初始化f0f_0f02.for t=1 to T do2.1. 计算响应:yi^=−[∂L(yi,F(xi))∂F(xi)]F(x)=Ft−1(x)\hat{y_i}=-[\frac{\partial L(y_i,F(x_i))} {\partial F(x_i)}]_{F(x)=F_{...
2019-06-22 12:29:55
3914
原创 最大似然函数,琴生不等式
1.最大似然函数定义Y={y1,y2,…yn}p(y1,y2,…yn)=p(y1)p(y2)…p(yn)即y1,y2,…yn为独立同分布似然函数:likelihood=∏j=1Np(yi)\prod_{j=1}^{N}p(y_i)∏j=1Np(yi)Lδ=∏j=1Npδ(yi)L_\delta=\prod_{j=1}^{N}p_\delta(y_i)Lδ=∏j=1Npδ(yi...
2019-06-19 10:35:16
681
Q Q Plots_ Simple Definition & Example - Statistics How To.pdf
2019-10-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人