自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(146)
  • 资源 (1)
  • 收藏
  • 关注

原创 变异系数(Coefficient of Variation, CV)

简单了解一下变异系数

2025-02-11 16:02:16 2935

原创 数据分析:pandas.skew 复现

复现 pandas 的skew 方法时候,自由度设置的一些问题

2025-02-07 16:22:51 565

原创 Golang: 对float64 类型的变量进行原子加法操作

高并发环境下对一个 float64 类型的变量进行原子加法操作的场景。例如,在统计、计数器、累加器等需要高精度浮点数计算的场景中。

2025-02-06 12:01:00 333

原创 Golang中的锁机制

Golang中的锁机制:互斥锁(Mutex)和读写锁(RWMutex)

2025-01-10 16:30:30 641

原创 golang - context.Context:Goroutine数据传输和管理

golang Goroutine 并发管理 - context.Context:

2025-01-10 14:58:01 498

原创 Golang 并发之 Goroutine

Goroutine 可以并发执行,意味着可以同时执行多个 Goroutine。Go 运行时会自动管理 Goroutine 的调度和执行。Goroutine 是 Go 编程语言中的一个重要概念。它是 Go 语言实现并发的基础,可以简单地理解为 Go 语言中的。每个 Goroutine 都有自己的栈空间、程序计数器和其他必要的运行时数据结构。Goroutine 之间是相互独立的。Goroutine 的创建和切换都非常快速,只需要几微秒。这与操作系统级别的线程相比要快得多。

2025-01-10 14:45:26 368

原创 golang 的 panic

go lang 程序发生panic 的情况

2025-01-09 11:19:01 257

原创 降维算法之PCA(PrincipalComponent Analysis,主成分分析)

如果一个变量增大时另一个变量减小,那么它们的协方差就是负的 对于你的数据,协方差矩阵可以帮助你理解特征之间的关系。降维是指在保留数据特征的前提下,以少量的变量表示有许多变量的数据,这有助于降低多变量数据分析的复杂度。如果我们使用针对每个主成分计算出的特征值除以特征值的总和,就能够以百分比来表示主成分的重要度,这个比例叫作贡献率,它表示每个主成分对数据的解释能力。而 B 是对变量之间没有相关性的数据进行 PCA的结果,从图中可以看出,各个主成分的贡献率 几乎相同。PCA 是一种用于减少数据中的变量的算法。

2025-01-05 18:34:43 564

原创 特征矩阵计算共线性的几种方案

共线性计算

2024-12-25 15:46:08 300

原创 R square 的计算方法和一点思考

R square 的 一些思考

2024-12-17 19:09:27 711 2

原创 golang:atomic.Pointer

go语言标准库sync/atomic 的原子性操作

2024-04-29 12:42:19 1424 1

原创 golang 的原子操作

go语言处理多线程/并发等问题使用的原子性操作

2024-04-29 12:27:09 607 1

原创 数据分析数据预处理:重复值(duplicated方法)

数据预处理:重复值问题

2024-04-28 15:21:37 1465

原创 高频因子-撤单逻辑

撤单因子

2024-03-29 19:35:51 521

原创 因子处理:因子值有0值和负值怎么求对数

自然对数转换 np.log1p函数的应用

2024-03-28 16:29:48 360

原创 因子处理:/n*2-1:一个简单的标准化方法

因子处理:/n*2-1:一个简单的标准化方法

2024-03-28 15:54:28 240

原创 nb.jit:一个非常简单给python提速的方法

nb.jit:一个非常简单给python提速的方法

2024-03-28 12:47:30 457

原创 python装饰器的作用

python装饰器的作用

2024-03-27 21:29:29 462

原创 OLS using metrix(fast)

use metrix method andstatsmodels.api to cal ols

2024-03-23 17:49:59 143

原创 库兹涅茨周期

库兹涅茨周期认为,在经济发展的早期阶段,社会经济的不平等程度会随着经济增长而增加。库兹涅茨周期的关键观点是,社会经济的不平等程度在经济发展的过程中会出现一个倒U型的变化曲线。成熟阶段:在经济发展的成熟阶段,收入和财富的不平等程度达到一个相对平衡的状态,社会经济的不平等程度开始减少。发展阶段:随着经济的发展,更多的人参与到经济活动中,经济增长更加广泛,收入和财富开始向更多的人群分配。初始阶段:在经济的初始阶段,经济增长主要由少数富裕的人或地区主导,导致收入和财富的不平等程度增加。

2023-10-25 11:51:26 797

原创 保序回归与金融时序数据

保序回归在回归问题中的作用是通过拟合一个单调递增或递减的函数,来保持数据点的相对顺序特性

2023-10-17 18:58:29 1757

原创 go.sum文件的作用

go.sum是 Go 语言项目中的摘要文件,用于记录项目的依赖项的版本和哈希值。

2023-10-12 15:22:45 2035

原创 go.mod 文件的作用

go.mod是 Go 语言项目中的模块文件,用于管理项目的依赖关系和版本信息

2023-10-12 15:16:05 2173 2

原创 六个步骤学会简单的数据清洗

六个步骤搞懂数据清洗

2023-07-29 16:30:33 1933

原创 初识分类问题

分类的目的就是找到这条线,用一条线将图中白色的点和黑色的点分开,只要找到这条线,就可以根据点在线的哪一边来判断图像是横向还是纵向的了。将图像数据转换为坐标: 白色的点是纵向图像,黑色的点是横向图像。根据尺寸把图像分类为纵向图像和横向图像,是二分类问题。

2023-06-12 11:33:49 418

原创 随机梯度下降法

梯度下降法更新1次参数的时间,随机梯度下降法可以更新n次。此外,随机梯度下降法由于训练数据是随机选择的,更新参数时使用的又是选择数据时的梯度,所以不容易陷入目标函数的局部最优解。这是介于最速下降法和随机梯度下降法之间的方法,不管是随机梯度下降法还是小批量梯度下降法,我们都必须考虑学习率η。当然,可以随机选择1个训练数据的做法,也肯定有随机选择m个训练数据来更新参数的做法。这个表达式中的k就是被随机选中的数据索引。比如以下形状的函数,最优解取决于初始值的选取。设随机选择m个训练数据的索引的集合为K,

2023-05-30 18:18:44 830

原创 多变量->多重回归

同样,求参数θ0, ···, θ3,也是分别求目标函数对θ0, ···, θ3的偏微分。之前的案例是根据广告费来预测点击量,但是,实际中要解决的很多问题是变量超过2个的复杂问题,也就是说,会有多个自变量X。举个例子:决定点击量的除了广告费之外,还有广告的展示位置和广告版面的大小等多个要素。像这样包含了多个变量的回归称为。

2023-05-30 17:48:39 174

原创 多项式回归

可以看出,即使增加参数,比如有θ3、θ4等,依然可以用同样的方法求出它们的更新表达式。在上一个案例中,使用了一次函数来拟合了广告费与点击量的关系,但如图,用曲线来拟合数据点或许更好。像这样增加函数中多项式的次数,然后再使用函数的分析方法被称为。

2023-05-30 14:17:19 85

原创 回归问题里的数学

投入的广告费越多,广告的点击量就越高,进而带来访问数的增加,不过点击量经常变化,投入同样的广告费未必能带来同样的点击量。根据广告费和实际点击量的对应关系数据,可以将两个变量用下面的图展示出来。如上图,如果花了200日元的广告费,广告的点击量大概是500次左右。这就是机器学习,从数据中进行学习,然后给出预测值。

2023-05-30 11:49:26 506 1

原创 机器学习算法

回归是处理连续数据时使用的方法,如时间序列数据。股价就是时间序列数据的一个例子,身高和体重本身就是连续的数据,假如记录下每天的身高和体重,那么得到的数据就是类似于股价的时间序列数据了。从这样的数据中学习它的趋势,求出“明天的股价会变为多少”“今后的趋势会怎样”的方法就是回归算法。当然了,股价的变动不只受过去股价的影响,所以光靠这个信息并不能很好地预测出来。

2023-05-29 16:08:07 591

原创 机器学习概述

无论是过去还是现在,计算机都特别擅长处理重复的任务。所以计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为机器学习或者模式识别。

2023-05-29 15:34:30 60

原创 [LightGBM] [Warning] Stopped training because there are no more leaves that meet the split requireme

lightgbm

2023-05-23 16:53:17 1510

原创 为什么lightgbm计算速度 比xgboost快那么多

为什么lightgbm计算速度 比xgboost快那么多

2023-05-11 16:23:12 357

原创 使用LightGBM模型的特征重要性

总之,gbm.feature_importance()返回每个特征的相对重要性评分,评分的计算依赖于整体的训练过程,方法有gain和weight之分,官方推荐使用weight方法。所以特征重要性的 Evaluation 主要依赖于整体的训练过程,而不是某一次训练的结果。它返回的是每个特征的相对重要性评分。特征重要性分析可以帮助我们理解模型,发现并去除不相关的特征,提高训练的速度和效果。小的特征重要性评分值代表当前特征对该模型的贡献较小,可以考虑去除。将所有特征的评分进行标准化,得出各特征的相对重要性排名。

2023-05-05 16:07:50 4103

原创 plt.subplots用法

python matplotlib subplots 用法详解

2023-03-28 15:25:28 5671

转载 数据的向量表示、降维问题及PCA算法

内容来源:http://blog.codinglabs.org/articles/pca-tutorial.html在数据挖掘或机器学习工作中,数据常被表示为向量。比如,某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量,其中一条看起

2020-05-31 20:16:39 2945 1

转载 python中copy()和deepcopy()

参考文章:https://blog.youkuaiyun.com/u010712012/article/details/797541321. python的赋值与存储方式#第一种情况>> a = [1, 2, 3]>>> b = a>>> a = [4, 5, 6] //赋新的值给 a>>> a[4, 5, 6]>...

2020-03-30 19:11:02 259

原创 多因子模型 —— 因子正交化处理

Why do this?传统的多因子模型处理共线性的方法,如IC加权、IR加权,ICIR加权等,都以IC值为基础确定各因子在模型中的权重。而IC是当期因子暴露与下一期收益间的相关系数。传统方法的缺陷是:如果因子间存在较强的相关性,通过上述加权方式,最终会导致因子对于某种风格的因子重复暴露。使得整个组合的表现严重偏向于该因子,削弱其他因子的效果。具体来说,当因子表现好时,组合会获得更高的...

2020-03-29 16:32:42 12759 3

原创 多因子选股模型 —— 因子间相关性检验和等权因子法

1. import package and download datafrom atrader import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport mathimport statsmodels.api as smimport datetime as dtimpor...

2020-03-28 17:16:02 9274 1

原创 多因子选股模型 —— 因子历史收益率(因子与股票收益率回归后的收益率)加权法

1. import package and download datafrom atrader import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport mathimport statsmodels.api as smimport datetime as dtimpor...

2020-03-28 16:50:01 5078

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除