- 博客(58)
- 资源 (2)
- 收藏
- 关注
原创 Hive日期函数应用之月份差值计算
一个常见的方法是首先将日期转换为 Unix 时间戳(如果它们还不是的话),然后通过计算时间戳之间的差值,并将这个差值转换为月份。然而,这种方法并不总是准确的,因为它假设每个月都有相同的天数(30或31天),而实际上不同月份的天数是不同的。或其他适当的函数来将它们转换为日期类型,或者确保它们是以 Hive 可以解析的日期格式存储的。函数来分别提取日期中的年份和月份部分,然后进行相应的计算。所以上面的代码输出后的数值是有小数点的,还需要进行转换。另外,请注意,这种方法不会考虑日期中的日部分。
2024-01-21 17:04:00
3253
原创 Hive表生成函数详细讲解
在Hive中,表生成函数(Table-Generating Functions, TGFs)允许用户从一行输入数据生成多行输出数据。这些函数特别有用于处理数组、映射和其他复杂数据类型。以下是EXPLODE()函数的详细讲解,包括案例和使用注意事项。需要注意的是,INLINE()函数在Hive中并不直接存在;相反,它可能是对其他数据库系统中类似功能的引用,或者是对EXPLODE()与结合使用时的概念性描述。
2024-01-18 08:45:00
245
原创 Hive转换函数详细讲解
在Hive中,转换函数用于将一个数据类型转换为另一个数据类型。以下是CAST()函数的详细讲解,包括案例和使用注意事项。需要注意的是,Hive中并没有CONVERT()函数,通常在其他数据库系统(如SQL Server)中使用CONVERT(),但在Hive中应使用CAST()来实现类型转换。
2024-01-17 10:00:00
706
原创 Hive字符串函数讲解
在使用这些字符串函数时,请确保输入的数据类型与函数的要求相匹配,并注意处理可能的 NULL 值和边界情况。此外,由于 Hive 运行在 Hadoop 集群上,对于大规模数据的字符串处理可能会有一定的性能考虑,因此在使用这些函数时要考虑到这一点。Hive 提供了许多内建的字符串函数来处理文本数据。
2024-01-16 18:44:59
371
原创 Hive数学函数讲解
在使用这些函数时,请确保输入的数据类型与函数的要求相匹配,并注意处理可能的异常值和边界情况。此外,由于 Hive 运行在 Hadoop 集群上,对于大规模数据的计算可能会有一定的性能考虑,因此在使用这些函数时要考虑到这一点。Hive 是一个基于 Hadoop 的数据仓库工具,它支持类似于 SQL 的查询语言 HiveQL,并且提供了许多内建的数学函数来处理数值数据。下面我将逐一讲解您提到的这些数学函数,并提供一些使用案例和注意事项。
2024-01-16 18:41:22
657
原创 什么是欧拉筛??
欧拉筛(Euler's Sieve),又称线性筛法或欧拉线性筛,是一种高效筛选素数的方法。它的核心思想是从小到大遍历每个数,同时标记其倍数为合数,但每个合数只被其最小的质因数标记一次,从而避免了重复标记,实现了线性时间复杂度的素数筛选。,用于标记每个数是否为素数。然后,函数从 2 开始遍历到。最终,函数返回素数列表。在这个例子中,我们调用。来找出 100 以内的所有素数,并打印结果。小的数的倍数已经被之前的素数标记过了)。加入到素数列表中,并标记。的所有倍数为合数(从。,对于每个遍历到的数。
2024-01-15 18:03:21
1242
2
原创 Hive窗口函数整理
Hive 中的窗口函数允许你在结果集的一个特定“窗口”内对行进行计算。这些窗口可以是物理的(基于行在数据中的实际位置)或逻辑的(基于行的一些排序标准)。窗口函数在处理排名、计算累计和或计算移动平均值等问题时特别有用。这只是 Hive 中窗口函数的一个简短列表。当与其他 SQL 功能(如分区、排序和子查询)结合使用时,窗口函数可以非常强大。时,通常需要指定窗口范围,因为默认窗口可能不会包括所有行。
2024-01-15 17:40:14
886
原创 基于讯飞星火大语言模型开发的智能插件:小策问答
在大语言模型中,比如ChatGPT,"Token"这一概念具有重要的意义,是模型处理和理解文本的最小单位。而在中文中,通常以字或词作为token。其次,小策问答的使用方式非常灵活,用户不需要会员充值,只需要根据自己的使用量进行充值,而且积分永久有效,这大大降低了用户的使用成本。这种模型的训练过程涉及到大量的数据和复杂的算法,但最终的目标是让机器能够像人一样理解和使用语言。总的来说,小策问答是一款非常实用的GPT插件小工具,无论你是需要进行内容创作,还是需要进行语言理解,都可以从小策问答中找到帮助。
2023-11-10 08:59:26
1178
原创 机器学习算法-集成学习
Stacking,也被称为堆叠,是一种集成学习策略,它主要利用多个不同的基学习器进行模型的集成。其核心思想是,首先将数据集分成训练集和测试集,然后使用训练集训练得到多个初级学习器。接着,让这些初级学习器对测试集进行预测,并将输出值作为下一阶段训练的输入值,最终的标签作为输出值,用于训练次级学习器。为了尽可能降低过拟合的风险并提高模型的泛化能力,通常在Stacking算法中会采用交叉验证法或留一法来进行训练。
2023-11-09 19:16:28
1093
原创 人工智能领域迎来了一场革命性的变革,这场变革的主角就是ChatGPT
传统的搜索引擎往往只能根据关键词进行简单的匹配,而ChatGPT则能够理解用户的需求,提供更加精准的答案。例如,当用户询问“如何煮意大利面”时,ChatGPT不仅能够给出详细的步骤,还能根据用户的口味和需求提供个性化的建议。传统的客服模式往往需要大量的人工干预,而ChatGPT则能够通过自然语言处理技术,自动回答用户的问题,解决用户的问题。作为一种基于大规模预训练的语言模型,ChatGPT凭借其强大的自然语言处理能力,为我们的生活带来了前所未有的便利。
2023-11-09 13:15:02
391
原创 风险风控-逻辑回归理论基础
在求解逻辑回归模型参数时,常用的方法是极大似然估计,该方法通过最大化似然函数来估计模型参数,使得模型对训练数据的预测尽可能接近实际观察到的结果。在这个过程中,我们得到的计算结果通常是0-1之间的连续数字,这些数字代表了事件发生的可能性或概率。在逻辑回归中,最大似然估计是一种优化策略,其目标是寻找一组参数,可以最大化观察到的数据出现的概率。具体来说,这意味着我们希望找到一组参数,使得在给定这组参数的情况下,我们所预测的样本出现的概率是最高的。,其中p是事件发生的概率,x是特征的线性函数。
2023-11-06 15:10:15
753
原创 第一讲、风险风控建模-评分模型介绍
例如,在金融领域的风控建模中,我们可能会根据客户的个人信息(如年龄、性别、职业等),以及客户的信贷历史、还款行为等变量来构建评分模型。然后,通过加权求和或其他数学运算,我们可以得到每个客户的一个风险评分。此外,考虑到评分卡模型的统计学特性,例如其分箱与WOE编码可以降低数据的复杂度和特征的灵敏度,提升了模型的稳定性,这使得它特别适合用于处理大规模的零售业务。例如,在金融领域,评分模型常被用于客户的信用评估和风险识别,如A银行互联网贷款申请评分模型就是数据挖掘技术应用于客户风险识别的一个实例。
2023-11-06 08:44:57
1194
原创 SHAP算法在营销增益模型中的尝试
Shap算法,全称SHapley Additive exPlanations,即沙普利加和解释。它的核心思想是将输出值归因到每一个特征的shapley值上,以此来量化衡量特征对最终输出值的影响。这个算法是由华盛顿大学的研究者开发并开源的,因此被命名为SHAP。作为Python开发的"模型解释"包,SHAP可以解释任何机器学习模型的输出。其理论基础来源于合作博弈论,构建了一个加性的解释模型,所有的特征都被视为“贡献者”。
2023-11-02 08:44:46
677
1
原创 利用chatgpt大语言模型来做数据预处理
数据预处理是机器学习中的一个重要步骤,包括数据清洗、数据转换、特征选择等。这些步骤通常需要人工进行,或者使用专门的数据预处理工具和库,如Python的Pandas库、Scikit-learn库等。今天我们将利用chatgpt(国内版本-小策智能问答)的辅助帮我们进行数据预处理,本文将用提问的方式进行!提问:介绍一下数据清洗以及python代码案例小策: 数据清洗是机器学习中的一个重要步骤,主要目的是去除或纠正数据中的噪声、错误和不完整信息,使数据更加准确和可用。
2023-11-01 08:58:33
1664
原创 利用python GPT-2写一个机器学习模型开发案例
GPT-2是一种属于Generative Pre-trained Transformers的算法,是自然GPT-2是一种属于Generative Pre-trained Transformers的算法,是自然语言处理(NLP)领域具有重要影响力的算法之一。GPT-2模型的结构与GPT一脉相承,适用于语言模型,即预测给定一系列上下文词语后,下一个词的概率。值得注意的是,每一代GPT模型的参数量都在不断增长,例如2019年发布的GPT-2拥有15亿参数,而2020年发布的GPT-3则达到了1750亿参数。
2023-11-01 08:36:34
396
原创 模型平稳性指标psi和csi
1. psi(Partial Autocorrelation Integrated): 它是对原始自相关函数进行积分得到的,可以衡量时间序列数据的平稳性。当psi大于0时,表示数据具有非平稳性。2. csi(Cumulative Sums of Squares): 它是对原始自相关函数的平方进行累加得到的,可以衡量时间序列数据的平稳性。当csi大于0时,表示数据具有非平稳性。应用:在金融、经济学等领域中,经常需要对时间序列数据进行平稳性检验,以确定数据是否符合假设条件,从而选择合适的模型进行建模。
2023-10-31 17:54:08
994
原创 利用GPT来学习数据分析
Pandas提供了多种方法来处理这些问题,例如,我们可以使用fillna函数来填充缺失值,使用dropna函数来删除包含缺失值的行或列;Pandas的groupby函数是一个非常强大的工具,它可以让我们对数据进行分组,然后对每个组应用各种函数。最后,我们打印了DataFrame的内容。通过GPT,我们可以生成各种复杂的案例代码,从而在实践中学习和掌握Pandas的各种功能。提问:Pandas的groupby函数是一个非常强大的工具,它可以让我们对数据进行分组,然后对每个组应用各种函数,请给出示例。
2023-10-31 15:11:19
1417
原创 如何利用GPT大语言模型来进行A股投资分析
田扬神策系统是一款功能强大的策略回测工具。这款工具具有多种功能,包括数据加载、策略构建、策略验证、策略分析、策略部署以及新增的大语言模型问答功能。
2023-10-27 13:03:41
945
原创 机器学习生成实验数据仿真-指定KS或AUC值
有的我们在做机器学习的时候,需要自己做一些实验。这时候我们经常会制造一些数据用于训练,比如我们要生成一个KS值等于66的样本数据,那么如何来操作呢。这样X,y的数据我们都生成了,然后我们再使用该数据进行画图,看一下是否满足KS为66呢。
2023-10-20 11:47:57
261
原创 lightgbm自定义的损失函数如何指定优化方向
custom_loss_function是将评估函数转化为损失函数的函数,它返回形式为 (eval_name, eval_result, is_higher_better) 的元组,其中is_higher_better指定了优化方向。需要注意的是,有些评估指标默认是递增的(如准确率),而有些评估指标默认是递减的(如均方根误差)。在使用fit方法时,可以查阅LightGBM文档以了解特定评估指标的默认优化方向,或者根据实际需求显式设定eval_metric参数的取值来指定优化方向。
2023-09-28 16:15:21
654
原创 DeepFM推荐模型处理文本型特征的案例代码
在下面代码中,我们针对文本类型的特征使用了tf.feature_column.sequence_categorical_column_with_vocabulary_list创建了一个序列分类列,并将其转换为嵌入向量的embedding_column。请根据实际情况修改分词处理的方式和嵌入向量的维度。
2023-08-03 16:45:50
252
原创 lightgbm权重转pmml时候如何修复变量上下界问题
修复该问题有两种方法,一个是人为的在转pmml文件里把变量的上下界进行修改,比如年龄原值范围0-99,修改成-9999999999~9999999999这个范围;使用离群值处理方法:如果超出边界的值被视为离群值,并且不符合模型的预期行为,可以使用离群值处理方法来处理这些数据点。请注意,在处理超出边界的预测数据时,需要根据具体问题和数据的特点选择适当的方法。根据数据的分布和领域知识,对于超出边界的情况进行合理的处理,以确保预测结果的准确性和可靠性。如果存在,则可以对这些值进行修正或采取其他合适的处理方式。
2023-07-22 11:42:12
322
原创 一个模型多个目标变量如何构造
c. 损失函数与优化器:选择适当的损失函数来度量模型输出与目标变量之间的差异。前一段时间领导突发奇想,为了节能减排,想在一个机器模型中添加多个目标变量,达到一次训练,多向预测的效果。您可以使用常见的神经网络模型,如多层感知机(MLP),卷积神经网络(CNN)或循环神经网络(RNN),根据问题的特点进行调整。多输出模型(Multiple Output Model):构建一个具有多个输出层的神经网络模型,每个输出层对应一个目标变量。单输出模型:将两个目标变量合并为一个向量或矩阵,并将其作为单个输出层的目标。
2023-07-21 18:20:23
466
原创 神经网络变量重要性排序输出
它基于合作博弈理论中的 Shapley 值概念,将每个输入特征对于模型预测输出的贡献度进行量化。SHAP 值的计算过程相对复杂,需要遍历特征子集并进行差分计算。但是它提供了一种全局解释模型预测的方法,可以帮助理解神经网络中每个输入特征对于预测结果的影响程度。类,我们可以方便地在 Keras 神经网络中计算 SHAP 值,并可视化特征的重要性。这样可以帮助我们更好地理解神经网络的决策过程和各个输入特征的相对贡献。因为举例的数据是手写数据集案例,左边坐标轴相当于784像素点中的某个点对分类的重要性影响!
2023-07-12 16:19:52
2617
2
原创 优化机器学习回归问题评估函数:R方评估法
因此,选择使用R方作为回归模型的评估指标,通常是为了获得更全面和统一的性能评估。基线模型和随机模型:在使用R方进行模型评估时,应该考虑基线模型(如使用目标变量均值进行预测)和随机模型(如随机预测)的性能。如果目标变量的变异性很小或者数据存在严重的偏斜,R方可能会受到限制,并不一定能够准确地反映模型的性能。总而言之,使用R方作为模型评估指标时,需要综合考虑数据特点、基线模型、过拟合和欠拟合等因素,并与其他评估指标一起使用,以全面了解模型的性能。因此,R方的解释应该基于具体的上下文和其他模型进行比较。
2023-07-09 10:39:55
1503
原创 量化投资:小市值策略
当其他市场部分表现不佳时,小市值股票可能会有良好的表现,从而平衡整体投资组合的回报。敏捷性和机会灵活性:相对于大型公司,小市值股票的决策链条较短,管理层较灵活,能够更快地适应市场变化和利用机会。首先,我们选取了总市值有小到大排序的前50只股票,排除掉北交所、ST类股票,然后限定市盈率大于0,按照市净率有小到大选取。小市值股票是指市值较小的公司股票,通常具有较高的增长潜力和较高的风险。在等待了一段时间后,我们的策略回测完毕,一共成交了140笔,年化收益11%,总收益108%介绍一个小市值股票投资策略。
2023-07-08 16:18:35
935
原创 量化投资-最好的选股策略竟是不用策略
2007-2016期间,股市经历大牛市、大熊市,还包括了横盘震荡等,所以该策略的模拟是值得深入研究。后续我们将对该选股策略进行迭代优化,毕竟不会真的用随机法来选股的,我们会辅助一些KDJ、MACD选股指标进行进一步的策略优化验证!为了更多地观察随机策略的作用,持仓策略我们给定的资金是100万,且当日最多可以买入100只股票(交易过程中,收益已经剔除了交易相关费用)我们模拟的周期是2007年1月至2016年12月,共计10年时间,交易次数达2万次,总收益率在190%左右,年化在19%左右!
2023-07-01 17:34:37
69
原创 机器学习模型中一个变量重要性很强但是测试集上分布不稳定,可以用随机赋缺失值的办法人为的给变量降权
通过随机赋缺失值,你可以将该变量的值替换为缺失值(如NaN),然后在训练模型时将缺失值作为一种特殊情况处理。通过观察模型在缺失值处理后的性能变化,可以评估原始变量的重要性是否降低。如果一个变量的重要性很高但分布不稳定,你可以尝试使用随机赋缺失值的方法来人为地给变量降权。这种方法可以帮助减少变量的过拟合和异常值的影响,并提高模型对其他特征的关注度。
2023-06-29 16:26:18
146
原创 量化投资-股票数据免费下载
下载最新版田扬神策工具,软件安装完毕后,要选一个数据的日期区间,这个区间可以按照个人的需要进行设定。然后点击刷新加载数据,这里的数据加载需要很久还需要大家耐心等待。下面是导出的数据文件列表,目前仅支持技术指标和日线指标的数据导出,后续会增加更多的形式的指标数据。点击保存按钮,该软件就可以按照月的频率进行数据的导出,这个过程还是很耗费时间的。数据加载完成后,就可以导出数据了。
2023-06-26 19:15:09
468
原创 使用Python进行逻辑回归建立评分卡的完整示例代码,包括数据预处理、分箱、特征工程、共线性剔除、模型评估和信用评分规则制定的过程
逻辑回归是一种用于建立评分卡的常用统计模型。评分卡是银行、信用机构等金融机构用于评估个人信用风险的工具,通过将个人的各项信息转化为一个综合评分来判断其违约概率。
2023-06-26 10:00:00
1063
原创 利用lightgbm模型实践LTR(Learning to Rank)排序算法
LTR(Learning to Rank)是一种通过机器学习方法来进行排序的技术,它旨在根据给定的查询和相关性/排序标签对文档或项进行排序。LTR任务通常涉及到多个查询和相关的文档或项,并且需要对每个查询的文档或项进行排序。通过给定的特征和标签,参与者需要构建LTR模型来预测对象之间的相对排序,并提供最佳的排序策略。数组的长度应与数据集中查询的数量相匹配,并且数组中的元素表示每个查询的文档或项的数量。参数的值自动划分数据集,确保每个查询的相关文档/项以正确的顺序进行排序。
2023-06-24 18:23:12
1634
原创 不同的参数条件下,LightGBM的特征重要性差异非常大,这是怎么回事?
如果关注特征的选择频率和规律,以及特征在模型的拟合过程中的作用,可以使用'split'。'gain':基于分裂后的增益的特征重要性。因此,在使用LightGBM进行特征重要性分析时,需要注意参数的设置和数据集的特点,并结合多次运行和交叉验证的结果来进行综合判断。不同的学习率和迭代次数会导致模型收敛速度和精度的变化,进而影响特征重要性的排序。例如,如果某个特征具有较大的方差或极端值,那么它对特征重要性的贡献可能会更大。常见的取值有 'split'(基于特征分裂次数)和 'gain'(基于分裂后的增益)。
2023-06-24 17:58:48
1277
原创 利用LightGBM分析客群迁徙原因
通过分析特征的重要性,可以了解客户迁徙的主要驱动因素。这些信息可以帮助企业了解客户迁徙的原因,从而制定相应的策略,促进客户留存和增长。通过训练一个梯度提升树模型,可以获取特征的重要性排名,从而了解哪些特征对于客群迁徙起到关键作用。数据准备:收集包含客户相关数据的数据集,该数据集应包括与客群迁徙相关的特征,如客户属性、行为数据等。数据划分:将数据集划分为训练集和测试集,通常采用交叉验证的方法进行训练和评估模型的性能。特征重要性评估:通过分析训练好的模型,获取特征的重要性排名。属性来获取特征的重要性排序。
2023-06-24 17:19:09
222
1
原创 模型快速部署之决策树模型转SQL-case-when概率代码
提供一个决策树模型转sql代码,把决策树结构转成case when 的概率模式,方便模型的调用部署
2023-06-24 16:37:19
444
1
股票数据,券商(卖方)每天研报的盈利预测数据;提取日期位20220101-20240601
2024-06-09
股票数据:卖方盈利预测数据
2024-06-09
田扬神策量化投资模拟器
2023-06-24
身份证前六位对应县市地区及维度信息
2023-06-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人