自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(215)
  • 收藏
  • 关注

原创 麻将对对碰游戏:规则与模拟实现

麻将对对碰是一种基于麻将牌的趣味游戏,结合了抽牌、许愿和对子结算的机制。本文将介绍游戏规则,并通过 Python 实现一个模拟程序,帮助大家更好地理解游戏玩法。

2025-02-15 15:38:46 1799

原创 正视行为金融学

虽然本人一直对行为金融有偏见,认为行为金融是一门诞生就注定自我毁灭的学科,但是越来越多的学术实践运用了行为金融的理论,包括财大研究生开设的投资学一课,也涉及了行为金融的研究。还是来看看行为金融的一些基本概念和理论。

2025-01-07 21:56:33 877

原创 Fama MacBeth两步法与多因子模型的回归检验

本文观点来自最近学习的石川老师《因子投资:方法与实践》一书。

2024-12-28 23:58:59 2027

原创 Machine-learning the skill of mutual fund managers

我们利用机器学习方法证明,基金特征能够一贯地区分高绩效与低绩效的共同基金,无论是在费用之前还是之后。这种超额表现持续超过三年。基金动量和资金流是预测未来风险调整后基金表现最重要的因素,而基金持有的股票特征则不具备预测能力。在高情绪期间之后,预测性多空组合的回报更高。我们使用神经网络进行的估计使我们能够揭示情绪与资金流及基金动量之间的新颖且显著的交互效应。

2024-12-28 17:38:51 711

原创 Firm-Level Climate Change Exposure

我们开发了一种方法,该方法能够识别收益电话会议参与者对公司气候变化暴露的关注度。此方法采用了一种机器学习关键词发现算法,并捕捉与气候变化相关的机遇、物理和监管冲击所导致的暴露。这些衡量指标适用于2002年至2020年间来自34个国家的10,000多家公司。我们证明,这些衡量指标在预测与净零排放经济转型相关的重要实际结果方面是有用的,特别是颠覆性绿色技术中的就业创造和绿色专利活动,并且它们包含的信息已经在期权和股票市场中被定价。

2024-12-27 23:29:19 810

原创 When can the market identify old news

是什么驱动了市场对旧闻反应的谜题?受关联忽视理论的启发,我们对金融专业人士进行了一项实验,结果显示即使是老练的投资者也难以识别出从多个来源重新组合而成的旧信息。我们使用来自彭博终端的1700万篇新闻文章的独特数据集来评估这一机制的市场影响。旧信息的重新组合比直接重印引发更大的价格变动和随后的反转。这种效应在新闻情绪、模糊性和投资者关注方面持续存在。此外,虽然对旧信息的整体反应会随着时间而减少,但对重新组合信息的差异反应却有所增加。

2024-12-26 01:59:01 1037

原创 Artificial intelligence, firm growth, and product innovation

我们研究了人工智能技术的使用及其经济影响。本文提出了一种基于员工简历来衡量企业层面的人工智能投资的新方法。我们的衡量标准揭示了各行业在人工智能投资上的显著增长。进行人工智能投资的企业在销售额、就业和市场估值方面经历了更高的增长率。这种增长主要通过增加的产品创新实现。(我们的结果在使用企业对大学人工智能毕业生供给的暴露程度作为工具变量时依然稳健。由人工智能驱动的增长集中在较大的企业中,并且与更高的行业集中度相关联。我们的研究结果强调,像人工智能这样的新技术可以通过产品创新促进增长并造就超级明星企业。

2024-12-24 01:05:25 1081

原创 Front-Page News The Effect of News Positioning on Financial Markets

本文利用彭博终端上新闻文章显要(“头条”)位置的外生变化,估计了新闻位置对价格发现速度的影响。头条文章在发布后的头10分钟内的交易量比同样重要的非头条文章高出240%,绝对超额回报率高176%。总体而言,头条文章中的信息在发布后的一个小时内完全融入价格。对于重要性相似的非头条信息,市场反应最终会趋同,但需要超过两天的时间才能完全反映在价格中。

2024-12-21 00:51:23 893

原创 告别Zoo of Factor:净化因子分析中的数据挖掘与p值操纵

2011年,时任美国金融协会(AFA)主席的John Cochrane在他的主席演讲调侃了 zoo of factors,并提出了铿锵三问。这个问题引发了关于随机贴现因子(SDF)是否有稀疏表达(sparsity)的大讨论。由资产定价理论可知,SDF 可以被表示为一系列资产的线性组合(Hansen and Richard 1987):m=1−w′rm = 1-w'rm=1−w′r式中m为随机贴现因子,N维向量r表示资产的超额收益率,N维向量w表示它们在 SDF 中的权重。理论上我们可以用个股作为资产

2024-12-18 23:01:39 684

原创 MEASURING INTANGIBLE CAPITAL WITH MARKET PRICES论文阅读

会计准则禁止将内部创造的知识和组织资本披露在公司的资产负债表上。因此,随着无形投资水平的提高,资产负债表表现出向下偏见的趋势变得更加严重。为了抵消这些偏见,研究人员必须通过资本化先前的研发和销售管理费用(SG&A)来估算这些表外无形资产的价值。在此过程中,必须假设一组资本化参数,即研发折旧率和代表长期资产的SG&A部分。我们利用企业退出时的市场价格来估计这些参数,并用它们来对1978-2017年间全面的公司面板数据中的无形资产进行资本化。

2024-11-25 00:53:10 994 1

原创 Quality minus junk论文阅读

我们推导了一个具有时变增长、盈利能力和风险的动态资产定价模型。我们以封闭形式展示了市净率是如何线性地随着这些质量特性增加的。在我们呈现一般模型之前,为了获得一些直观理解,我们可以重写Gordon的增长模型来表达一只股票的市净值(P/B)如下:PB=profitability×payout ratiorequired return growth.\frac PB=\frac{\text{profitability}\times\text{payout ratio}}{\text{required retu

2024-11-20 01:49:09 1388 1

原创 Fundamental Analysis and Mean-Variance Optimal Portfolios论文阅读

本研究供了一个模型,该模型直接将基于基本面的比率与预期回报联系起来。然后,我们使用来自基于基本面模型的预期回报和协方差来形成均值-方差优化的基本面投资组合。在教科书中讨论的最常见的均值-方差框架内的方法(例如,Fabozzi 和 Markowitz, 2011;Qian 等, 2007;Chincarini 和 Kim, 2006;Grinold 和 Kahn, 2000)以及投资文献中的方法(例如,Allen 等, 2019;Clarke 等, 2016;Pachamanova 和 Fabozzi, 20

2024-11-17 01:51:19 1141 1

原创 ImportError: cannot import name ‘_format_load_msg‘ from ‘joblib.memory‘报错解决

报错解决

2024-10-30 22:41:15 382

原创 machine learning and the stock market 论文阅读

从业人员投入大量资源进行技术分析,而学术的市场有效理论则排除了技术交易的盈利能力。我们通过应用一系列多样化的机器学习算法来研究这个长期存在的难题。结果显示,投资者可以利用过去的价格找到盈利的技术交易规则,并且这种样本外的盈利能力随着时间逐渐减少,表明市场随时间变得更加有效。此外,我们发现进化遗传算法在不回避错误预测的态度上具有优势,使其在构建盈利策略方面优于那些严格专注于最小化损失的机器学习算法。在本文中,我们利用机器学习技术来寻找盈利的交易规则。

2024-10-28 11:43:10 909 1

原创 Be careful when interpreting predictive models in search of causal insights SHAP系列论文

XGBoost 或 LightGBM 等灵活的预测模型是解决预测问题的强大工具。然而,它们本身并不是因果模型,因此在许多常见情况下,用 SHAP 解释它们将无法准确回答因果问题。除非模型中的特征是实验变化的结果,否则在不考虑混杂因素的情况下将 SHAP 应用于预测模型通常不是衡量用于为政策提供信息的因果影响的合适工具。SHAP 和其他可解释性工具可用于因果推理,并且 SHAP 已集成到许多因果推理包中,但这些用例本质上是明确的因果关系。

2024-10-26 22:00:48 702

原创 可解释机器学习的SHAP分析

本文首先介绍了 shapley 值的概念,通过一个LoL比赛的例子,拆解了 shapley 值的计算方法,并介绍了其中的数学方法。本文将对使用 Shapley 值解释机器学习模型的介绍, 主要举例讲解了Shapley用于各种机器学习算法的解释方法。研究已经严格证明,有且仅有一个ψ\psiψ方程同时满足上面三个性质,这就是shapley value。ψiNv1∣N∣!∑S∈N╲i∣S∣!∣N∣−∣S∣−1!vS∪i−vSψ。

2024-10-26 00:23:36 1045

原创 Machine Learning and Fund Characteristics Help to Select Mutual Funds with Positive Alpha

Machine-learning methods exploit fund characteristics to select tradable long-only portfolios of mutual funds that earn significant out-of-sample annual alphas of 2.4% net of all costs. 基于机器学习的方法,仅利用基金特征选择公募基金组合,获得了显著的样本外α值。

2024-10-23 11:31:57 759

原创 GPTo1论文详解

OpenAI o1使用强化学习训练模型,通过Chain of Thought思维链来进行推理。但最重要的是它指出了新的方向。虽然只是思维链,模型本身没什么提升,但这意味着你可以堆算力来产出高质量的问答。然后把这些问答再喂给更小的模型。然后再用更小的模型微调大模型。然后大模型再继续cot产出更好的问答。这就是一个指数性的爆发。原本以为ai很难又再大的模型突破,但现在看来应该会沿着势头继续下去。

2024-09-19 14:35:16 2459

原创 Expectation disarray Analysts’ growth forecast anomaly in China

在本研究中,我们考察了分析师收益增长预测对中国资产定价的影响。我们的发现与之前在美国市场进行的研究有所不同。具体来说,我们发现分析师的增长预测在中国对股票回报具有正面的预测能力。我们的结果表明,在中国,投资者的预期并没有与分析师的预测保持一致。因此,分析师预测中的偏差似乎并没有扭曲价格。这并不是因为投资者有效地过滤了这些偏差,而是因为这些预测从一开始就基本上被忽视了

2024-09-17 14:45:47 708

原创 FinLex An effective use of word embeddings for financial lexicon generation

这篇文章主要是介绍了一个新方法,其效果与目前最好的LM词表相比显示出相当的性能现有文献中的方法是依赖专家来创建这些词语集合。但这引入了一定程度的主观性和缺乏稳健性。随着概念数量的增加,并随着时间的不同而有不同的表示——可能是由于语言的发展、经济变化(例如,诉讼的主题规则可能会改变),以及不同主题甚至同一主题的专业知识分布的变化,对如何构建词语集合的学科性和可重复性的需求应运而生。首先,该方法用可重复的算法取代了人类的主观选择。其次,它可以由未来的建模者改进,因此更容易开发和适应。

2024-09-16 10:56:16 1193

原创 USING MD&A TO IMPROVE EARNINGS FORECASTS

在本文中,我们开发了将文本与财务变量相结合的技术,以生成明确的公司层面预测。增强文本的模型比仅使用定量财务变量的模型更准确,提供了关于MD&A部分预测价值的证据。具有本期业绩变化较小、未来业绩变化较大、未来业绩变化为负、应计项目较高、市值更大、Z评分较低、审计质量更高、MD&A文本较短且更易读、以及激励性薪酬较高的公司的MD&A更具信息量。MD&A在监管改革之后的时期内更具信息量,但在最近的金融危机期间则信息量较少。

2024-09-15 14:37:35 1180

原创 文献综述 Forecasting earnings and return A review of recent advancements

本文选择性地回顾了在收益和回报预测模型研究方面的最新进展。我们讨论了为什么将统计学、计量经济学和机器学习的进展应用于收益和回报的预测会带来诸多挑战。我们强调了三个主要挑战:收益和回报的不可预测性、噪声X变量以及模型不确定性。我们利用这些挑战来组织文献,并讨论了最近的研究进展,这些进展推进了我们集体理解和预测收益和回报横截面的能力。这里我们重申文献中的一些重要见解即使有了近期的进步,寻找新的有意义的预测因子仍然是一个重要努力新的现成方法可能效用有限,但审慎使用估计方法和施加约束似乎提供了有希望的机会。

2024-09-14 00:15:48 899

原创 Predicting Future Earnings Changes Using Machine Learning and Detailed Financial Data

使用机器学习方法和高维详细财务数据来预测一年后的收益变化方向。我们的模型显示出显著的样本外预测能力:受试者操作特征曲线(ROC)下的面积(AUC)在67.52%到68.66%之间,这明显高于随机猜测的50%。根据我们模型预测形成的对冲组合的年度规模调整后收益在5.02%到9.74%之间。我们的模型优于两种传统模型,这两种传统模型使用逻辑回归和少量的会计变量,并且也优于专业分析师的预测。相对于传统模型的优越性既来自于回归所忽略的非线性预测变量相互作用,也来自于机器学习利用了更详细的财务数据。

2024-09-12 16:47:26 907

原创 GPT-4论文阅读

本篇虽然是GPT-4的技术报告,但其中没有提到GPT-4的具体模型架构与训练过程,主要就是讲他的结果。GPT-4是一个多模态的模型,能够接受文本或者是图片的输入,最后输出纯文本GPT-4基本能够达到类人的表现,在事实性、可控性和安全性上有了很大的进步GPT-4在真实世界中与人还是存在差距,但是在很多具有专业性或者学术性的数据集或者任务上面上,GPT-4有时候能够达到甚至超过人类的水平。

2024-09-11 23:03:17 1916 2

原创 When is a Liability not a Liability

为其他学科开发的词汇表会误分类金融文本中常见的词汇在1994年至2008年间大量10-K报告的样本中,几乎四分之三被广泛使用的哈佛词典标记为负面的词汇,在金融语境中通常并不被认为是负面的。我们开发了一个替代的负面词汇表,以及另外五个词汇表,这些词汇表更好地反映了金融文本中的基调基于这些词汇表能反映回报、交易量、回报波动性、欺诈、重大缺陷以及意外收益上。

2024-09-10 00:11:17 1245

原创 urllib与requests爬虫简介

它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。运行结果和直接传递URL完全一样的,只不过中间多了一个request对象,推荐大家这么写,因为在构建请求时还需要加入好多内容,通过构建一个request,服务器响应请求得到应答,这样显得逻辑上清晰明确。现在随处可见 https 开头的网站,urllib可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问。

2024-09-07 17:26:15 1525

原创 From Man vs Machine to Man + Machine

人工智能分析师,在股票收益预测方面超越了大多数分析师。涉及无形资产和财务困境时,“人机对抗”中人类仍然胜出。当信息透明但量大时,人工智能则更胜一筹。在“人机协作”模式下,人类提供了显著的增量价值,并且大幅减少了极端错误的发生。如果分析师的雇主构建了人工智能能力,在“另类数据”变得可用之后,分析师能够赶上机器的表现。

2024-09-04 15:57:09 1410

原创 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 论文阅读

我们探讨了生成连锁思维——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。特别地,我们展示了通过一种简单的方法,称为连锁思维提示,在提供一些连锁思维示例作为提示的情况下,大型语言模型自然地表现出这种推理能力。在三个大型语言模型上的实验表明,连锁思维提示在一系列算术、常识和符号推理任务上提高了性能。这种实证收益是显著的。例如,仅使用八个连锁思维示例提示PaLM 540B,就在GSM8K数学题解基准上达到了最先进的准确性,甚至超过了微调过的带验证器的GPT-3。

2024-06-24 14:46:38 1114 2

原创 Interleaving Retrieval with Chain-of-Thought Reasoning for ... 论文阅读

基于提示的大型语言模型(LLMs)在生成多步骤问题回答(QA)的自然语言推理步骤或链式思维(CoT)方面表现出惊人的强大。然而,当所需的知识在LLM中不可用或其参数未更新时,它们会遇到困难。虽然使用问题从外部知识源中检索相关文本可以帮助LLMs,但我们观察到这种一步检索和阅读的方法对于多步骤QA是不足的。在这里,检索的内容取决于已经推导出的内容,而推导的内容可能又取决于之前检索的内容。

2024-06-23 13:01:00 1694 1

原创 Retrieval-Augmented Generation for Large Language Models A Survey

大型语言模型(LLMs)展示了令人印象深刻的能力,但也面临着如幻觉【2】、知识陈旧以及推理过程不透明和不可追踪等挑战。检索增强生成(RAG)通过从外部数据库中引入知识,成为一种有前途的解决方案。这样可以提高生成的准确性和可信度,特别是对知识密集型任务而言,并允许持续的知识更新和特定领域信息的集成。RAG协同融合了LLMs的内在知识和外部数据库的庞大、动态存储库。这篇全面的综述论文详细审查了RAG范式的发展,包括原始RAG、先进RAG和模块化RAG。它细致地审视了RAG框架的三部分基础:检索、生成和增强技术。

2024-06-23 00:13:15 1733

原创 FinRobot An Open-Source AI Agent Platform for Financial Applications using Large Language Models论文精读

随着金融机构和专业人员越来越多地将大型语言模型(LLM)纳入他们的工作流程中,存在许多障碍,包括专有数据和专业知识,这些障碍阻碍了金融领域与AI社区之间的有效合作。为了克服这些挑战,并促进AI在金融决策中的广泛应用,我们旨在设计专门用于金融的LLM工具链,并通过开源项目来民主化这些工具的访问。在本文中,我们介绍了FinRobot,一个支持多个专注于金融的AI代理的开源AI代理平台,每个代理都由LLM提供支持。

2024-06-18 19:23:18 1368

原创 使用宝塔面板部署Django应用(不成功Kill Me!)

如果出现诸如502 或者 Internal Server Error等错误,大概率是setting.py文件中的数据库配置有问题.(如果你照着我的步骤操作的话)注意这里项目路径要填到manage.py文件的上一级目录,也就是项目的根目录,确保这里面有requirements.txt文件和manage.py文件。如果出现页面加载成功,但是样式、图片等资源加载不出来,可能是静态资源没有配置好,具体来说就是在nginx的配置文件中加入。修改settins.py文件,注意这里的密码就是刚才创建数据库时生成的密码。

2024-06-17 19:03:23 937

原创 Financial Statement Analysis with Large Language Models论文精读

我们研究了一种大型语言模型(LLM)是否能够像专业人类分析师一样成功地进行财务报表分析。我们向GPT-4提供标准化且匿名的财务报表,并指示模型分析这些报表以预测未来的收益变化方向。即使在没有任何叙述性或行业特定信息的情况下,LLM在预测收益变化方面的表现优于财务分析师。LLM在分析师通常表现不佳的情况下表现出相对优势。此外,我们发现LLM的预测准确性与经过专门训练的最先进机器学习模型的表现相当。LLM的预测并非来自其训练数据的记忆。相反,我们发现LLM生成了关于公司未来表现的有用见解。

2024-06-17 00:25:22 2249 3

原创 Django框架中级

自定义中间件,可以是一个函数,也可以是一个类。但是都要有接受参数的入口。# 如果中间件是在整个项目中使用的,可以在manage.py同级目录下新建一个middleware.py文件# 如果中间件是在某个子应用中使用的,可以在子应用目录下新建一个middleware.py文件# 自定义中间件逻辑print('视图函数之前执行的中间件逻辑')# 自定义中间件逻辑print('视图函数之后执行的中间件逻辑')# 自定义中间件逻辑print('视图函数之前执行的中间件逻辑')# 自定义中间件逻辑。

2024-06-07 16:45:17 1382

原创 git使用

git是目前最流行的版本控制系统。

2024-06-03 22:45:07 1101 1

原创 获取IEEE会议论文的标题和摘要

根据前面找到的URL规律,对文章标题与摘要的标签进行解析得到文本内容,其中有一些文章没有doi代码,主要是书籍相关的部分,需要做一些异常处理。并进行翻译。

2023-10-26 15:30:58 1943

原创 stata变量引用

从CSMAR数据库中下载的企业财报数据,会把第一行作为独特代码,第二行作为变量标注(label),第三行写单位。在导入Stata中时,第一行可以自动转化为变量名,但第二行标注会在导入时成为第一个标量。在stata中,他能通过字符串来引用变量(面向对象的编程语言是不行的(如py))下面这段代码可以至直接将第三行删除,第二行转为变量label。局域暂元 (local) :只能存在于一次运行之中。全局暂元:能长期存在内存中。查找变量:lookfor。定义单值: 存放字符串。定义单值: 存放数字。

2023-04-12 23:31:47 3157

原创 stata数据处理

有时在Excel整理数据时,会把第一行写为变量名,第二行写为变量标注(label)。在导入Stata中时,第一行可以自动转化为变量名,但第二行标注会在导入时成为第一个标量。使用回归的方式来标记不包含缺失值的样本(注意是样本层面,只要有一个变量缺失,整个样本就算缺失)注意:对数转换后,系数估计值的含义会发生变化,解释结果时要慎重。计算EER:思路是将连乘积的问题转化为求和问题,对数化。是Stata 用户提供的外部函数,文子处理的利器。有放回抽样的应用:bootstrap 标准误。函数是官方命令提供的函数,

2023-04-12 23:14:14 3733

原创 stata简单回归与检验

基本思想:假设样本是母体中随机抽取的,通过反复从样本中抽取样本来模拟母体的分布;Spearman 和 Pearson 相关系数的区别。normdiff 命令: 输出 t 值 或 p 值。本质上就是单变量运行多个分组合并的结果。本质上是多个单变量合并的结果。normdiff:标准化差异。

2023-04-12 22:36:58 3923

原创 stata绘图指令

将两个组的直方图绘制在一个图中。

2023-04-12 18:01:37 12037

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除