- 博客(25)
- 资源 (25)
- 收藏
- 关注
原创 交易文本数据:情感分析 -另类数据交易- 舆情数据
文本数据内容丰富但高度非结构化,因此需要更多预处理才能使ML算法提取相关信息。一个关键挑战是在不丢失其含义的情况下将文本转换为数值格式。我们将介绍几种能够捕捉语言细微差异的技术,以便将其用作ML算法的输入。在本章中,我们将介绍专注于个别语义单元(即单词或称为标记的短语组)的基本特征提取技术。我们将展示如何通过创建文档-术语矩阵来表示文档作为标记计数向量,然后将其用作新闻分类和情感分析的输入。
2024-06-15 06:05:34
1077
原创 苹果最新发布- 端侧大模型 Apple Intelligence
我们的基础模型是在苹果公司在 2023 年发布的开源项目 AXLearn 框架上训练的。它建立在 JAX 和 XLA 之上,允许我们在各种训练硬件和云平台(包括 TPU 和云端及本地 GPU)上高效和可扩展地训练模型。我们使用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP)的组合,沿着数据、模型和序列长度等多个维度扩展训练。我们在经过许可的数据上训练我们的基础模型,包括为增强特定功能而选择的数据,以及我们的网络爬虫 AppleBot 收集的公开数据。
2024-06-11 12:33:12
1168
原创 无监督学习:从数据驱动风险因子到层次化风险平价
主成分分析(PCA)和独立成分分析(ICA)如何执行线性维度降低- 使用PCA从资产收益率中提取数据驱动的风险因子和特征投资组合- 使用流形学习有效地可视化非线性、高维数据- 使用T-SNE和UMAP探索高维图像数据- k-means、层次和基于密度的聚类算法如何工作
2024-06-07 06:35:03
1133
原创 贝叶斯机器学习:从经济衰退预测到动态对冲交易
如线性模型一章所述,逻辑回归估计一组特征与二元结果之间的线性关系,通过sigmoid函数将其转化为概率。频率主义方法得到了参数的点估计,这些参数度量每个特征对正类概率的影响,并基于参数分布的假设给出了置信区间。而贝叶斯逻辑回归估计参数本身的后验分布。后验分布允许对每个参数的贝叶斯可信区间进行更稳健的估计,并提供关于模型不确定性的更多透明度。笔记本MAP推断马尔可夫链蒙特卡罗估计NUTS采样器变分推断模型诊断能量图和森林图后验预测检查(PPD)可信区间(CI)预测。
2024-06-05 15:39:15
813
原创 从波动率预测到统计套利:线性时间序列模型
在本章中,我们将构建动态线性模型,明确代表时间,并包括在特定间隔或滞后观察到的变量。时间序列数据的一个关键特征是它们的顺序性:与横截面数据中个别观测值的随机样本不同,我们的数据是一个无法重复的随机过程的单一实现。我们的目标是识别时间序列中的系统性模式,帮助我们预测时间序列在未来的行为。更具体地说,我们专注于从输出的历史序列以及(可选的)其他同期或滞后的输入变量中提取信号的模型,以预测输出的未来值。例如,我们可以尝试使用过去的收益率以及基准或宏观经济变量的历史收益率来预测股票的未来收益率。
2024-05-25 17:42:11
1259
原创 ML4T工作流程:从ML模型到策略回测(交易中的机器学习)
除了大量活跃的个人交易者社区,也有几家银行和交易公司使用backtrader来原型和测试新策略,然后将其移植到生产就绪的平台,如Java。例如,您可以使用我们在本书中遇到的scikit-learn等通用ML库设计和测试生成信号的ML模型,并将模型输出输入单独的回测引擎。这些对象相互作用,以便于输入数据的处理和因子计算,制定和执行策略,接收和执行订单,以及跟踪和度量业绩。简单地说,回测引擎遍历历史价格(和其他数据),将当前值传递给您的算法,收到订单作为回报,并跟踪所得仓位及其价值。
2024-05-24 15:42:01
279
1
原创 使用 Zipline 的机器学习交易工作流程
Zipline 是一个强大的回测引擎,由 Quantopian 开发维护。它提供了多项关键特性支持可扩展、可靠的回测:数据包存储了带有拆分和股息调整的OHLCV数据;交易日历反映了全球交易所的实际运营时间;Pipeline API 高效计算大规模特征数据并消除前瞻性偏差。本章详细介绍了使用 Zipline 算法 API 编写自定义回测算法的方法。算法可以安排任意函数来评估信号、下单、重新平衡等,输出与绩效分析工具兼容。此外,章节演示了如何编写支持 AlgoSeek 分钟频NASDAQ 100 数据的自定
2024-05-22 22:45:34
295
2
原创 全网最全Stable Diffusion教程及实践
Stable Diffusion: 开创性的文本到图像生成模型Stable Diffusion 是一款开创性的文本到图像生成模型,由 Stability AI 公司于 2022 年推出。它基于 Latent Diffusion 架构,利用大规模的无监督图像数据进行预训练,能够根据文本描述生成高质量、逼真的图像。Stable Diffusion 的核心创新在于其强大的生成能力和较小的模型体积。相比于此前的 GAN 和 VAE 等生成模型
2024-05-22 22:20:51
4441
2
原创 如何使用GPT-4o?
GPT-4o 是 OpenAI 的新旗舰模型,可以实时跨越音频、视觉和文本进行推理。最初,GPT-4o 将作为文本和视觉模型(ChatGPT 将继续通过现有的语音模式功能支持语音)在 ChatGPT 和 API 中提供。具体而言,GPT-4o 将在 ChatGPT 免费版、Plus 版和团队版(企业版即将推出),以及 Chat 完成 API、助理 API 和批量 API 中提供。
2024-05-14 07:48:00
2267
1
原创 线性模型:从风险因素到资产回报预测
这篇文章介绍了线性模型及其在金融领域中的应用。线性模型是一种广泛使用的假设类,因为它们可以高效地训练,对嘈杂的金融数据相对稳健,并与金融理论有强烈的联系。线性模型直观、易于解释,并且通常能够很好地拟合数据或至少提供良好的基准。文章介绍了多种线性模型,包括广义线性模型、鲁棒估计方法和收缩方法。广义线性模型通过允许响应变量采用除正态分布以外的误差分布来扩大应用范围。鲁棒估计方法则允许进行统计推断,即使数据违反基线假设。收缩方法旨在提高线性模型的预测性能。
2023-06-10 23:08:56
305
原创 量化投资:寻找Alpha
定义投资范围是制定投资策略的重要一步,它确定了投资者可以选择的资产和市场。下面是定义投资范围的一些步骤:投资目标:首先明确你的投资目标。确定你希望通过投资实现的长期目标,例如资本增值、收益稳定性、风险控制等。投资策略类型:确定你的投资策略类型,例如价值投资、成长投资、指数投资、技术分析等。这将有助于缩小投资范围,并选择适合的资产类别。资产类别:确定你打算投资的资产类别。常见的资产类别包括股票、债券、大宗商品、房地产、外汇等。根据你的投资目标和风险承受能力,选择适当的资产类别。
2023-05-30 00:39:28
653
原创 量化投资:机器学习工作流
这篇文本是关于机器学习工作流程的介绍。它讨论了如何使用各种监督和无监督的机器学习模型进行交易,并介绍了这些模型的应用场景和使用Python库的方法。这些模型包括线性模型、广义加法模型、集成模型、降维和聚类的无监督模型、神经网络模型和强化学习模型。文章还介绍了如何将这些模型嵌入到交易策略中,并优化投资组合和评估策略表现的方法。文章还讨论了监督和无监督学习的区别,以及算法交易的用例。最后,文章还提供了一些方法来诊断模型中的错误,如过度拟合,并提高模型的性能。
2023-05-28 12:16:26
694
原创 量化投资:股票投资组合优化与评估
这个文本主要讨论了投资组合优化和表现评估。为了在市场条件下测试策略,需要模拟算法进行交易并验证其表现。策略评估包括针对历史数据的回测来优化策略参数和针对新的样本数据进行的前向测试来验证样本内表现。目标是避免将策略定制到特定过去情况下的虚假发现。在投资组合背景下,正的资产回报可以抵消负的价格波动。一个资产的正的价格变化更可能抵消另一个资产的损失,两个位置之间的相关性越低,这种情况就越可能发生。
2023-05-27 22:26:37
3080
1
原创 量化投资:如何将数据转换为因子
这段文本介绍了如何将数据转换为因子。它使用了pandas、statsmodels和matplotlib等Python库来处理时间序列数据。首先,它从Quandl的股票价格数据集中加载数据,并将其转换为月度收益率。然后,它计算了历史收益率,并将其标准化和修剪为[1%,99%]的范围内。最后,它根据收益率的长度(1到12个月)创建了六个复合月度收益率因子。这些因子可以用于量化投资策略的开发和测试。
2023-05-24 17:57:15
467
1
原创 算法交易:寻找Alpha Factor
算法交易策略是由指示信号驱动的,这些信号指示何时买入或卖出资产,以相对于基准(如指数)产生超额回报。资产回报中无法通过与基准相关的暴露来解释的部分被称为Alpha,因此旨在产生这种不相关回报的信号也被称为Alpha因子。如果您已经熟悉机器学习,您可能知道特征工程是成功预测的关键要素。在交易中也不例外。然而,投资领域特别丰富于几十年来关于市场运作方式以及哪些特征可能比其他特征更好地解释或预测价格走势的研究。本章提供了一个概述,作为您自己搜索Alpha因子的起点。
2023-05-22 23:32:48
939
2
原创 美国股票基本数据的来源和处理技术
【代码】Market & Fundamental Data: Sources and Techniques。
2023-05-14 11:42:50
1012
1
原创 机器学习在量化投资的应用
算法交易依赖于计算机程序执行算法来自动化交易策略的某些或所有元素。机器学习涉及从数据中学习规则或模式以实现目标,如最小化预测误差。本书的示例将说明如何使用机器学习算法从数据中提取信息,支持或自动化关键投资活动,包括观察市场、分析数据以形成对未来的预期并决定下单买入或卖出,以及管理由此产生的投资组合以产生相对于风险的有吸引力的回报。最终,积极投资管理的目标是产生Alpha,即超过用于评估的基准组合回报。
2023-05-12 16:54:54
1989
1
转载 如何搭建自己的深度学习工作站?
硬件设备,是任何一名深度学习er不可或缺的核心装备。普通玩家都是标准设备,高端玩家都是自己动手搭建合适自己的GPU 工作站甚至GPU集群.可是,各种主板、CPU、GPU、内存条、外设,那么多品牌种类型号参数,到底该怎么选?为了帮你凑齐一套能打的装备,一位名叫Tim Dettmers的歪果小哥哥将自己一年组装七部工作站的装机经验凝练成一篇实用攻略分享了出来,帮你确定一整套硬件选型,并且,还根据今...
2018-12-20 15:03:25
5772
Data Structures and Algorithms in Python NumPy Beginners Guide
2023-03-11
工业指针仪表检测数据集(800+ VOC)
2022-06-25
工程车辆数据集 (挖掘机 推土机 渣土车)已标注完成 各有700张左右 coco数据集
2022-05-05
火焰检测算法 + yolo 格式数据集 + 模型文件 + QT界面
2022-04-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人