基于局部线性嵌入的高频交易标记发现
1. 高频交易数据特征
高频交易(HFT)数据的概率密度函数反映了交易模式。交易频率高的股票(如GOOG和AAPL)通常比交易频率低的股票(如JCP)具有更低的密度值。JCP作为零售股,因其极高的密度值(如 >12)而表现为异常值,其峰度值也非常大,达到22.2974。
2. 交易标记发现模型设计
- 采用流形学习方法 :将HFT数据视为流形,从流形学习的角度捕捉交易标记。局部线性嵌入(LLE)可以计算低维流形嵌入,以保留原始数据的内在几何结构。它能生成高维数据的非线性低维嵌入,同时保持底层邻域结构,相比其他方法(如ISOMAP)更擅长建模局部数据行为。
- 嵌入空间维度选择 :由于几乎所有HFT数据的第一主成分解释方差比超过60%,数据方差会集中在嵌入空间 $\mathbb{R}^l$ 的两个主要基上的投影。因此,考虑HFT数据的二维流形嵌入 $Y \in \mathbb{R}^{n×2}$ 来寻找交易标记是合理的。二维流形嵌入为交易标记发现提供了几何支持,将异常交易行为映射为二维嵌入中的异常值,而常见交易则形成聚类。
- 流形嵌入聚类 :采用基于密度的空间聚类应用与噪声(DBSCAN)算法对任意形状的流形嵌入进行聚类。DBSCAN通过可达性概念确定样本是否属于特定聚类,异常值是不可达点。在实现中,调整DBSCAN的邻域大小
min_samples = 10
和最大距离eps = 0.5
,并设置标记过滤阈值