原文链接: | : 大模型增强股票时序预测能力
论文链接:
股价预测在金融领域有着重要地位且一直被深入研究。大语言模型(LLMs)给改进预测提供了新的途径,然而金融领域的 LLMs( )在股价预测时依然面临诸多挑战,像要实现时间序列数据与自然语言模态的有效融合,在聚焦分析和可解释性的同时容易忽略时间序列特征,并且很容易受到金融市场中虚假冗余信息的影响。本文提出的架构是专为股价数据而设计的。它将股价视为连续的,利用 LLM 预测下一个股价的能力。通过提取文本信息并将其整合到嵌入空间中,能够有效地预测任意回溯期的股价。实验表明,该架构在准确性、内存使用和运行成本方面表现更为优越。
1 背景
在金融领域,有众多任务。这些任务旨在通过识别那些影响市场动态的因素,来辅助决策并且获取套利机会。其中,股价预测是尤为关键的。从上世纪开始,就已经开始探索使用机器学习来进行股价预测。近年来,LLMs 研究扩展到了金融领域,并且使用指令微调与上下文学习来进行训练已经成为一种趋势。与预训练语言模型(PLMs)相比,它在分析历史数据方面具有优势。然而,现有的主要是关注公开信息的解释和分析,在提取真正影响股价的关键因素时存在困难,并且在股价走势预测方面的表现不如小型自回归模型。此外,LLMs 能够被用于时间序列预测。然而,时间序列数据难以通过离散的自然语言进行精确的描述。并且,股价数据具有其独特的性质。所以,LLMs 用于金融时间序列预测目前仍处于早期阶段。
2 问题定义
给定一个预选自股票数据集中的股票价格 p ,在回溯窗口为 d 天的条件下,股票 s 的价格是 p_{s,1:d} ,其中包含 p_{s,1} 到 p_{s,d} 这些价格。目标是预测后续 x 天的股票价格 p_{s,d + 1:d + x} ,也就是 p_{s,d + 1} 到 p_{s,d + x} 。同时要将从股票价格中导出的文本信息在时间 t 与股票价格数据在潜在空间进行整合。这是一个单变量的股价预测任务。其目的是在 d 天的回溯期基础上,训练基于 LLM 的模型 f,以对 x 天的未来股价进行预测。
3 方法
架构包含四个主要组件:
历史股价对于未来趋势而言是重要的指标。首先要把每只股票的价格进行标准化处理,接着将其分割成连续且不重叠的部分,每一部分都被视为一个基本单元,以此形成紧凑的输入序列。因为时间序列数据很难直接用自然语言进行无损描述,所以开发了包含股票相关性、统计趋势以及时间戳信息的文本模板,这些信息是从股票时间序列数据中获取的,然后再与对应的股票价格进行融合。
LLMs 在处理高精度数字时敏感性较低,RNN 在处理长序列方面存在局限性,而 LSTM 网络更适合处理时间序列数据中的长程依赖关系,因此将 LSTM 层作为编码器的一部分,以便能有效地编码股票价格数据。在每个时间步,循环单元会联合考虑输入 h_{i}以及先前的隐藏状态。通过这样的方式,循环单元学习隐藏表示,以捕获顺序依赖关系。接着,通过全连接层,将股票价格段的顺序依赖关系投影到 LLM 的模型维度 d_{11m},以此作为价格嵌入。
为了把时间序列和 LLM 能够理解的文本信息整合起来,构建了包含股票价格对应细节的文本模板,像时间序列的频率、行业分类以及统计细节等,这些信息都是直接从股票价格数据中得出来的。把文本进行输入化和嵌入处理,通过现成的 LLM 转换到嵌入空间,从而得到文本嵌入 ce_{i}。实验表明,将股票价格数据与其中的文本信息线索进行对齐,能够显著改善预测结果。语言嵌入 ce_{i}由冻结的 LLM 进行单独处理,接着在潜在空间与 pei 相连接,这样就能让语言嵌入和相应的价格嵌入整合起来,同时不会增加上下文的长度。
LLMs 主要在离散文本数据上进行训练,而股票价格是连续数值性质,两者不同。利用 LLM 基于前面进行预测从而实现任意长度的预测。将历史股票价格嵌入分成 n 个连续的部分,把嵌入 e₁ 输入现成的 LLM 后,再投影回预测 h₁ 。训练目标是独立生成下一个,每个预测都由级别的真实值进行监督,以此来优化作为简单线性层实现的嵌入和投影层的参数,并且使用均方误差(MSE)作为损失函数。
4 实验
4.1 数据集
为确保数据集能代表股票市场,从雅虎财经获取了特定时间段内标准普尔 100 家公司的历史股价数据,这个时间段是 2014 年 6 月 30 日至 2024 年 6 月 28 日,并且排除了三家数据不足的公司。同时,还创建了另一个股票数据集,其时间范围是 2023 年 6 月 30 日 9:30 至 2024 年 7 月 16 日 15:30,且是小时中频率的。此外,有四个数据集,这些数据集包含与股票时间序列数据对齐的文本数据,分别是:[具体数据集 1]、[具体数据集 2]、[具体数据集 3]、[具体数据集 4]。在与通用 LLM 的实验中,使用股票价格和文本数据;而在仅使用调整后的收盘价进行的实验中,仅使用调整后的收盘价。
4.2 实现细节
以 - 8B 作为基础 LLM,通过采用 MSE 损失来进行模型优化,每个实验都重复 3 次,并且会报告平均性能。
4.3 基线
将其与专门用于股票走势预测的大型语言模型(LLMs)以及用于股价预测的时间序列方法进行对比,这些方法包括用于时间序列模型的 LLMs(如 FPT、-LLM 等)、金融 LLM 以及通用 LLMs(如 -7B、-8B、GPT - 4o mini 等)。
4.4 评价指标
对于存在文本数据的数据集,会运用准确率(ACC.)以及马修斯相关系数(MCC);而对于没有文本数据的数据集,则会采用均方误差(MSE)和信息系数(IC)。
4.5 整体性能和分析
与通用 LLM 进行比较:在大多数包含文本数据的数据集上,该框架更为优越;在股价走势预测方面,有高达 5%的改进;同时,相比通用 LLM 没有明显优势。这表明,在进行股票相关任务时,应更多地关注文本数据处理以及时间序列数据的内在特征。通用 LLMs 不需要进行文本信息转换和预处理。然而,在股价预测方面,它的表现不如那些能够更好地理解连续时间序列数据的模型。并且,当前股票相关的文本数据质量较低,而股价本身已经能够捕捉市场情绪。因此,专注于分析股票时间序列数据的 LLM 架构更为合理。
与其他基于 LLM 的时间序列方法相比:在日内频率数据集上,它优于所有基于 LLM 的时间序列方法的基线;在小时频率数据集上,它也优于所有基于 LLM 的时间序列方法的基线。这表明自回归方法在捕获时间信息方面更具优势。它能够将文本信息与股票时间序列数据无缝整合,并且能有效解决股票相关性和统计趋势等关键因素,所以表现更优。
在标准普尔数据集上分别使用 RNN、LSTM 等自回归模型进行测试。测试结果显示,在 MSE 和 IC 指标方面,这些自回归模型都被超越了。这进一步验证了利用 LLM 架构在预测股票时间序列方面具有显著优势。
消融研究:对单个组件进行分析,在标准普尔 100 数据集上进行测试。把自回归编码器替换为 MLP 和线性层后,发现添加编码器能提高模型性能,并且自回归编码器在捕获顺序依赖关系方面比 MLP 更有效。去除文本信息时,模型性能略有下降,这表明整合多模态数据很重要。在不同的骨干模型测试中,发现 GPT - 2 比某个模型表现稍差,可能是两者处理数值数据的方法不同。
分析不同回溯窗口长度对股票预测性能的影响,结果显示回溯窗口长度约为 32 时性能最佳,过短或过长都会使 IC 和 MSE 性能下降;分析不同自回归编码器层数对股票预测性能的影响,当自回归编码器中 LSTM 层维度固定为 256 时,IC 指标随 LSTM 层数变化有一定变化,MSE 指标不受层数增加影响,选择两层 LSTM 作为最优配置可提高模型效率。
5 结论
本文提出了这一用于股价预测的高效架构,该架构基于 LLM。通过利用 LLM 的固有转换来推断未来股价,从股票价格数据中提取出股票间的相关性、统计趋势以及时间戳,并将其转化为文本信息,以此帮助 LLM 更好地理解股票时间序列。实验表明,该框架要优于现有的以及通用的 LLM 基线,为 LLM 在日内和小时中频率的股价预测方面提供了新的方向。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态