机器学习股票预测，股票预测原理，股票预测算法

2025年04月18日阅读 37

摘要：原文链接：|:大模型增强股票时序预测能力论文链接：股价预测在金融领域有着重要地位且一直被深入研究。大语言模型（LLMs）给改进预测提供了新的途径，然而金融领域的LLMs（）在股价预测时依然面临诸多挑战，像要实现时间序列数据与自然语言模态的有效融...

原文链接： | : 大模型增强股票时序预测能力

论文链接：

股价预测在金融领域有着重要地位且一直被深入研究。大语言模型（LLMs）给改进预测提供了新的途径，然而金融领域的 LLMs（）在股价预测时依然面临诸多挑战，像要实现时间序列数据与自然语言模态的有效融合，在聚焦分析和可解释性的同时容易忽略时间序列特征，并且很容易受到金融市场中虚假冗余信息的影响。本文提出的架构是专为股价数据而设计的。它将股价视为连续的，利用 LLM 预测下一个股价的能力。通过提取文本信息并将其整合到嵌入空间中，能够有效地预测任意回溯期的股价。实验表明，该架构在准确性、内存使用和运行成本方面表现更为优越。

1 背景

在金融领域，有众多任务。这些任务旨在通过识别那些影响市场动态的因素，来辅助决策并且获取套利机会。其中，股价预测是尤为关键的。从上世纪开始，就已经开始探索使用机器学习来进行股价预测。近年来，LLMs 研究扩展到了金融领域，并且使用指令微调与上下文学习来进行训练已经成为一种趋势。与预训练语言模型（PLMs）相比，它在分析历史数据方面具有优势。然而，现有的主要是关注公开信息的解释和分析，在提取真正影响股价的关键因素时存在困难，并且在股价走势预测方面的表现不如小型自回归模型。此外，LLMs 能够被用于时间序列预测。然而，时间序列数据难以通过离散的自然语言进行精确的描述。并且，股价数据具有其独特的性质。所以，LLMs 用于金融时间序列预测目前仍处于早期阶段。

2 问题定义

给定一个预选自股票数据集中的股票价格 p ，在回溯窗口为 d 天的条件下，股票 s 的价格是 p_{s,1:d} ，其中包含 p_{s,1} 到 p_{s,d} 这些价格。目标是预测后续 x 天的股票价格 p_{s,d + 1:d + x} ，也就是 p_{s,d + 1} 到 p_{s,d + x} 。同时要将从股票价格中导出的文本信息在时间 t 与股票价格数据在潜在空间进行整合。这是一个单变量的股价预测任务。其目的是在 d 天的回溯期基础上，训练基于 LLM 的模型 f，以对 x 天的未来股价进行预测。

3 方法

架构包含四个主要组件：

历史股价对于未来趋势而言是重要的指标。首先要把每只股票的价格进行标准化处理，接着将其分割成连续且不重叠的部分，每一部分都被视为一个基本单元，以此形成紧凑的输入序列。因为时间序列数据很难直接用自然语言进行无损描述，所以开发了包含股票相关性、统计趋势以及时间戳信息的文本模板，这些信息是从股票时间序列数据中获取的，然后再与对应的股票价格进行融合。

LLMs 在处理高精度数字时敏感性较低，RNN 在处理长序列方面存在局限性，而 LSTM 网络更适合处理时间序列数据中的长程依赖关系，因此将 LSTM 层作为编码器的一部分，以便能有效地编码股票价格数据。在每个时间步，循环单元会联合考虑输入 h_{i}以及先前的隐藏状态。通过这样的方式，循环单元学习隐藏表示，以捕获顺序依赖关系。接着，通过全连接层，将股票价格段的顺序依赖关系投影到 LLM 的模型维度 d_{11m}，以此作为价格嵌入。

为了把时间序列和 LLM 能够理解的文本信息整合起来，构建了包含股票价格对应细节的文本模板，像时间序列的频率、行业分类以及统计细节等，这些信息都是直接从股票价格数据中得出来的。把文本进行输入化和嵌入处理，通过现成的 LLM 转换到嵌入空间，从而得到文本嵌入 ce_{i}。实验表明，将股票价格数据与其中的文本信息线索进行对齐，能够显著改善预测结果。语言嵌入 ce_{i}由冻结的 LLM 进行单独处理，接着在潜在空间与 pei 相连接，这样就能让语言嵌入和相应的价格嵌入整合起来，同时不会增加上下文的长度。

LLMs 主要在离散文本数据上进行训练，而股票价格是连续数值性质，两者不同。利用 LLM 基于前面进行预测从而实现任意长度的预测。将历史股票价格嵌入分成 n 个连续的部分，把嵌入 e₁ 输入现成的 LLM 后，再投影回预测 h₁ 。训练目标是独立生成下一个，每个预测都由级别的真实值进行监督，以此来优化作为简单线性层实现的嵌入和投影层的参数，并且使用均方误差（MSE）作为损失函数。

4 实验

4.1 数据集

为确保数据集能代表股票市场，从雅虎财经获取了特定时间段内标准普尔 100 家公司的历史股价数据，这个时间段是 2014 年 6 月 30 日至 2024 年 6 月 28 日，并且排除了三家数据不足的公司。同时，还创建了另一个股票数据集，其时间范围是 2023 年 6 月 30 日 9:30 至 2024 年 7 月 16 日 15:30，且是小时中频率的。此外，有四个数据集，这些数据集包含与股票时间序列数据对齐的文本数据，分别是：[具体数据集 1]、[具体数据集 2]、[具体数据集 3]、[具体数据集 4]。在与通用 LLM 的实验中，使用股票价格和文本数据；而在仅使用调整后的收盘价进行的实验中，仅使用调整后的收盘价。

4.2 实现细节

以 - 8B 作为基础 LLM，通过采用 MSE 损失来进行模型优化，每个实验都重复 3 次，并且会报告平均性能。

4.3 基线

将其与专门用于股票走势预测的大型语言模型（LLMs）以及用于股价预测的时间序列方法进行对比，这些方法包括用于时间序列模型的 LLMs（如 FPT、-LLM 等）、金融 LLM 以及通用 LLMs（如 -7B、-8B、GPT - 4o mini 等）。

4.4 评价指标

对于存在文本数据的数据集，会运用准确率（ACC.）以及马修斯相关系数（MCC）；而对于没有文本数据的数据集，则会采用均方误差（MSE）和信息系数（IC）。

4.5 整体性能和分析

与通用 LLM 进行比较：在大多数包含文本数据的数据集上，该框架更为优越；在股价走势预测方面，有高达 5%的改进；同时，相比通用 LLM 没有明显优势。这表明，在进行股票相关任务时，应更多地关注文本数据处理以及时间序列数据的内在特征。通用 LLMs 不需要进行文本信息转换和预处理。然而，在股价预测方面，它的表现不如那些能够更好地理解连续时间序列数据的模型。并且，当前股票相关的文本数据质量较低，而股价本身已经能够捕捉市场情绪。因此，专注于分析股票时间序列数据的 LLM 架构更为合理。

与其他基于 LLM 的时间序列方法相比：在日内频率数据集上，它优于所有基于 LLM 的时间序列方法的基线；在小时频率数据集上，它也优于所有基于 LLM 的时间序列方法的基线。这表明自回归方法在捕获时间信息方面更具优势。它能够将文本信息与股票时间序列数据无缝整合，并且能有效解决股票相关性和统计趋势等关键因素，所以表现更优。

在标准普尔数据集上分别使用 RNN、LSTM 等自回归模型进行测试。测试结果显示，在 MSE 和 IC 指标方面，这些自回归模型都被超越了。这进一步验证了利用 LLM 架构在预测股票时间序列方面具有显著优势。

消融研究：对单个组件进行分析，在标准普尔 100 数据集上进行测试。把自回归编码器替换为 MLP 和线性层后，发现添加编码器能提高模型性能，并且自回归编码器在捕获顺序依赖关系方面比 MLP 更有效。去除文本信息时，模型性能略有下降，这表明整合多模态数据很重要。在不同的骨干模型测试中，发现 GPT - 2 比某个模型表现稍差，可能是两者处理数值数据的方法不同。

分析不同回溯窗口长度对股票预测性能的影响，结果显示回溯窗口长度约为 32 时性能最佳，过短或过长都会使 IC 和 MSE 性能下降；分析不同自回归编码器层数对股票预测性能的影响，当自回归编码器中 LSTM 层维度固定为 256 时，IC 指标随 LSTM 层数变化有一定变化，MSE 指标不受层数增加影响，选择两层 LSTM 作为最优配置可提高模型效率。

5 结论

本文提出了这一用于股价预测的高效架构，该架构基于 LLM。通过利用 LLM 的固有转换来推断未来股价，从股票价格数据中提取出股票间的相关性、统计趋势以及时间戳，并将其转化为文本信息，以此帮助 LLM 更好地理解股票时间序列。实验表明，该框架要优于现有的以及通用的 LLM 基线，为 LLM 在日内和小时中频率的股价预测方面提供了新的方向。

原文链接：http://wen.bjhwtx.com/post/22357.html