GPT-4 在为人类选股时,其表现超越了大部分人类分析师以及针对金融训练的专业模型。在没有任何上下文的情况下,它能够直接成功分析财务报表,这一发现让许多业内大咖感到震惊。然而,不久后有 AI 大牛指出研究中存在 bug,很可能是因为训练数据被污染了。
最近,各位业内大咖都被芝大的一篇论文震惊了。
研究者发现,GPT-4 帮忙选择的股票直接击败了人类。并且,它还击败了许多其他针对金融训练的机器学习模型。
他们最为震惊的是,LLM 能够在不存在任何叙述性上下文的情形下,成功地对财务报表里的数字进行分析。
论文地址:
具体而言,在对收益的变化进行预测方面,LLM比那些经验丰富的金融分析师都要更加优秀。尤其在进行选股的时候,人类分析师会遭遇到一些难以去应对的情形,这会使得预测结果带有偏见,并且效率低下,而在这种情况下,LLM则展现出了极为巨大的优势。
并且,LLM 所做出的预测,并非仅仅是对训练数据的回忆。例如,GPT-4 能够给出有洞察力的分析,甚至还能揭示出一家公司未来可能的表现。
GPT-4 的表现极为突出,它比其他模型都要优秀得多,直接实现了更高的夏普比率以及更高的阿尔法。
沃顿商学院教授 盛赞:这是一篇众人翘首以盼的论文。
有网友发出感慨,他们认为以后在股市中进行操盘的,究竟是人还是 AI 难以确定了……
然而,大家正处于激动的状态时,有研究人员表现得很细心,他们给这项研究浇了冷水。之所以能够取得这样的结果,很有可能是因为训练数据受到了污染。
AI 大牛田渊栋表示,GPT-4 有优异表现。这种优异表现不排除是因为其训练数据集中包含了未来的股票价格。所以 GPT-4 像是直接开了挂,并且据此对 2021 年起的股票样本进行了选择。
测试 GPT-4 是否开了挂,从理论层面来看并不复杂。首先获取股票的历史纪录,接着把这些历史纪录重命名为某个新的代码,然后将重命名后的内容输入进去进行测试就可以了。
研究内容
如何衡量 LLM 在未来决策中的作用呢?在这项研究里,研究者所采用的衡量标准是让 LLM 进行财务报表分析(FSA)。
进行 FSA 的主要目的是了解公司的财务健康状况,同时确定其业绩是否能够持续。
FSA 是有一定难度的。它属于定量任务,需要对趋势和比率进行大量的分析,同时也涉及到批判性思维、推理能力以及复杂的判断。一般来说,这个任务是由金融分析师以及投资专业人士去完成的。
在研究过程中,研究者会把两份标准的财务报表,即资产负债表和损益表,交给 GPT-4。它的任务是分析公司接下来的收益究竟是会增长还是会下降。
注意,这项研究存在一个关键设计,即不会向 LLM 提供任何文本信息,LLM 能够参考的仅仅是纯粹的报表。
研究者预测,LLM的表现,大概率会比专业的人类分析师差。
原因是分析财务报表的任务很复杂,它涉及很多模糊性的事物,需要大量的常识、直觉以及人类思维的灵活性。
LLM 当下的推理和判断能力较为欠缺,同时也欠缺对行业以及宏观经济的理解。
另外,研究者预测 LLM 的表现不如专用的机器学习应用。例如,用于收益预测的人工神经网络(ANN),其表现可能会比 LLM 更好。
ANN 能够让模型去学习深层次的交互,而这些交互中蕴含着重要线索,通用模型难以获取这些线索。只有当通用模型能够依据不完整的信息,或者在从未见过的情景下,进行直觉推理并且形成假设时,才可以做到。
实验结果让他们极为惊讶。LLM 居然将许多人类分析师和专用的神经网络都比了下去,并且展现出了更为出色的成绩。
实验步骤
评测LLM的具体表现如何,需要从以下两个步骤展开。
研究人员首先对公司的财务报表进行处理,将其进行匿名化操作,使其不再能直接关联到特定公司。同时,还对报表进行标准化处理,以确保数据的一致性和可比性。这样做的目的是防止 LLM 记住公司的潜在可能,避免因对特定公司的记忆而影响模型的准确性和公正性。
他们从资产负债表和损益表中做了这样的事:省去了公司的名称,还用标签(像 t 和 t - 1)去替换年份。
研究者按照平衡模型进行了操作,对资产负债表和损益表的格式进行了标准化。
这种方法能保证财务报表的格式在所有公司年度统计中保持一致。所以,LLM 并不清楚它所进行的分析具体对应的是哪一家公司,也不清楚对应的是哪个时间段。
研究人员在第二阶段设计了一个指令,这个指令是用来指导 LLM 进行财务报表分析的,同时也用于确定未来收益的方向。
他们除了开发了简单的指令之外,还开发了一个 CoT 指令,这个指令实际上是在“教”LLM 按照人类金融分析师的思维过程来进行分析。
金融分析师在分析时会去识别财务报表里显著的趋势,会计算关键的财务比率,像经营效率、流动性以及杠杆比率等,会综合这些信息,并且会形成对未来收益的预期。
研究人员创建的 CoT 指令,通过一系列的步骤来把这个思维过程给实现。
研究人员在选用数据集时,会使用数据库来测试模型的表现。并且,在必要的情况下,会将该数据库与 IBES 数据库交叉使用。
样本包含了 1968 年到 2021 年这段时间内,某家公司的年度数据。
分析师的样本涵盖了 1983 年到 2021 年这段时间,其中包含了 3152 家公司的观察数据。
LLM为何如此成功
对于这个结果,研究者提出了两种假设。
第一种假设是,GPT的表现完全是由近乎完美的记忆驱动的。
GPT 有可能从数据里推断出了公司的身份以及年份,接着把这些信息和新闻中所学到的关于该公司的情感进行匹配。
为此,研究者尝试将这种可能排除掉。同时,还运用了 GPT-4 训练期之外全新的数据,把结果进行了复制。
GPT 能推断出未来收益的方向,这是因为它生成了有用的见解模型。第二种假设就是关于这方面的。
模型时常会对金融分析师所计算的标注比率进行计算,接着依据 CoT 提示来生成对这些比率进行分析的叙述。
研究者把模型为某一给定公司年度所生成的所有叙述进行汇总。接着,使用 BERT 把这些汇总后的叙述编码成 768 维向量(嵌入)。之后,把这些向量输入到 ANN 中。最后,训练 ANN 来预测未来收益的方向。
结果,ANN 是基于 GPT 叙述见解进行训练的,它达到了 59%的准确率,而 GPT 的预测准确率是 60%,ANN 的准确率几乎与 GPT 的预测准确率一样高。
这一结果直接证明,模型生成的叙述见解对未来表现具有信息性。
另外可以观察到,GPT 的预测和基于 GPT 叙述的 ANN 预测之间存在 94%的相关性。这表明,这些叙述所编码的信息是 GPT 预测的基础。同时,在解释未来收益方向方面,与比率分析相关的叙述是最为重要的。
总之,模型表现优越的原因是有基于 CoT 推理生成的叙述。
实验结果
最新研究中的实验评估结果,可以总结为以下三大亮点。
GPT胜过人类金融分析师
研究者为了评估分析师的预测准确性,进行了以下操作:计算了“共识预测”,这里的“共识预测”指的是在财务报表发布后的一个月内,各个分析师所做出的预测的中位数,并且将这个中位数作为下一年收益的预期。
这确保了分析师预测和模型预测结果的可比性。
作者使用了未来三个月的“共识预测”,还使用了未来六个月的“共识预测”,将它们作为可替代的预期基准。
这些基准有不利之处,因为它们包含了一年中所获取的信息。然而,鉴于分析师在将新信息纳入预测时可能会比较迟缓,研究者决定报告这些基准以便进行比较。
研究人员首先对 GPT 在预测未来“收益方向”这方面的表现展开了分析,接着把它的表现和证券分析师的表现进行了对比。
他们注意到预测每股收益(EPS)的变化是一项很复杂的任务。EPS 的时间序列近似于“Walk”(随机游走),并且其中包含大量难以预测的成分。
随机游走反映了,仅根据当前收益与之前收益相比的变化的预测。
下图展示的是GPT和人类金融分析师的预测性能对比结果。
结果显示,第一个月分析师的预测,在预测未来收益方向上的准确率是 53%。同时,这一准确率超过了简单模型(把前一年的变化进行外推)的 49%准确率。
分析师三个月后的预测准确率为 56%,这是合理的,因为其中包含了更及时的信息;分析师六个月后的预测准确率为 57%,这也是合理的,同样是因为包含了更及时的信息。
GPT 在基于「简单」非 CoT 提示下的预测表现是 52%,这个表现低于人类分析师的基准,并且这与研究者的预期是一致的。
然而,在使用 CoT 来模拟人类推理的时候,他们察觉到 GPT 的准确率达到了 60%,这比分析师的表现要明显高很多。
如果去核查 F1(F1 评分),它是一种评估模型预测能力的替代指标,基于其精确度和召回率的组合,那么也会得出类似的结论。
这表明,在通过分析财务报表来确定公司的发展方向这件事上,GPT的表现明显优于中位数金融分析师的表现。
人类分析师可能会依赖一些模型无法获取的软信息,也可能会依赖更广泛的背景,这样就增加了价值。
研究人员确实发现,分析师的预测中包含了一些关于未来表现的有用见解,而这些见解是 GPT 未捕捉到的。
研究表明,在人类难以进行未来预测的情况下,GPT 的见解具有更高的价值。
同样,在人类预测容易出现偏见或者效率低下(也就是未合理地纳入信息)的时候,GPT 的预测在对未来收益方向进行预测方面更有作用。
GPT与专用神经网络不相上下
研究人员还比较了GPT和各种ML模型的预测精度。
他们选用了三种预测模型。
第一个模型是「 」(逐步回归),它遵循 Ou 和 的框架,并且使用了 59 个财务指标作为预测变量。
第二个模型是,使用了 59 个相同的预测变量的人工神经网络(ANN)。并且,这个 ANN 还利用了这些预测变量之间的非线性以及交互作用。
第三,研究人员为了保证 GPT 与 ANN 之间的一致性,还运用了一种 ANN 模型,该模型是基于提供给 GPT 的相同信息集(损益表和资产负债表)进行训练的。
重要的是,研究者运用每五年的历史数据所对应的观察数据去训练这些模型。并且,所有的预测都属于样本之外的(out of )情况。
研究使用整个样本后发现,“逐步回归”的准确率(F1 评分)是 52.94%(57.23%),此准确率与人类分析师的表现相近,同时也与之前的研究相符。
相比之下,用相同数据训练的 ANN 达到了 60.45%的准确率,其 F1 评分是 61.62%,这一准确率处于最先进的收益预测模型的范围之内。
使用 GPT(with CoT)进行预测时,发现模型在整个样本上的准确率是 60.31%,并且这个准确率与 ANN 的准确率十分接近。
GPT 的 F1 评分比 ANN 要显著高。GPT 的 F1 评分是 63.45%,ANN 的 F1 评分是 61.6%。
当研究人员仅用两份财务报表的数据去训练 ANN 时,将其输入到 GPT 中。这时发现 ANN 的预测能力相对略低,其准确率(F1 评分)为 59.02%,而原本的准确率(F1 评分)为 60.66%。
这些结果总体而言表明,GPT 的准确率与最先进的专用机器学习模型的准确率是相当的,甚至可能略高一些。
ANN和GPT预测互补
研究人员观察到,ANN 的预测和 GPT 的预测具有互补性。因为这两者都包含着有用的增量信息。
并且有迹象表明,当ANN表现不佳时,GPT往往表现良好。
特别是,ANN 会依据在过去数据里所见到的训练示例来对收益进行预测。而且,由于很多示例是极为复杂且具有高度多维性的,所以它的学习能力有可能会受到限制。
GPT 在预测小型或亏损公司的盈利方面,相比其他情况犯的错误相对较少。这可能是因为它具备类似人类的推理能力,并且拥有广泛的知识。
研究者进行了几项额外的实验。这些实验是基于 GPT 来对其答案的置信度进行操作的,从而对样本进行分区。并且,研究者还使用了不同的 LLM 家族。
GPT 以更高的置信度回答时,其预测通常比置信度较低的预测更为准确。
研究证明了这一结果能够推广到其他大模型上。具体而言,谷歌最近发布的 Pro,它的准确率和 GPT-4 是差不多的。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态