01研究背景
在金融市场中,信息几乎决定一切。投资者解读财报、分析公告、研究管理层陈述,希望从公开信息中捕捉未来走势的蛛丝马迹。过去二十年,随着文本挖掘技术的发展,大量研究开始分析企业年报、新闻报道与财报电话会议文字记录,试图从“语言内容”中提取风险信号。
然而,在真实的财报电话会议中,投资者听到的从来不仅仅是文字。管理者的语气、语速、停顿、音调变化,都构成了一种隐性的沟通渠道。尤其在问答环节,当分析师提出尖锐问题时,声音的细微波动往往更能传达情绪与心理状态。实际应用中,一些机构投资者已经开始关注这种非语言信息。但学术界却长期聚焦于文本本身,对于声音如何影响市场预期,缺乏系统性研究。声音是否真的包含可量化的风险信号?它能否提升金融风险预测的准确性?

(图片为AI生成)
02研究问题
与直接预测股价涨跌不同,本文关注的是“金融风险”,即未来一段时间内股票收益的波动率。波动率不仅是投资组合管理与风险控制的核心指标,也是期权定价模型中的关键变量,对金融衍生品交易有重要影响。因此,若能提高波动率预测精度,其经济意义十分显著。
作者提出的核心问题是:在传统的基本面数据与历史风险指标之外,管理者在财报电话会议中的声音特征,是否能够提供增量信息,从而提升未来波动率预测的准确度?进一步而言,如果声音确实有用,那么:应如何建模声音的时间变化?如何融合声音与文本信息?是否应使用情绪识别等高阶构造变量,还是更基础的声学指标?
03理论基础
本文并非单纯的技术尝试,而是建立在Mehrabian 的非语言沟通理论(nonverbal communication theory)之上。该理论指出,在面对面或语音沟通中,信息不仅通过语言内容传递,还通过语气、声调等非语言渠道表达。当语言内容与语气不一致时,接收者往往更倾向于相信语气。在财报电话会议场景中,管理者既要向市场传递积极信号,也可能面临压力与不确定性。如果其语言表达与语音特征之间存在不一致,这种“语音—语义错位”或许正是市场风险的前兆。
基于这一理论,作者提出三个设计要求:第一,模型应同时利用文本与声音信息;第二,应捕捉声音在时间维度上的动态变化;第三,应避免依赖难以验证的高阶情绪标签,而使用基础声学特征。
04研究设计
为实现上述设计目标,作者构建了一个名为DeepVoice的多模态预测系统。其核心结构包括三个部分。
首先,在数据层面,研究收集了 2015 至 2018 年间6,047 场 S&P 500 公司财报电话会议的完整音频与文字记录,并结合公司基本面数据与历史波动率指标。数据规模在同类研究中具有代表性。
其次,在特征提取层面,作者并未采用商业情绪识别软件,而是提取基础声学特征,包括音高、音量、语音流畅度、停顿频率、抖动程度与谐波噪声比等。这些特征具有明确物理含义,避免了情绪构造变量可能带来的测量误差。
最后,在模型层面,DeepVoice采用两阶段长短期记忆网络(LSTM)。第一阶段分别对文本序列与对应音频序列进行建模,使两种模态在相同维度空间中表示;第二阶段再对两者进行融合,捕捉语音与文本之间的动态互动关系。最终预测结果与基本面模型及历史风险模型进行集成(stacking),形成综合风险预测。
值得强调的是,这一结构并非简单拼接特征,而是有意识地建模“声音—文本”的时间互动结构,这也是本文方法上的重要创新。
05实证检验
在评估模型效果时,作者重点关注样本外预测表现,以避免过拟合问题。研究分别测试了 3 天、5 天、10 天、30 天与 60 天的未来波动率预测。
结果显示,相比仅使用基本面与历史风险数据的基准模型,DeepVoice 在多个预测窗口下均显著降低预测误差。尤其在短期与中期波动预测中,加入声音信息带来的改进更为明显。
进一步地,作者将改进后的波动率预测结果应用于期权交易策略测试,发现预测精度的提升能够转化为实际经济收益。这一结果表明,声音信号不仅具有统计意义,也具备现实市场价值。
06研究结论
综合实证结果,本文得出几个重要结论。
第一,管理者在财报电话会议中的声音特征确实包含与未来风险相关的信号,并且能够提供超越传统基本面与历史风险指标的增量信息。
第二,简单拼接文本与声音特征并不足够。只有在时间维度上建模两者的互动关系,才能充分挖掘非语言信息的价值。
第三,使用基础声学特征优于依赖高阶情绪构造变量,说明在复杂多模态数据场景下,理论驱动与可解释设计尤为重要。
07研究贡献
本文的贡献体现在理论与方法两个层面。在理论层面,研究将非语言沟通理论引入金融风险预测场景,拓展了市场信息处理研究的边界。它表明,市场参与者并非只对“说了什么”作出反应,也会对“怎么说”产生判断。
在方法层面,本文展示了设计科学范式在金融科技研究中的应用路径。作者从理论出发,提出元需求,构建元设计,再通过实证检验验证假设。这种理论驱动的系统构建方式,为多模态信息系统研究提供了范例。
在金融市场中,我们习惯认为价格反映所有公开信息。但这篇研究提醒我们,信息并不仅存在于数字与文字之中。声音本身也是信息载体。未来,当人工智能进一步参与投资决策,文本分析或许只是第一步。多模态信息融合,尤其是对声音与语言互动结构的理解,可能会成为金融信息系统的重要方向。下一次当管理者在电话会议上回答问题时,也许市场已经不只是在阅读陈述,而是在倾听语调。风险未必写在财报里,它可能早已隐藏在声音的细微变化之中。
参考文献:
Yang, Y., Qin, Y., Fan, Y., & Zhang, Z. (2023). Unlocking the power of voice for financial risk prediction: A theory-driven deep learning design approach. MIS Quarterly, 47(1), 63–96.
文章链接:
https://doi.org/10.25300/MISQ/2022/17062
https://misq.umn.edu/misq/article-abstract/47/1/63/2217/Unlocking-the-Power-of-Voice-for-Financial-Risk?redirectedFrom=fulltext
作者信息:

Yi Yang
Position: Associate Professor, Lee Heng Fellow, Department of Information Systems, Business Statistics and Operations Management, School of Business and Management, Hong Kong University of Science and Technology
Area: Natural language processing (NLP), large language model (LLM), machine learning, statistical inference, and their applications in finance and business
Site: https://yya518.github.io/
Email: imyiyang@ust.hk

Yu Qin
Position: Ph.D candidate,Management Information Systems, W. P. Carey School of Business, Arizona State University
Area: Multimodal computing,natural language processing, large language model interpretation, and applications in management science
Site: https://yuqin.tech/
Email: yuqin@asu.edu

Yangyang Fan
Position: Associate Professor, School of Accounting and Finance, Faculty of Business, Hong Kong Polytechnic University
Area: Fintech, auditing, corporate governance, and capital markets
Site: https://www.polyu.edu.hk/af/people/academic-staff/prof-yangyang-fan/
Email: yangyang.fan@polyu.edu.hk

Zhongju Zhang
Position: Dean's Council Distinguished Professor, Department of Information Systems, W. P. Carey School of Business, Arizona State University
Area: Design, operations, economics, and societal aspects related to information systems and digital platforms
Site: https://search.asu.edu/profile/2712702
Email: Zhongju.Zhang@asu.edu