00 研究概述
无论是P2P平台的借款人违约,还是上市公司的财务危机,及时且准确的预测方法都意味着有效的金融风险管理。传统的预测模型多依赖单一数据(如财务报表),但大数据时代,社交动态、通话记录甚至网购行为都可能暗藏风险信号,如何高效整合这些多源异构数据,是大数据时代改良金融风险预测模型的一个思路。本期解读MISQ论文,揭秘一种能消化碎片化数据的新型预测模型,这一模型在个人违约和企业财务危机预测中表现良好,其思路值得参考和借鉴。
01 研究背景
传统金融风险预测面临两大挑战。其一,数据维度单一。例如个人信用评估仅关注收入、职业等硬指标,却忽视社交平台上的情绪表达(如微博中的“焦虑”“资金紧张”);企业风险预警依赖财务比率,但年报中“战略收缩”“诉讼风险”等文本信号未被挖掘。其二,多源数据整合困难。若将社交、消费、通话记录等异构数据简单堆砌,会导致特征冗余甚至干扰模型判断。例如“高负债”与“消费骤降”可能反映同一风险,但直接合并可能稀释关键信号。这一研究发现,多源数据的价值在于异构互补性与隐含关联性。例如,P2P借款人频繁在微博抱怨“还款压力”,同时出现支付宝消费频次下降,二者结合可强化违约预警;企业年报中“现金流紧张”描述比财务报表中的负债率更早预示危机。这一发现为构建新型预测模型奠定了基础。
02 研究框架与假设
基于上述挑战,研究团队设计HSB_RS模型,其核心是通过数据驱动与推理驱动双策略实现智能预测。具体来说,这一方法遵循以下思路,利用数据驱动策略依托WFAL_GW算法,分两步处理多源数据:
(1)分组筛选:将特征按来源与结构分组(如财务指标、微博情绪词、通话时长),通过稀疏学习剔除冗余,保留每组的核心信号。例如在P2P案例中,社交平台的信息、消费和支出的信息都被识别为关键指标。
(2)动态加权:引入自适应权重融合,分析特征间相关性。当“高负债率”与“管理层负面表态”同时出现时,模型自动提升风险权重,避免重计数。
(3)推理驱动策略采用AER算法,集成多个基础分类器的预测结果。该策略根据模型可靠性和全局贡献动态分配权重。

*Reference: MIS Quarterly Vol. 45 No. 4 / December 2021 P1956
03 研究方法
该研究用两个场景进行了实证检验,具体来说,选取个人违约(DRP)与企业财务危机(FDP)两大场景验证模型。场景1:P2P个人违约预测。数据上,该研究使用了一个贷款违约数据集,包含8,056名借款人,整合平台硬信息、微博社交、通话记录、支付宝消费、淘宝购物5类数据。在特征提取上,作者对微博文本通过LSTM提取情绪词;消费数据统计淘宝消费金额、支付宝收入支出的数量和类别,在通话上统计通话次数和时长等。结果显示,该研究提出的HSB_RS模型较单一硬数据模型提升明显,社交与消费特征贡献了较高的权重。场景2:上市公司财务危机预警数据上,作者使用了2,000家中国企业的数据,预测其被ST的事件。特征提取上,作者融合了财务比率、年报文本、财经新闻情感分析。结果显示,年报的关键词对于ST事件的预测比财务数据要早,财经新闻提取的特征在早期预警的模型中同样具有很高的重要性,这一结果具有非常明确的经济意义。
04 主要发现
该研究通过混合策略模型HSB_RS验证了多源数据融合在金融风险预测中的价值。从理论意义看,该研究构建了面向高维异构数据的自适应框架,解决传统模型因数据单一性和冗余性导致的预测滞后问题。例如,在上市公司案例中,非结构化数据贡献了超过60%的预警权重,使模型AUC跃升至95.28%,且预警窗口提前至危机发生前5年。从实践意义看,该研究为金融机构提供了新思路:P2P平台可通过分析借款人社交动态中的焦虑情绪词和消费画像异常,将违约预测精度提升至95.21%。这些结果表明监管部门则可优先监控社交媒体中的负面舆情传播链,实现风险早干预,金融公司也可以考虑使用多源数据实现大数据时代的风险管理。(模型的证明和数据的案例请见论文原文正文及附录)

*Reference: MIS Quarterly Vol. 45 No. 4 / December 2021 P1964
参考文献:Wang, G., Chen, G., Zhao, H., Zhang, F., Yang, S., & Lu, T. (2021). Leveraging Multisource Heterogeneous Data for Financial Risk Prediction: A Novel Hybrid-Strategy-Based Self-Adaptive Method. MIS Quarterly, 45(4).
文章链接:https://misq.umn.edu/leveraging-multisource-heterogeneous-data-for-financial-risk-prediction-a-novel-hybrid-strategy-based-adaptive-method.html
作者信息:

Gang Wang
Position: Professor of Information Management Department, School of Management, Hefei University of Technology.
Area: Information Systems and Management, Smart Management and Artificial Intelligence, Data Science and Management.
Site: https://faculty.hfut.edu.cn/wgedison/zh_CN/index.htm
Email: wgedison@hfut.edu.cn

Gang Chen
Position: Young Research Fellow, Department of Information Management and Business Intelligence, School of Management, Fudan University
Area: Multimodal behavioral intelligence, large model structured reasoning, theory-driven deep learning.
Site: https://www.fdsm.fudan.edu.cn/aboutus/preview.html?uid=012922
Email: chengang050970@foxmail.com

Huimin Zhao
Position: Professor of Information Technology Management, Sheldon B. Lubar College of Business, University of Wisconsin-Milwaukee
Area: Data mining and healthcare analytics.
Site: https://uwm.edu/business/people/zhao-huimin
Email: hzhao@uwm.edu

Feng Zhang
Position: School of Management, Hefei University of Technology
Email: zhangfeng@mail.hfut.edu.cn

Shanlin Yang
Position: Professor, School of Management, Hefei University of Technology
Area: Intelligent decision-making theory and technology, information system theory and technology, and development strategy planning and system management theory.
Site: https://faculty.hfut.edu.cn/ysl/zh_CN/index.htm
Email: yangsl@hfut.edu.cn

Tian Lu
Position: Assistant Professor in the Department of Information Systems, W. P. Carey School of Business, Arizona State University.
Area: Human–AI Interactions, Unleashing Value of AI and Big Data, FinTech and Microfinance, Innovative Technological Applications in Recent Business Models
Site: https://search.asu.edu/profile/4217075
Email: lutiansteven@gmail.com