论文大焖锅 | 公众号推荐 “社会科学中的机器学习”-人工智能的专栏

论文大焖锅 | 公众号推荐 “社会科学中的机器学习”

2020-08-01 17:45:09栏目：默认栏目 IP属地：IP未知

来源：论文大焖锅大BOSS

嘿嘿，都是一家人... 扫描下面的二维码关注哦

“社会科学中的机器学习”第442篇推送

Zheng Tracy Ke, Bryan T. Kelly, Dacheng Xiu. 2019. “Predicting Returns withText Data.” NBER working paper No. 26186.

文本情感分析很早就出现在金融研究领域。在1933年，经济学家和商人Alfred Cowles III就曾通过分析财经新闻来预测市场走向。他将《华尔街日报》上文章分为看涨、看跌或中性，并为交易策略提供参考。然而，文本分析常涉及多维度，这种统计上的高维特征给研究者带来巨大挑战。如今，日益成熟的机器学习技术则可以解决这一问题。该领域中较为普遍方法是基于已有情感专用词典（如Harvard-IV心理学词典、Loughran-McDonald Master词典）使用特设字词加权法（Ad Hoc Word-weighting Schemes）对文本进行情感评分和分析。

最近，Zheng Tracy Ke, Bryan T. Kelly和Dacheng Xiu基于机器学习技术提出一种新的文本发掘方法SESTM（Sentiment Extraction via Screening and Topic Modeling）。这种新方法主要有三个优点：第一，该方法只需要标准的计量经济学技术，比较简易。同时，商业平台提供的技术或深度学习方法常常是“黑箱”，而作者提出的新方法是可解释的；第二，该模型只需要很小运算能力；第三，研究者可以建立起一个专门适用于本数据集特点的情感评分模型，而不依赖于已有且为其他目的而设计的词典。

SESTM方法包括三个步骤。第一，作者使用相关筛选（Correlation Screening）机器学习技术，从文本中分离出与积极或消极情绪相关词汇，例如：“Repurchase”、“Surpass” 等是积极词汇，“Shortfall”、“Downgrade”等是消极词汇；第二，作者结合有监督主题模型（Supervised Topic Model）依据每个词汇与预测任务相关性赋予其特定权重；第三，作者使用最大似然估计（Maximum Likelihood Estimation，MLE）通过评估情感词汇对文章进行情感评分。

注释：作者利用SESTM方法展示了与股票价格波动相关的情感词汇。其中，字体越大，表示该词出现频率越高。

为验证模型预测能力，作者将上述文本挖掘框架应用到投资收益预测问题上。他们使用Dow Jones Newswires Machine Text Feed and Archive数据库中1989年1月1日到2017年7月31日的实时新闻作为文本数据，并通过分析文本得到的情感评分来预测股票收益。图一列出了作者从文本数据中提取的与股票价格波动相关的情感词汇，作者发现部分高频出现的词汇在已有的情感专用词典中是缺失的，例如SESTM提取的出现频率最高的11个积极情感词汇中只有一个出现在Loughran-McDonald Master词典中。随后，作者将本模型获得的预测结果与另外两种方法——基于已有词典的文本情感分析和数据分析公司提供的新闻情感分析——进行比较。结果显示基于SESTM方法构建的投资组合收益率要优于其他方法。

应用到的机器学习技术：相关筛选（Correlation Screening）、主题模型（Topic Model）。

数据来源：Dow Jones Newswires Machine Text Feed and Archive数据库。