由太阳官网张学勇教授和其指导的博士研究生吴雨玲合作撰写的论文“基于网络大数据挖掘的实证资产定价研究综述”近期发表于太阳官网A类期刊《经济学动态》2018年第6期。
得益于互联网的飞速发展,投资者在使用互联网的过程中留下了大量数据,这些数据为研究投资者关注和投资者情绪提供了理想样本,进而为基于投资者行为的投资策略提供了新的思路。
投资者关注和投资者情绪是行为金融学近年的重要研究主题。传统的投资者关注的度量方式可以分为以下两种:第一种方式是利用金融资产的交易特点度量投资者关注度与情绪。通常的做法是使用交易量、换手率、成交量等变量测度股票是否受到了投资者关注。第二种方式是基于财务报表和公告数据测度投资者关注,如使用广告费和营销方式代理投资者关注。
传统的投资者情绪的度量方式主要可以分为三种:第一种是用金融资产的交易特点等客观数据度量投资者情绪,包括使用封闭式基金的折价率、IPO数量及首日收益、新增投资者开户数等与市场交易相关的变量测度投资者情绪;第二种方式是通过分析公司董事、管理人员和分析师等人的情绪或者直接使用其他机构提供的市场情绪指标等主观指标度量投资者情绪;第三种方式是结合几种情绪测度代理变量,生成新的情绪度量指标。
使用网络大数据对投资者关注的度量以“计数”为中心思想,即通过统计网络大数据中能够反映投资者关注或者能够吸引投资者关注的变量来实现。根据网络大数据的投资者关注度量方法主要有以下四种:新闻覆盖率法、业绩排名法、搜索量法和发帖量法。网络覆盖率和业绩排名并不能直接代理投资者对证券的关注,只有仅当投资者接收到这些信息后,才会对相应证券投以关注,因此,这两种方法仍然是一种间接的度量方法。
使用网络大数据对投资者情绪的度量方法以“分类”为中心思想,通过文本分析将网络大数据中有效信息分为“积极的情绪”、“消极的情绪”以及“中立的情绪”。由于投资者情绪以人类语言即文本数据的形式存在于网络大数据中,因此分析文本数据的感情色彩是度量情绪的关键。使用机器学习中的“监督学习”分类算法能较好地实现文本分类,也是近年来被使用最多的分类方法。通常认为从网络大数据中提取出的投资者乐观或悲观程度能在一定程度预测市场走势或股票价格波动。
相较传统交易数据或财务报表数据,网络大数据具有其独特的优势。常见被用来测度投资者关注和情绪的网络大数据有以下四种:网络新闻数据、搜索引擎数据、社交网络数据和网络论坛数据。根据2016的中国网民互联网应用的使用率数据,以上四类应用的网民使用率分别为:84%(网络新闻)、82.4%(搜索引擎)、37.1%(仅指微博)和16.5%(网络论坛)。以上四类数据来源同时也呈现出了相互影响、协同加强的新特点。
第一,基于网络新闻数据的挖掘。网络新闻指媒体在互联网上发布的新闻,包括股票分析或上市公司动态等内容,被诸多学者用以研究投资者关注和情绪与资产价格之间的相关性。总的来说,基于网络新闻的数据具有数量大、时效高和种类多的特点。首先,曝光较多的证券更容易吸引投资者关注,因此网络新闻数据能在一定程度上反映投资者关注;其次,媒体会通过调查和分析做出利好或利差的报道,正因如此,针对同一事件,不同的网络媒体会发布不完全相同甚至观点迥异的新闻。这些具有感情色彩的新闻评述会向大众传递积极或消极的情绪。
第二,基于互联网搜索的数据挖掘。互联网搜索引擎的发展和移动设备的普及使人们能随时随地对吸引其注意的事物获取进一步的信息。截至2016年底,我国搜索引擎用户规模为6.02亿,使用率为82.4% ,用户规模相比2015年底增长6.4%。除了直接利用搜索引擎数据外,金融终端内的搜索量也能作为投资者关注的度量指标。该类数据最大特点在于它直接反映了人们对某证券的关注。尽管搜索引擎数据较多被用于对投资者关注的研究上,但搜索关键词所体现的投资者情绪也被学者用来研究资产价格走势。
第三,基于互联网社交媒体的数据挖掘。微博、博客等社交网络是人们信息传递和交流的重要平台。基于社交网络的数据有以下两大特点:首先,社交网络的分享功能使得任何消息都能够迅速传播。一方面,由于人们往往高估其他人的意见,因此成为有影响力的发言者将有利可图,当市场均衡时,所有参与者都愿意从别人获取信息尤其是一些更有影响力的人;另一方面,一旦人们通过学习形成了自己的观点,他们倾向于向其他个体传播。其次,不同于网络论坛上具有针对性的发帖,社交网络数据记录了大量独立的情绪,有利于研究异质性风险与市场效率。
第四,基于论坛的数据挖掘。较多投资者在诸如股吧和雪球网之类的网络论坛发帖和评论别人的发帖。基于网络论坛的数据对研究投资者行为和心理具有显著优势:首先,网络论坛发帖内容能较快反映投资者关注和情绪;其次,网络论坛的发帖内容包含投资者的分歧意见,而情绪分歧与市场交易的发生相关;再次,网络论坛的发帖内容还包含部分非公开信息,而这些信息对预测股票收益率有显著作用;最后,财经类网络论坛具有一定的专业性,发帖者和阅读者有一定的金融市场知识,排除了一部分网络噪声。
传统的金融市场投资研究多从股票基本面数据和行情数据中获取投资策略,这些数据难以直接、准确、迅速地揭示投资者的心理和行为,而投资者的心理和行为与证券价格走势尤其是股票价格走势直接相关。随着人工智能、深度学习等技术在网络大数据中的运用,直接反映投资者行为的数据将不再百不一遇,投资者尤其是专业投资者势必期望从新型数据中挖掘有价值的投资信息。
近年来运用上述数据的研究发现投资者关注和投资者情绪能够较好地预测个股收益率和波动性、市场收益率和波动性、基金资金净流入等金融资产变量,基于网络大数据的量化投资策略已经成为新的热门研究方向。2011年,首家基于社交网络的对冲基金——Derwent Capital Markets在英国成立。该基金通过即时分析Twitter上的公众情绪进行投资。2012年,通过分析社交网络Twitter、搜索引擎Google以及其他网络新闻数据的对冲基金Cayman Atlantic成立,该基金从2012年7月至2015年3月累计收益率高达73.21%。南方基金在2015年发行了“南方大数据100指数”,该基金为跟踪“大数据100指数”的普通指数基金。“大数据100指数”中的大数据因子将新浪财经频道下的股票页面访问热度、新闻报道正负性、股票在微博上的正负性纳入了考虑。此类基金还有基于济安金信软件系统数据的银河中证腾安、基于百度搜索大数据的“广发百发100指数a”、基于阿里巴巴电商数据的“博时中证淘金100”等。
目前国内的大数据量化投资模式主要为“公募基金公司+互联网公司”模式,未来基于网络大数据的金融市场投资将呈现机构更加多样化、数据更加多样化和投资策略更加多样化的特点。基于网络大数据的金融市场投资已显示出大有可为的趋势,对基于大数据分析的金融市场投资策略的需求也将越加旺盛。