打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
量化投资从数据说起

2016年8月13日,文因互联举办智能金融沙龙第9期,由TuShare的作者刘志明先生主讲“量化投资从数据说起'。


刘志明,财经数据接口包TuShare的创始人,就职于通联数据,12年技术开发和金融数据分析经验,主要从事数据采集和处理工作,为金融量化和主动型投资提供专业数据支持。TuShare是一个免费、开源的Python财经数据接口包,主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,能极大减轻量化研究的工作量,使他们更加专注于策略和模型的研究与实现上。



 


演讲开始,刘志明先生对TuShare这个名字的起源做了解释:Tu是兔子的兔,来源于“挖地兔”。刘先生小时候去山上捡柴,看到野兔在地里爬萝卜,需要用很大的力气才能吃到萝卜,这件事情让刘先生印象深刻。后来刘先生工作中也需要爬取一些数据,这让他联想到小时候看到兔子爬萝卜的经过,感觉自己也像是爬萝卜(数据)的兔子,而当时爬的数据很多都是为了分享给大家,于是TuShare就这样诞生了。


刘志明先生接下来对TuShare的现状以及未来的期许做了详细的阐述。TuShare用起来很方便,但是也有一些问题,比如说数据质量,还有数据和API维护的持续性。目前数据来源于网络例如新浪财经、凤凰财经、网易,也包括交易所的网站,但是有些数据质量一般,稳定性也不太好,所以后期会规划新的版本,力争解决这些问题,也会尽力去寻找更多特色大数据,帮助用户用有效的数据来发现市场的无效性,寻找更多的alphaTuShare的优点首先是免费和开源;其次是数据使用方便,期望以后一起做社区,大家都来用数据并发现问题,这样数据质量就会不断提高,也期望数据一直免费服务于Quant,作为量化投资前期研究的强大支持。另外TuShare是基于Python科学计算库开发,提供很多数据清洗的函数和方法,为量化策略的实现提供便捷的接口。


量化投资的关键要素


刘先生讲到做事情讲究天时、地利、人和映射到量化投资里面包括以下三方面:


首先是数据,数据是第一要位,尤其是高质量的数据,假如没有数据就无从做回测,没有好的数据就无法得到正确的结果。


其次是经验,有了数据就可以写模型,完成一个有效的策略需要丰富的投资经验,这很关键。


最后是运气,虽然量化投资可以实现量化对冲,与主动型投资相比,跟系统性风险关联并不太大,但是也是需要一些运气。踩好节奏,规避一些结构性风险,一方面是政策风险,二是趋势风险。


量化投资关键步骤


首先是做数据采集和整理,主要包括数据规划、采集、清洗处理、结构化、API化。因为从各个源头去采集数据的话,需要做很多工作,这部分占了量化模型实现百分之六十左右的工作量。


二是策略开发和调优,这部分主要包括设计策略模型,编码实现模型,通过数据进行回测,根据结果进行优化改进,这部分主要占据大约百分之三十的工作量。


三是模拟和交易,策略实盘之前要进行模拟测试,根据实际的行情进行模拟交易跟踪,模拟通过之后进行实盘交易,资金量级的大小会影响策略的效果,不同的阶段要进行很谨慎的测试和模拟。


传统金融数据分类


量化投资主要需要哪些数据呢?这里主要讲一些传统的数据分类,其实还有很多特色大数据。


第一是基础数据,没有基础数据很多的量化策略是没法写的。主要包括:证券及公司基本信息,行情数据,财务报表,公司行为,财务数据,市场行为,指数数据等。


二是宏观和行业数据主要包括:各类经济指标,国内生产总值,居民消费指数,特价指数,经济景气指数,财政与货币政策价格,工业品出厂价格指数等,行业包括有色煤炭,能源化工,房地产,汽车交运,电力,消费品等。


三是高频数据:股票的分笔高频,分时高频,各类分钟数据,股指期货高频,商品期货高频等。


四是衍生数据:这个数据体现了公司的投资和技术能力,很多需要自己去计算,但是小公司或者是小的机构没有这种研究能力,需要采购,比如很多有价格的技术因子,基本面因子,资金流向因子,分析师因子,风控数据等。


数据采集途径主要有数据终端、数据API、财经和行业网站、数据库四种方式。


数据处理工具和过程


数据存储类型主要是有CSVTXTEXCELHDF fileDataBase;数据处理工具有很多例如PythonR语言、MatlabSASJava等,但是目前Python在金融数据分析领域越来越越受到欢迎。


数据来源


行情、基本面、公告财报等披露信息主要来源于证券交易所,期货交易所。


证券交易所主要包括:上海证券交易所,深圳证券交易所,全国中小企业股份转让系统。上海证券交易所和深证交易所,投资品种有A股和B股,债券,封闭式基金,ETF等品种的行情、财报及公告。


全国中小企业股转系统:新三板,做市或协议行情、财报和公告。


期货交易所主要有:上海期货交易所,大连商品交易所、郑州商品交易所、中国金融期货交易所。


宏观数据:国家统计局、财政部、人民银行。其中国家统计局的数据是最权威的。财政部主要是提供货币和财政政策。


行业数据:行业协会(大部分需要注册账号或者是购买账号才能获取数据)、政府机构(如商务部农业部)、行业网站(最及时,自己有数据采集能力)


数据服务产生过程


数据服务产生主要分为三个步骤:数据源发布数据、数据供应商采集和处理、用户获取。


数据源(交易所等)主要生产和发布实时行情数据、交易数据、财报公告等,经过数据供应商的采集和整理,以规整的、结构化的信息提供给用户,而用户的获取途径可以是终端、网站、供应商数据库等,能提供完整数据库的供应商主要有通联数据、Wind、恒生聚源等。




整个交流活动持续了大概两个多小时,期间进行了数据采集和数据处理的程序DEMO,也通过展示数据源网站进行了数据采集探讨,针对传统金融数据和特色大数据的应用进行了广泛的交流。



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
量化资源--awesome quant中文版发布
期货程序化交易系统建设可行性分析-
算法交易和高频交易的定义及异同
国债期货、原油期货、外汇期货集体"静默"
掐着秒表收割韭菜:解密唯快不破的高频交易
量化炒股3:炒股策略量化的解释
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服