现在深度学习越来越火,很多深度学习背景的人都会找量化方面的工作,各种层次都有;另一方面,很多做量化多年的人也会自学深度学习,毕竟可能他入行的时候这玩意还没火,现在火了,出于跟风也好,与时俱进也好,都会去学习。那么这两种人,哪种会更好呢?
众所周知,美国的所谓三大量化对冲基金,Two Sigma、DE Shaw、Citadel,都成立了人工智能相关的实验室,说白了就是做深度学习在量化交易中的应用。Two Sigma请的是谷歌的大神,DE Shaw请的是华盛顿大学的计算机教授,Citadel请的是微软的人工智能大神邓力。
不仅仅是量化交易,其实传统的互联网公司例如腾讯也成立了自己的人工智能实验室,分管的是副总裁,负责人也是统计学和人工智能界赫赫有名的张潼,但后来张潼已经离开,现在也基本上处于不大成功的状态。
不仅仅腾讯,传统的百度也有过类似的局面。比如百度曾经请过谷歌大脑的负责人吴恩达,也是大家非常熟悉的人物,可惜好像也没有成功。
说实话,他们失败的原因都是差不多的。比如深度学习研究需要什么?当然是数据啊。有了数据,就可以训练模型;如果数据是独有的,那么数据就能有很大的优势,其余模型都是调包的,谁的硬件强谁就能算的快,谁就更有优势。因此,数据是核心,没有数据,一切都白搭。
这些公司的问题在于数据属于业务部门,不属于人工智能实验室,可能分管副总裁都不一样,没法协调。另一方面,业务部门如果自己想做人工智能,他们也可以招人来做,或者跟高校合作。因此,核心问题就在于,业务部门出于公司内部竞争考虑,宁可找别人合作,也不愿意跟AI lab合作,宁赠友邦不予家贼,那AI lab还搞什么呢?只能证明一下理论的bound,然后被各种质疑。
美国的那些对冲基金本质上也是一样的道理。对于高频做市,内部很多有意义的数据外部是拿不到的。比如什么时候挂单,什么时候成交,什么时候撤单,成交概率如何,挂单排队情况如何,各个交易所的精确机器时间及延迟,对市场影响的评估等等,只有内部的业务部门有这些数据,外面的人是没有的。业务部门(也就是传统数理统计量化那帮人)积累了大量的这些极有价值的数据,他们回测策略可以更为精准,特别是高频的、高成交额的回测,会远比别人拿市场数据来回测更精准,研究效率也更高,用这些数据来拟合深度学习模型也会更有效。
但如果公司内部出于政治斗争也好,平衡发展也好,另外单独成立一个人工智能的部门,那其实跟腾讯AI Lab的性质是差不多的。所有内部的数据说不给你就不给你,你要数据自己下载或找第三方买吧。这样能买到的数据质量都是很差的。而且,大家都用这些数据,人家都做好几年了,你一个新团队,对金融又不是很了解,也招不到太牛的人,只能招一些实习生。没错,实习生也是顶级名校博士,斯坦福这种,但也没用,人家也没啥经验,几个月的实习也别指望能做出啥。
另外老板给的压力也很大。毕竟请来的是人工智能界德高望重的大师,如果做出来的策略连本公司其他数学统计博士用普通模型做出来的策略都比不上,那招这样的大师又有何用?另外,如果本公司其他数学统计博士自学一下深度学习,拿几个现成模型过来优化一下调调参,最后做出的效果比大师还好,那请大师来干什么呢?说实话,能进这些公司当quant的也绝非等闲之辈,他们看一些开源代码,拿几本这方面的书,理论的、调参的,都学习一下,上上斯坦福、麻省理工的公开课,基本上深度学习95%的内容都可以掌握了,剩下5%都是前沿的或业内还没定论的,学了也没啥用。然后再跟自己以往的量化模型对比一下,有改进就用,没改进就不用,大师未必是他们的对手。
再说了,量化策略很多是使用另类数据的。比如很多人希望在论坛实时发布自己的交易,也有一些人就用爬虫去爬这些数据,找几个胜率高的ID来跟单,效果似乎也不错!这些策略当然不是你从交易所数据能深度学习出来的。
国内情况也差不多。很多人找一些普通的本硕来挖因子,然后请一些深度学习的博士来利用这些因子建模,这样前面不知道后面建模的过程,而深度学习博士不知道这些因子是怎么生成的,对公司而言策略是可以保密的,一切都看似最好的安排,除了不能赚钱。