股票能不能通过机器学习来预测？CQF量化要怎么做？

2021-12-20 Meteor

　　机器学习包括三个要素：输入变量、输出变量，以及连接它们的模型。

　　一般人会分成训练集、验证集和测试集。

　　传统上机器学习担心的是过度拟合，但也有一些机器学习方法不大害怕过度拟合。

　　比如有理论是谁如果模型复杂度（包括变量、数目、变量结构等）远超数据量，反而不会出现过度拟合的问题，因为冗余的变量或结构的权重会逐渐降低，导致测试误差先升后降（double descent）。这也是很多深度学习敢于大力出奇迹的原因，因为有这个双下降作为保证。否则，传统那种验证集的方法，中间找一个最优，之前欠拟合，之后过度拟合，这个过于玄学。如果你说大胆加，越多越好，那么人们反而放心。

　　如果是强化学习那一套，本质上也不怕什么过度拟合，因为样本基本上采用一定的机制蒙特卡洛生成，不存在什么太离谱的噪音；而且没有什么训练集、测试集这些概念，更多是打游戏，越高分越好，每次的场景都是固定模式生成的。

　　有了以上的这些基本概念，回到金融，回答一些基本问题：

　　1、样本分布改变的问题。

　　之前说双下降不怕过度拟合，那前提是默认了测试集和训练集是同分布的，如果这个分布改变了，那么双下降也没用。至于判断样本分布是否改变，这是一个玄学。

　　当然，这也取决于你对样本的定义。如果你把样本定义为一条路径，那么历史上只有一个样本；或者你把一年的路径定义为一个样本，那你一年也只有一个样本；但如果你是把1分钟的价格变化定义为一个样本，那么你的样本可以多得多；或者你把一次交易定义为一个样本，那么你也可以有非常多的样本。

　　一般情况下，样本越多，一般来说拟合模型越好；另外，在越短的时间内，样本稳定性越高；所以做高频交易不需要太多天的数据来训练也可以有比较好的效果，而且样本分布变化不大，策略失效风险不大。

　　还有就是，如果品种多，每个品种的交易都是独立样本，也可以增加样本数目，但拟合出来的是各个品种的共性，未必每个都能做好，因为评价标准是整体不错。不同品种的分布可能也会有所差异，或许需要调整，使得分布更为接近。

　　2、时间序列与横截面的问题。

　　这本质上是高频和低频的思路，时间序列本质上是高频思路，横截面其实是低频思路。所谓横截面就是固定时间做决策，比如每5分钟、10分钟固定时刻做决策，这个可以方便各个品种对齐，因此可以方便调用其它品种的数据，方便做对冲，都是同一个时间决策；而且可以把决策和交易执行独立开开，有人专门负责算法交易。

　　但如果是高频交易则不能，时机稍瞬即逝，一定要一出信号就买。另外不大适合做对冲，因为每个品种的价格序列是独立的，难以对齐，因此更适合单品种，比如期货类的高频策略。

　　机器学习对这两种都可以，横截面或许可以采用更大量的数据，多品种混合建模。

　　3、个人发展的问题。

　　确实有人工智能界业界顶级的大牛做量化投资失败了，而且是几乎全美国最牛的公司最好的资源，原因很难说清楚，但毕竟少数。

　　有的人虽然厉害，但需要找工作；有的人看起来不怎么厉害，但其实不需要找工作。

　　公司打工的问题在于你只能靠增量存活，没有增量，你就拜拜了；你不能说我之前积累了这么多策略这么多客户这么多资源，这些也能继续赚钱；但问题是没有你公司也能用这些赚钱，那要你何用？但自己干的话自己是可以利用存量赚钱的，这是最大的区别，但很多人没想过这点。一些大券商考核甚至用今年比去年多赚多少钱，或者今年新增了多少客户，存量客户交易佣金降低权重。这样对个人会很坑，因为这些钱公司还是赚的，不管存量还是增量公司都是赚的，只是没有给个人。

　　公司的压力来自于股东，因为如果收益没有增长，股民抛售，股价下降，公司会有压力。或者说公司估值很大一部分来自于未来潜在增值的折现，如果人们发现未来无法增值，那么可能会造成股价雪崩。但个人做没有这方面的压力。

　　所以，对于做量化这种最最不需要公司平台的（我指的是法律规定的牌照类资质），应该是最适合个人做的。或者说得更直接一些，如果量化交易都没法个人做，那么全世界几乎不存在可以个人创业的领域。开个互联网公司还要网站，量化可以啥都没有。　　

　　本文内容来源自网络，如有侵权请联系删除。

191 5

CQF

金融量化领域专业资格

CQF考试百科

Certificate in Quantitative Finance，简称：CQF,是由Paul Wilmott博士领导的国际知名的数量金融工程专家团队设计和推出，是量化金融领域的专业资格，并获得了全球金融公司的认可。

CQF量化学习资料包 - 电子版

其他人在搜

精彩推荐

更多>>