强化学习是机器学习的一个分支,之前又叫做Approximate Dynamic Programming,不过现在一般都叫做RL了。人工智能也好,机器学习也好,最本质的问题是面对不确定性时如何做出好的决策。
比如具体到量化交易领域,我们要做的决策可以说是每个时刻,要买什么股票,卖什么股票;买多少,卖多少;是用限价单还是市价单等等,这些都是决策。所谓不确定性,可以包括未来股票价格的变化是不确定的,另外我们的单子进入到市场之后,对市场的影响也是不确定的。
另外,强化学习涉及到几个方面:优化(Optimization)、延迟结果(Delayed Consequence)、探索(Exploration)、泛化(Generalization)刚好最近看了个课程,主题是《利用强化学习创建自动交易机器人》,
课程内容概览:
-
强化学习的介绍及在投资中的运用;
-
值函数与“迷宫实验”;
-
强化学习的5个算法介绍及总结;
-
强化学习的常用平台;
-
神经网络与深度强化学习;
-
深度强化学习创建金融智能体。
回到刚刚说的4个方面。所谓优化,目标就是找到做决策的最优方法,使得可以获得最好或比较好的结果。
对于延迟结果,指的是我们现在做的决策会对未来一段时间都会有所影响。比如下单会造成冲击成本,会有暂时的冲击,以及长期的冲击。
探索指的尝试不同的决策,来获得不同的结果,不断学习改进。比如下围棋,每一步棋都要想着未来几步,模拟未来的棋局,探索哪一个位置最好,这就是探索的过程。
最后就是泛化。比如下棋,不可能每一种情况过去都模拟过,未来肯定会遇到没见过的棋局,因此过去的模型必须要有泛化的能力,这样遇到了没见过的棋局也可以应付。
相比监督学习和无监督学习,它们并没有做决策的过程,所以并没有上述说的“优化”的步骤;当然,监督学习要最小化误差,这可以理解为优化的一种方式;但两个优化不是一个意思,强化学习里说到优化一般指找到一个最有策略,从这个角度监督学习和无监督学习都没有优化。另外,监督/无监督学习也没有所谓探索试错的过程,也没有延迟结果这个东西;但监督/无监督学习都有泛化的特征。这是它们与强化学习的区别。
感兴趣的可以的可以扫描下方二维码进入学习!