版权声明:文章内容为本人原创,转载请注明出处。
假设检验的基本思想:
假设检验的统计思想是:概率很小的事件在一次试验中可以认为基本上是不会发生的,即小概率原理。例如,某一事件出现的概率是0.001时,那么平均在1000次重复试验中可能才出现一次。因此,概率很小的事件在一次试验中几乎是不可能发生的,于是,我们把“小概率事件在一次试验中发生了”看成是不合理的现象。
为了检验一个假设是否成立,我们就先假定这个假设是成立的,如果根据这个假定导致了一个不合理的小概率事件发生,那就表明原来的假定是不正确的,我们就拒绝这个接受这个假设。如果由此没有导出不合理的现象,则不能拒绝接受这个假设。
这个小概率到底多小才算是不合理的小概率事件,一般统计学用的最多是0.05,也有更严格的用0.01的,也有宽松的用0.1的,这个可以试个人对于风险的偏好,风险偏好高的朋友可以用0.1的标准,这样的好处就是可以比较容易拒绝原假设,代价就是发生错误的几率也增大。风险偏好低的朋友可以用0.01的标准,这样的好处就是可以不易发生原假设被错误拒绝的情况,代价就是发生拒绝原假设的难度大大增加,可能会发生原假设实际上不成立但由于拒绝假设的标准过于严格导致无法拒绝原假设的情况。
实际应用举例:
小结:
假设检验的基本原理:如果假设A成立,那么事件B发生的概率低于5%(当然也可以用10%或者1%等标准)。实际随机抽样检测中B发生了,我们可以在0.05的显著性下认为假设A不成立。在实际应用中我们要注意的是,第一,样本书越大,越容易验证条件A是否成立;第二,观察事件B是否发生时,一定是要随机抽样的。比如上面那个硬币的例子,如果不是随机抛硬币,而是由一个硬币抛掷高手来有认为控制硬币抛掷后的结果,那么得出来的结论对于硬币是否标准这一假设是没有参加价值的。为什么很多历史数据中表现很好的交易系统在后期的实盘时效果很差,很大一个原因就在于针对历史数据所设计的交易系统不符合抽样随机性。
交易应用示例:
注意事项:
1.不可忘记或者因为某些利益因素故意忘记抽样统计中的随机原则。概率法则有效的前提是随机抽样。如果人为影响样本的抽取过程甚至制造假的样本,则样本对于总体的预测价值是0甚至是相反的。在做模型测试时,务必至少要有训练数据和盲测数据,在训练数据上表现优异的模型必须在盲测数据上也能足够优秀到可以拒绝模型无效的假设,才可以考虑将模型运用到实战中。网上有不少卖模型的人,给出的模型在历史数据上的交易曲线几乎是一条无回撤的上涨直线,但是,一旦实盘交易,就开始大幅度回撤,很大的可能就是在于这个模型针对历史数据做了非随机性的定向优化,同时因为利益的关系模型开发者故意没有做盲测这一个过程。
2.牢记假设检验的原则,宁可错过,不可做错。任何一个模型,在没有足够的数据证明这个模型是有效前,均假设该模型为无效的。这就是量化交易的痛苦的地方,量化交易者最容易出现的情况是,花了很多时间,在训练数据上挖掘出了一系列的可以拒绝无效假设的交易模型,跑到盲测数据上一一测试,均无法在0.05的显著性水平上拒绝模型无效的检验,心拔凉拔凉的,感觉这么多时间的付出浪费了,心有不甘。再怎么心有不甘,也不能自欺欺人的把没有拒绝无效假设的模型上线,心有不甘总比亏钱好。
3.要有风险意识。即便是在0.05的显著性水平下在训练数据、盲测数据甚至是新的实盘交易数据上全部拒绝无效假设,也不代表这个模型一定是永远有效的。一方面,这是由于这种将低概率事件近视为“不可能事件”的假设检验方式决定的。另一方面,也是很重要的一方面,就是可能随着时间的变迁,市场本质特征发生变化了,你这个模型背后所体现的那个影响市场的因素发生变化了。
说到模型背后所体现的因素,我展开多说一点。近几日和小鱼在微博上讨论了概率是否在金融市场上可以运用和市场是否可以预测的问题。否认市场可以预测的一个很有力的论据就是影响市场走势的因素千千万,交易者根本无法一一识别这些因素,更加难以识别这些因素中每个因素的权重影响,故无法预测。那么,有没有可能存在这样一种情况,就是我无法直接知道是哪些因素影响了市场,但是我可以间接的通过一种方式预测市场会以什么样的概率运动。我先说统计学上一个有趣的例子。
在美国的中西部的一个小镇上,人们发现一个很有趣的不合逻辑的现象,就是冰激淋的消费量越高,犯罪率越高。这个具体的两个变量间的线性相关程度统计学里面是有专门的公式的。总之,就是经过统计发现,犯罪率的高低与冰激淋的消费量存在强的正相关,即冰激淋销量高时犯罪率高,冰激淋销量低时犯罪率低。
现在两个问题:1.冰激淋销量是否可以预测犯罪率;2.如果人为控制改变冰激淋销量,是否可以改变犯罪率。
对于第2个问题,我想任何一个有生活常识的人都会知道,犯罪率与冰激淋销量完全无关,人为改变冰激淋销量并不能改变犯罪率。对于第1个问题,就会比较困惑了。因为常识告诉我们,冰激淋与犯罪无关,但是统计学的数据又表明二者是正相关,那么到底是什么原因呢?慢慢的,人们终于想到了天气这一共同因素。冰激淋的销量与天气紧密相关,天气越热销量越高,同时,天气越热,人越容易在室外活动,越容易开窗(导致偷盗概率增加),女性越容易穿着暴露(导致性犯罪增加),人的心情也越烦躁(导致冲动型犯罪增加)。于是,我们知道了,因为天气这一共同因素,只要没有人为的刻意影响冰激淋的消费量,冰激凌的消费量是可以预测犯罪率的。其实,只要我们没有人为的刻意影响冰激淋的消费量,即使我们不知道是因为天气这一共同因素,我们也可以用冰激淋销量来预测犯罪率。
现在说回到交易。假如,有这样一个量化模型,无论是在训练数据上还是盲测数据上还是在新的实盘交易数据上,均可以在0.05的显著下拒绝模型无效的假设,那么,我们有必要认为,在95以上的概率上,这个量化模型背后存在一种共同的影响因子能够较大的影响市场的短期走势,尽管,这个影响因子到底是什么我们不知道,但只要这个因子在,这个量化模型就仍然有效。因为我们不知道这个因子是什么,所以我们更加不可能直接的发现这个因子是否已经变化了,我们仍然只能通过这个量化模型的之后的表现来间接预测。如果量化模型一直在0.05的显著下拒绝无效的假设,那么可以认为这个因子仍然存在,如果无法拒绝了,则可以认为这个因子可能消失了或者至少没以前那么重要了
通过上段分析,可以看出时间对于模型有效性的重要性。我想这也是高频交易开始流行一个很重要的原因。因为高频交易的模型,训练和盲测所需要的时间周期很短,那么模型背后的那个影响因素仍然存在的概率很高,而低频交易,训练和盲测所需要的时间可能需要半年甚至更长时间,很可能那个影响因素已经变化了。
不知不觉,写了这么多了,回头看,尽管为了这篇文章做了几天的准备,以至于这几天梦里都是概率的事,仍然写的非常混乱,有看不明白的朋友请留言我会一一解释。我本人并不是数学专业的,对于概率也仅仅是个人的片面理解,概率如何应用到金融交易中,目前市面上的书几乎没有,我是一本都没有找到,以上所写全部为个人的一次尝试,肯定有不少错误的地方,欢迎大家猛拍。