窝牛号

「95置信区间」回归分析专栏:总体回归、置信度、置信区间的概念及其计算方法

今天窝牛号就给我们广大朋友来聊聊95置信区间,以下关于的观点希望能帮助到您找到想要的百科。

许栩原创专栏《从入门到高手:线性回归分析详解》第9章:总体回归、置信度、置信区间及其计算方法。

多元回归方程求解后,我们分别确认了回归方程的精度和进行了回归方程的显著性验证,接下来,我们需要计算置信区间。

置信区间是回归分析的一个重要概念,但是,将回归分析应用到需求预测,并不强求引入置信区间,也就是说,用回归分析做需求预测时,可以不进行置信区间的计算,而直接进行后续的预测步骤。所以,从这一点来说,大家可以跳过本章,直接进入第10章,用线性回归分析进行预测。

不过,我们做回归分析,非常有必要懂得相关置信区间的概念、逻辑和计算方法。所以,本章,我还是对此做些基础的介绍,主要内容如下。(本专栏总目录如下图。)

1、总体回归。

2、置信度与置信区间。

3、置信区间的计算。

一、总体回归。

要了解置信区间,我们需要先了解回归分析的另一个概念,总体回归。

我们先看总体,请看下图。

回归火锅店的这一组数据中,气温为6℃,没有折扣(即折扣为1)这种情况有3天,分别是1月8日、12日和16日。但是,这仅仅是14天的数据,如果将数据放大,那么,以前肯定也有“气温为6℃,没有折扣”这种情况,以后(即需要预测的未来)也同样会存在这种情况。我们可将“气温为6℃,没有折扣”这种情况认为是一个总体,而1月8日、12日和16日是从这个总体中抽出的三个个体。

总体回归表明的是因变量y的平均状态随自变量x变化的规律。

回归分析认为,气温为x

1

℃,折扣为x

2

的业绩服从平均值A

1

x

1

A

2

x

2

B、标准差为σ的正态分布。(这个原理比较复杂,这里就不展开,大家可以理解为这是回归分析的规定。)

我们将y=A

1

x

1

A

2

x

2

B称为总体回归。

我们可以这么简单的理解总体回归:我们所做的回归分析是在已知的部分数据的基础上进行的,我们所做的其实是样本回归;而总体回归是未知的,是对全部数据所进行的回归分析。

因为总体是未知的,我们进行回归分析(样本回归),事实上就是用样本回归去估算总体回归。

二、置信度与置信区间。

上一章我有提到过置信度,置信度可以粗暴的理解为对回归模型运行结果有把握的程度。

但要真正的理解置信度,就要先理解置信区间。

置信区间(Confidence interval)是指由样本统计量所构造的总体参数的估计区间。【引自百科定义】

因数据极为庞大,不管是回归分析,还是统计本身,我们都不可能去统计和分析全部数据,统计学上一般采取的做法是,用样本去估计总体,也就是用局部去估计全部。因为样本、局部毕竟是总体中的一部分,所以,用样本估算的总体数据存在一定不可靠性,但是,用样本估算的总体数据又在真正的数据一定的范围之内,这个一定的范围之内就是置信区间。

举个例子,天气预报,气象台发布气温时,一般播报多少度到多少度之间,比如明天气温20℃~30℃之间,这个20℃~30℃之间,就是置信区间。

但是,这个20℃~30℃的置信区间有多大的可信度呢?有多大的把握呢?一般用百分比来表示,比如明天气温有90%的可能在20℃~30℃之间,这个可信度,这个把握度,这个90%,就是置信度。

需要强调的一点是,置信度并不是在求出置信区间后判断出来的。实际上,置信度是在求解置信区间之前,同分析者自己“决定”的,即不同的的置信度,会带来不同的置信区间

通常情况下,95%是最常采用的置信度。置信度不是越高越好,

{!-- PGC_COLUMN --}

因为,随着置信度的上升,势必,置信区间的跨度也就越来越大,直到无任何意义。

比如,明天气温有90%的可能在20℃~30℃之间,置信度是90%,如果将置信度调到100%呢?我们就需要调整置信区间,最后的结果是,明天气温100%在0℃~100℃之间,这显然没有任何意义。

回归分析的置信区间,可以简单的理解为,我们最终的预测结果,不是一个确定的值,而是一个区间范围。即,预测出来的结果在某个数以下,某个数以下,这两个数之间就是置信区间。

比如回归火锅店,当未来某天气温3度,打99折时,最终的预测结果,销售额在4471元至5333元之间,这个4471元至5333元之间,就是置信区间。

三、置信区间的计算。

置信区间的计算过程及计算原理特别复杂,按本专栏“尽可能减少原理性讲述”的说明和思路,对置信区间的计算,本文不进行原理性讲述。另外,置信区间复杂的计算公式本文也不讲述(如上图),本文只讲解一种较简单和直观的,以Excel公式计算置信区间的计算方法。

上图为我推荐的置信区间简单计算公式,在Excel中,回归火锅店回归分析置信区间计算步骤如下(详见下图)。

1、计算t值。t值使用函数TINV计算,TINV函数有两个参数,分别是显著性水平(α)和样本个数-1(n-1)。本例中,显著性水平α=0.05,样本个数n=14,t值=TINV(0.05,14-1)=2.16。

2、计算预测业绩y’的标准差。我们用标准差函数STDEVA计算,如下图,y的标准差=747。

3、将数据套入置信区间的计算公式,计算置信区间。如下图,本例得出,置信区间=±2.16*747/SQRT(14)=±431,也就是我们使用回归分析得出预测值,在95%的置信度下,预测结果在预测值±431之间。

本章总结。

样本回归是已知的,总体回归是未知的,我们进行回归分析(样本回归),事实上就是用样本回归去估算总体回归。

95%是最常采用的置信度,置信度不是越高越好。回归分析的置信区间,可以简单的理解为,我们最终的预测结果,不是一个确定的值,而是一个区间范围。

置信区间的计算较为复杂,但我们可采用简单直观的,以Excel公式完成的简易方法,需要我们灵活和合理应用。

许栩原创专栏《从入门到高手:线性回归分析详解》第10章,用回归分析进行需求预测,将于近期更新,敬请期待。

今天的内容先分享到这里了,读完本文《「95置信区间」回归分析专栏:总体回归、置信度、置信区间的概念及其计算方法》之后,是否是您想找的答案呢?想要了解更多,敬请关注baike.ccv168.com,您的关注是给小编最大的鼓励。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1