「95置信区间」回归分析专栏：总体回归、置信度、置信区间的概念及其计算方法-窝牛号

今天窝牛号就给我们广大朋友来聊聊95置信区间,以下关于的观点希望能帮助到您找到想要的百科。

许栩原创专栏《从入门到高手：线性回归分析详解》第9章：总体回归、置信度、置信区间及其计算方法。

多元回归方程求解后，我们分别确认了回归方程的精度和进行了回归方程的显著性验证，接下来，我们需要计算置信区间。

置信区间是回归分析的一个重要概念，但是，将回归分析应用到需求预测，并不强求引入置信区间，也就是说，用回归分析做需求预测时，可以不进行置信区间的计算，而直接进行后续的预测步骤。所以，从这一点来说，大家可以跳过本章，直接进入第10章，用线性回归分析进行预测。

不过，我们做回归分析，非常有必要懂得相关置信区间的概念、逻辑和计算方法。所以，本章，我还是对此做些基础的介绍，主要内容如下。（本专栏总目录如下图。）

1、总体回归。

2、置信度与置信区间。

3、置信区间的计算。

一、总体回归。

要了解置信区间，我们需要先了解回归分析的另一个概念，总体回归。

我们先看总体，请看下图。

回归火锅店的这一组数据中，气温为6℃，没有折扣（即折扣为1）这种情况有3天，分别是1月8日、12日和16日。但是，这仅仅是14天的数据，如果将数据放大，那么，以前肯定也有“气温为6℃，没有折扣”这种情况，以后（即需要预测的未来）也同样会存在这种情况。我们可将“气温为6℃，没有折扣”这种情况认为是一个总体，而1月8日、12日和16日是从这个总体中抽出的三个个体。

总体回归表明的是因变量y的平均状态随自变量x变化的规律。

回归分析认为，气温为x

℃，折扣为x

的业绩服从平均值A

B、标准差为σ的正态分布。（这个原理比较复杂，这里就不展开，大家可以理解为这是回归分析的规定。）

我们将y=A

B称为总体回归。

我们可以这么简单的理解总体回归：我们所做的回归分析是在已知的部分数据的基础上进行的，我们所做的其实是样本回归；而总体回归是未知的，是对全部数据所进行的回归分析。

因为总体是未知的，我们进行回归分析（样本回归），事实上就是用样本回归去估算总体回归。

二、置信度与置信区间。

上一章我有提到过置信度，置信度可以粗暴的理解为对回归模型运行结果有把握的程度。

但要真正的理解置信度，就要先理解置信区间。

置信区间（Confidence interval）是指由样本统计量所构造的总体参数的估计区间。【引自百科定义】

因数据极为庞大，不管是回归分析，还是统计本身，我们都不可能去统计和分析全部数据，统计学上一般采取的做法是，用样本去估计总体，也就是用局部去估计全部。因为样本、局部毕竟是总体中的一部分，所以，用样本估算的总体数据存在一定不可靠性，但是，用样本估算的总体数据又在真正的数据一定的范围之内，这个一定的范围之内就是置信区间。

举个例子，天气预报，气象台发布气温时，一般播报多少度到多少度之间，比如明天气温20℃~30℃之间，这个20℃~30℃之间，就是置信区间。

但是，这个20℃~30℃的置信区间有多大的可信度呢？有多大的把握呢？一般用百分比来表示，比如明天气温有90%的可能在20℃~30℃之间，这个可信度，这个把握度，这个90%，就是置信度。

需要强调的一点是，置信度并不是在求出置信区间后判断出来的。实际上，置信度是在求解置信区间之前，同分析者自己“决定”的，即不同的的置信度，会带来不同的置信区间

通常情况下，95%是最常采用的置信度。置信度不是越高越好，

{!-- PGC_COLUMN --}

因为，随着置信度的上升，势必，置信区间的跨度也就越来越大，直到无任何意义。

比如，明天气温有90%的可能在20℃~30℃之间，置信度是90%，如果将置信度调到100%呢？我们就需要调整置信区间，最后的结果是，明天气温100%在0℃~100℃之间，这显然没有任何意义。

回归分析的置信区间，可以简单的理解为，我们最终的预测结果，不是一个确定的值，而是一个区间范围。即，预测出来的结果在某个数以下，某个数以下，这两个数之间就是置信区间。

比如回归火锅店，当未来某天气温3度，打99折时，最终的预测结果，销售额在4471元至5333元之间，这个4471元至5333元之间，就是置信区间。

三、置信区间的计算。

置信区间的计算过程及计算原理特别复杂，按本专栏“尽可能减少原理性讲述”的说明和思路，对置信区间的计算，本文不进行原理性讲述。另外，置信区间复杂的计算公式本文也不讲述（如上图），本文只讲解一种较简单和直观的，以Excel公式计算置信区间的计算方法。

上图为我推荐的置信区间简单计算公式，在Excel中，回归火锅店回归分析置信区间计算步骤如下（详见下图）。

1、计算t值。t值使用函数TINV计算，TINV函数有两个参数，分别是显著性水平（α）和样本个数-1（n-1）。本例中，显著性水平α=0.05，样本个数n=14，t值=TINV（0.05，14-1）=2.16。

2、计算预测业绩y’的标准差。我们用标准差函数STDEVA计算，如下图，y的标准差=747。

3、将数据套入置信区间的计算公式，计算置信区间。如下图，本例得出，置信区间=±2.16*747/SQRT(14)=±431，也就是我们使用回归分析得出预测值，在95%的置信度下，预测结果在预测值±431之间。

本章总结。

样本回归是已知的，总体回归是未知的，我们进行回归分析（样本回归），事实上就是用样本回归去估算总体回归。

95%是最常采用的置信度,置信度不是越高越好。回归分析的置信区间，可以简单的理解为，我们最终的预测结果，不是一个确定的值，而是一个区间范围。

置信区间的计算较为复杂，但我们可采用简单直观的，以Excel公式完成的简易方法，需要我们灵活和合理应用。

许栩原创专栏《从入门到高手：线性回归分析详解》第10章，用回归分析进行需求预测，将于近期更新，敬请期待。

今天的内容先分享到这里了，读完本文《「95置信区间」回归分析专栏：总体回归、置信度、置信区间的概念及其计算方法》之后，是否是您想找的答案呢？想要了解更多，敬请关注baike.ccv168.com,您的关注是给小编最大的鼓励。

本站所发布的文字与图片素材为非商业目的改编或整理，版权归原作者所有，如侵权或涉及违法，请联系我们删除

窝牛号

「95置信区间」回归分析专栏：总体回归、置信度、置信区间的概念及其计算方法

相关推荐

热门信息

快速导航

窝牛号

最新推荐

最新推荐