Excel计算残差平方和(轻松办公-OfficeExcel函数精解(四十五))

首页常识更新时间:2023-05-23 20:32:36

轻松办公-OfficeExcel函数精解

(四十五)

1、KURT函数

返回数据集的峰值。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。

KURT(number1,number2,...)

参数说明:

注解:

S 为样本的标准偏差。

2、LARGE函数

返回数据集中第 k 个最大值。使用此函数可以根据相对标准来选择数值。例如,可以使用函数 LARGE 得到第一名、第二名或第三名的得分。

LARGE(array,k)

参数说明:

注解:

3、LINEST函数

LINEST 函数可通过使用最小二乘法计算与现有数据最佳拟合的直线,来计算某直线的统计值,然后返回描述此直线的数组。也可以将 LINEST 与其他函数结合使用来计算未知参数中其他类型的线性模型的统计值,包括多项式、对数、指数和幂级数。因为此函数返回数值数组,所以必须以数组公式的形式输入。请按照本文中的示例使用此函数。

直线的公式为:

y = mx b

y = m1x1 m2x2 ... b(如果有多个区域的 x 值)

其中,因变量 y 是自变量 x 的函数值。m 值是与每个 x 值相对应的系数,b 为常量。注意,y、x 和 m 可以是向量。LINEST 函数返回的数组为 {mn,mn-1,...,m1,b}。LINEST 函数还可返回附加回归统计值。

LINEST(known_y's, [known_x's], [const], [stats])

参数说明:

  1. 如果 known_y's 对应的单元格区域在单独一列中,则 known_x's 的每一列被视为一个独立的变量。
  2. 如果 known_y's 对应的单元格区域在单独一行中,则 known_x's 的每一行被视为一个独立的变量。
  1. known_x's 对应的单元格区域可以包含一组或多组变量。如果仅使用一个变量,那么只要 known_y's 和 known_x's 具有相同的维数,则它们可以是任何形状的区域。如果使用多个变量,则 known_y's 必须为向量(即必须为一行或一列)。
  2. 如果省略 known_x's,则假设该数组为 {1,2,3,...},其大小与 known_y's 相同。
  1. 如果 const 为 TRUE 或被省略,b 将按通常方式计算。
  2. 如果 const 为 FALSE,b 将被设为 0,并同时调整 m 值使 y = mx。
  1. 如果 stats 为 TRUE,则 LINEST 函数返回附加回归统计值,这时返回的数组为 {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}。
  2. 如果 stats 为 FALSE 或被省略,LINEST 函数只返回系数 m 和常量 b。

附加回归统计值如下:

统计值

说明

se1,se2,...,sen 系数

m1,m2,...,mn 的标准误差值。

seb

常量b 的标准误差值(当 const 为 FALSE 时,seb = #N/A)。

r2

判定系数。y 的估计值与实际值之比,范围在 0 到 1 之间。如果为 1,则样本有很好的相关性,y 的估计值与实际值之间没有差别。相反,如果判定系数为 0,则回归公式不能用来预测 y 值。有关如何计算 r2 的信息,请参阅本主题下文中的“说明”。

sey

Y 估计值的标准误差。

F

F 统计或 F 观察值。使用 F 统计可以判断因变量和自变量之间是否偶尔发生过可观察到的关系。

df

自由度。用于在统计表上查找 F 临界值。将从表中查得的值与 LINEST 函数返回的 F 统计值进行比较可确定模型的置信区间。有关如何计算 df 的信息,请参阅本主题下文中的“说明”。示例 4 说明了 F 和 df 的用法。

ssreg

回归平方和。

ssresid

残差平方和。有关如何计算 ssreg 和 ssresid 的信息,请参阅本主题下文中的“说明”。

下面的图示显示了附加回归统计值返回的顺序。

注解:

斜率 (m):

通常记为 m,如果需要计算斜率,则选取直线上的两点,(x1,y1) 和 (x2,y2);斜率等于 (y2 - y1)/(x2 - x1)。

Y 轴截距 (b):

通常记为 b,直线的 y 轴的截距为直线通过 y 轴时与 y 轴交点的数值。

直线的公式为 y = mx b。如果知道了 m 和 b 的值,将 y 或 x 的值代入公式就可计算出直线上的任意一点。还可以使用 TREND 函数。

斜率:

=INDEX(LINEST(known_y's,known_x's),1)

Y 轴截距:

=INDEX(LINEST(known_y's,known_x's),2)

其中,x 和 y 是样本平均值;即,x = AVERAGE(known x's),y = AVERAGE(known_y's)。

  1. LINEST 会返回值 0。LINEST 函数的算法用来返回共线数据的合理结果,在这种情况下至少可找到一个答案。
  2. SLOPE 和 INTERCEPT 会返回错误 #DIV/0!。SLOPE 和 INTERCEPT 函数的算法只用来查找一个答案,在这种情况下可能有多个答案。

=LINEST(yvalues, xvalues^COLUMN($A:$C))

将在您使用 y 值的单个列和 x 值的单个列计算下面的方程式的近似立方(多项式次数 3)值时运行:

y = m1*x m2*x^2 m3*x^3 b

可以调整此公式以计算其他类型的回归,但是在某些情况下,需要调整输出值和其他统计值。

例1:斜率和 Y 轴截距

(提示:示例中的公式必须以数组公式的形式输入。将本示例复制到空白工作表后,选择以公式单元格开始的区域 A7:B7。按 F2,然后按 Ctrl Shift Enter。如果公式不是以数组公式输入,则返回单个结果值 2。)

当以数组输入时,将返回斜率 2 和 y 轴截距 1。

例2:简单线性回归

通常,SUM({m,b}*{x,1}) 等于 mx b,即给定 x 值的 y 的估计值。还可以使用 TREND 函数。

例3:多重线性回归

假设有开发商正在考虑购买商业区里的一组小型办公楼。

开发商可以根据下列变量,采用多重线性回归的方法来估算给定地区内的办公楼的价值。

变量

代表

y

办公楼的评估值

x1

底层面积(平方英尺)

x2

办公室的个数

x3

入口个数

x4

办公楼的使用年数

本示例假设在自变量(x1、x2、x3 和 x4)和因变量 (y) 之间存在线性关系。其中 y 是办公楼的价值。

开发商从 1,500 个可选的办公楼里随机选择了 11 个办公楼作为样本,得到下列数据。“半个入口”指的是运输专用入口。

提示:示例中的公式必须以数组公式的形式输入。在将公式复制到一张空白工作表后,选择以公式单元格开始的区域 A14:E18。按 F2,然后按 Ctrl Shift Enter。如果公式不是以数组公式输入,则返回单个结果值 -234.2371645。

当作为数组输入时,将返回下面的回归统计值,用该值可识别所需的统计值。

将第 14 行的值代入多重回归公式 y = m1*x1 m2*x2 m3*x3 m4*x4 b 可得到:

y = 27.64*x1 12,530*x2 2,553*x3 - 234.24*x4 52,318

现在,开发商用下面公式可得到办公楼的评估价值,其中面积为 2,500 平方英尺、3 个办公室、2 个入口,已使用 25 年:

y = 27.64*2500 12530*3 2553*2 - 234.24*25 52318 = ¥158,261

或者,可将下表复制到为本示例创建的工作表的单元格 A21。

底层面积(x1)

办公室的个数(x2)

入口个数(x3)

办公楼的使用年数(x4)

办公楼的评估值 (y)

2500

3

2

25

=D14*A22 C14*B22 B14*C22 A14*D22 E14

也可以用 TREND 函数计算此值。

例4:使用 F 和 r2 统计值

在上例中,判定系数 r2 为 0.99675(函数 LINEST 的输出单元格 A17 中的值),表明自变量与销售价格之间存在很强的相关性。可以通过 F 统计值来确定具有如此高的 r2 值的结果偶然发生的可能性。

假设事实上在变量间不存在相关性,但选用 11 个办公楼作为小样本进行统计分析却导致很强的相关性。术语“Alpha”表示得出这样的相关性结论错误的概率。

LINEST 函数输出中的 F 和 df 值可被用于评估偶然出现较高 F 值的可能性。F 可与发布的 F 分布表中的值进行比较,或者 Excel 中的 FDIST 函数可被用于计算偶然出现较高 F 值的概率。适当的 F 分布具有 v1 和 v2 自由度。如果 n 是数据点的个数且 const = TRUE 或被省略,那么 v1 = n – df – 1 且 v2 = df。(如果 const = FALSE,那么 v1 = n – df 且 v2 = df。)语法为 FDIST(F,v1,v2) 的 FDIST 函数将返回偶然出现较高 F 值的概率。在本例中,df = 6(单元格 B18)且 F = 459.753674(单元格 A18)。

假设 Alpha 值为 0.05,v1 = 11 – 6 – 1 = 4 且 v2 = 6,那么 F 的临界值为 4.53。由于 F = 459.753674 远大于 4.53,所以偶然出现高 F 值的可能性非常低。(因为,在 Alpha = 0.05 的情况下,当 F 超过临界值 4.53 时,known_y’s 和 known_x’s 之间没有关系这一假设不成立。)使用 Excel 中的 FDIST 函数可获得偶然出现高 F 值的概率。例如,FDIST(459.753674, 4, 6) = 1.37E-7,是一个极小的概率。于是可以断定,无论通过在表中查找 F 的临界值,还是使用 FDIST 函数,回归公式都可用于预测该区域中的办公楼的评估价值。请注意,使用在上一段中计算出的 v1 和 v2 的正确值是非常关键的。

例5:计算 t 统计值

另一个假设测试可以判定每个斜率系数是否可以用来估算示例 3 中的办公楼的评估价值。例如,如果要测试办公楼的使用年数系数的统计显著性水平,用 13.268(单元格 A15 中办公楼的使用年数系数的估算标准误差)去除 -234.24(办公楼的使用年数斜率系数)。以下是 t 观察值:

t = m4 ÷ se4 = -234.24 ÷ 13.268 = -17.7

如果 t 的绝对值足够大,那么可以断定斜率系数可用来估算示例 3 中的办公楼的评估价值。下表显示了 4 个 t 观察值的绝对值。

如果查阅统计手册里的表,将会发现:双尾、自由度为 6、Alpha = 0.05 的 t 临界值为 2.447。该临界值还可使用 Excel 中的 TINV 函数计算,TINV(0.05,6) = 2.447。既然 t 的绝对值为 17.7,大于 2.447,则办公楼的使用年数对于估算办公楼的评估价值来说是一个重要变量。用同样方法,可以测试其他每个自变量的统计显著性水平。以下是每个自变量的 t 观察值。

变量

t观察值

底层面积

5.1

办公室的个数

31.3

入口个数

4.8

使用年数

17.7

这些值的绝对值都大于 2.447;因此,回归公式的所有变量都可用来估算区域内的办公楼的评估价值。

更多精彩内容将在以后的章节分享给朋友们,请添加好友至收藏,欢迎点赞并关注后期内容更新!

,
展开阅读全文
推荐内容
热门内容
热门文章

© 2007-2022 http://www.anhuiqq.cn,All Rights Reserved.