Excel计算残差平方和（轻松办公-OfficeExcel函数精解（四十五）） - Q之家

轻松办公-OfficeExcel函数精解

（四十五）

1、KURT函数

函数功能

返回数据集的峰值。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。

语法

KURT(number1,number2,...)

参数说明：

Number1,number2, ... 是用于计算峰值的 1 到 255 个参数。也可以不使用这种用逗号分隔参数的形式，而用单个数组或对数组的引用。

注解：

参数可以是数字或者是包含数字的名称、数组或引用。
逻辑值和直接键入到参数列表中代表数字的文本被计算在内。
如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内。
如果参数为错误值或为不能转换为数字的文本，将会导致错误。
如果数据点少于 4 个，或样本标准偏差等于 0，函数 KURT 返回错误值 #DIV/0!。
峰值的计算公式如下：

S 为样本的标准偏差。

示例

2、LARGE函数

函数功能

返回数据集中第 k 个最大值。使用此函数可以根据相对标准来选择数值。例如，可以使用函数 LARGE 得到第一名、第二名或第三名的得分。

语法

LARGE(array,k)

参数说明：

Array 为需要从中选择第 k 个最大值的数组或数据区域。
K 为返回值在数组或数据单元格区域中的位置（从大到小排）。

注解：

如果数组为空，函数 LARGE 返回错误值 #NUM!。
如果 k ≤ 0 或 k 大于数据点的个数，函数 LARGE 返回错误值 #NUM!。
如果区域中数据点的个数为 n，则函数 LARGE(array,1) 返回最大值，函数 LARGE(array,n) 返回最小值。
示例

3、LINEST函数

函数功能

LINEST 函数可通过使用最小二乘法计算与现有数据最佳拟合的直线，来计算某直线的统计值，然后返回描述此直线的数组。也可以将 LINEST 与其他函数结合使用来计算未知参数中其他类型的线性模型的统计值，包括多项式、对数、指数和幂级数。因为此函数返回数值数组，所以必须以数组公式的形式输入。请按照本文中的示例使用此函数。

直线的公式为：

y = mx b

或

y = m1x1 m2x2 ... b（如果有多个区域的 x 值）

其中，因变量 y 是自变量 x 的函数值。m 值是与每个 x 值相对应的系数，b 为常量。注意，y、x 和 m 可以是向量。LINEST 函数返回的数组为 {mn,mn-1,...,m1,b}。LINEST 函数还可返回附加回归统计值。

语法

LINEST(known_y's, [known_x's], [const], [stats])

参数说明：

Known_y's 必需。关系表达式 y = mx b 中已知的 y 值集合。

如果 known_y's 对应的单元格区域在单独一列中，则 known_x's 的每一列被视为一个独立的变量。
如果 known_y's 对应的单元格区域在单独一行中，则 known_x's 的每一行被视为一个独立的变量。

Known_x's 可选。关系表达式 y = mx b 中已知的 x 值集合。

known_x's 对应的单元格区域可以包含一组或多组变量。如果仅使用一个变量，那么只要 known_y's 和 known_x's 具有相同的维数，则它们可以是任何形状的区域。如果使用多个变量，则 known_y's 必须为向量（即必须为一行或一列）。
如果省略 known_x's，则假设该数组为 {1,2,3,...}，其大小与 known_y's 相同。

const 可选。一个逻辑值，用于指定是否将常量 b 强制设为 0。

如果 const 为 TRUE 或被省略，b 将按通常方式计算。
如果 const 为 FALSE，b 将被设为 0，并同时调整 m 值使 y = mx。

stats 可选。一个逻辑值，用于指定是否返回附加回归统计值。

如果 stats 为 TRUE，则 LINEST 函数返回附加回归统计值，这时返回的数组为 {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}。
如果 stats 为 FALSE 或被省略，LINEST 函数只返回系数 m 和常量 b。

附加回归统计值如下：

统计值	说明
se1,se2,...,sen 系数	m1,m2,...,mn 的标准误差值。
seb	常量b 的标准误差值（当 const 为 FALSE 时，seb = #N/A）。
r2	判定系数。y 的估计值与实际值之比，范围在 0 到 1 之间。如果为 1，则样本有很好的相关性，y 的估计值与实际值之间没有差别。相反，如果判定系数为 0，则回归公式不能用来预测 y 值。有关如何计算 r2 的信息，请参阅本主题下文中的“说明”。
sey	Y 估计值的标准误差。
F	F 统计或 F 观察值。使用 F 统计可以判断因变量和自变量之间是否偶尔发生过可观察到的关系。
df	自由度。用于在统计表上查找 F 临界值。将从表中查得的值与 LINEST 函数返回的 F 统计值进行比较可确定模型的置信区间。有关如何计算 df 的信息，请参阅本主题下文中的“说明”。示例 4 说明了 F 和 df 的用法。
ssreg	回归平方和。
ssresid	残差平方和。有关如何计算 ssreg 和 ssresid 的信息，请参阅本主题下文中的“说明”。

下面的图示显示了附加回归统计值返回的顺序。

注解：

可以使用斜率和 y 轴截距描述任何直线：

斜率 (m)：

通常记为 m，如果需要计算斜率，则选取直线上的两点，(x1,y1) 和 (x2,y2)；斜率等于 (y2 - y1)/(x2 - x1)。

Y 轴截距 (b)：

通常记为 b，直线的 y 轴的截距为直线通过 y 轴时与 y 轴交点的数值。

直线的公式为 y = mx b。如果知道了 m 和 b 的值，将 y 或 x 的值代入公式就可计算出直线上的任意一点。还可以使用 TREND 函数。

当只有一个自变量 x 时，可直接利用下面公式得到斜率和 y 轴截距值：

斜率：

=INDEX(LINEST(known_y's,known_x's),1)

Y 轴截距：

=INDEX(LINEST(known_y's,known_x's),2)

数据的离散程度决定了 LINEST 函数计算的直线的精确度。数据越接近线性，LINEST 模型就越精确。LINEST 函数使用最小二乘法来判定数据的最佳拟合。当只有一个自变量 x 时，m 和 b 是根据下面的公式计算出的：

其中，x 和 y 是样本平均值；即，x = AVERAGE(known x's)，y = AVERAGE(known_y's)。

直线和曲线拟合函数 LINEST 和 LOGEST 可用来计算与给定数据拟合程度最高的直线或指数曲线，但需要判断两者中哪一个与数据拟合程度最高。可以用函数 TREND(known_y's,known_x's) 来计算直线，或用函数 GROWTH(known_y's, known_x's) 来计算指数曲线。这些不带 new_x's 参数的函数可在实际数据点上根据直线或曲线来返回 y 预测值的数组，然后可以将预测值与实际值进行比较。可能需要用图表方式来直观地比较二者。
回归分析时，Excel 会计算每一点的 y 的估计值和实际值的平方差。这些平方差之和称为残差平方和 (ssresid)。然后 Excel 会计算总平方和 (sstotal)。当参数 const = TRUE 或被省略时，总平方和是 y 的实际值和平均值的平方差之和。当参数 const = FALSE 时，总平方和是 y 的实际值的平方和（不需要从每个 y 值中减去平均值）。回归平方和 (ssreg) 可通过公式 ssreg = sstotal - ssresid 计算出来。残差平方和与总平方和的比值越小，判定系数 r2 的值就越大，r2 是用来判断从回归分析求得的公式是否足以说明变量之间关系的指示器。r2 = ssreg/sstotal。
在某些情况下，一个或多个 X 列可能没有出现在其他 X 列中的附加预测值（假设 Y's 和 X's 位于列中）。换句话说，删除一个或多个 X 列可能会得到同样精度的 y 预测值。在这种情况下，应从回归模型中省略这些多余的 X 列。这种现象被称为“共线”，因为任何多余的 X 列都可被表示为多个非多余 X 列的和。LINEST 函数会检查是否存在共线，并在识别出多余的 X 列之后从回归模型中删除所有这些列。由于包含 0 系数以及 0 se 数值，因此已删除的 X 列能在 LINEST 输出中被识别出来。如果一个或多个多余的列被删除，则将影响 df，原因是 df 取决于实际用于预测目的的 X 列的数量。有关计算 df 的详细信息，请参阅示例 4。如果由于删除多余的 X 列而更改了 df，则也会影响 sey 和 F 的值。实际上，出现共线的情况应该相对很少。但是，如果某些 X 列仅包含 0 和 1 数值作为实验中的对象是否属于特定组成员的指示器，则很可能引起共线。如果 const = TRUE 或被省略，则 LINEST 函数可有效地插入所有 1 数值的其他 X 列以便为截距建立模型。如果在一列中，1 对应于每个男性对象，0 对应于女性对象；而在另一列中，1 对应于每个女性对象，0 对应于男性对象，那么后一列就是多余的，因为其中的项可通过从所有 1 值的另一列（通过 LINEST 函数添加）中减去“男性指示器”列中的项来获得。
在没有 X 列因共线而被从模型中删除时，请用以下方法计算 df 的值：如果 known_x’s 有 k 列且 const = TRUE 或被省略，那么 df = n – k – 1。如果 const = FALSE，那么 df = n - k。在这两种情况下，每次由于共线而删除一个 X 列都会使 df 的值加 1。
对于返回结果为数组的公式，必须以数组公式的形式输入。
当输入一个数组常量（如 known_x's）作为参数时，请使用逗号分隔同一行中的各值，使用分号分隔各行。分隔符可能会因“控制面板”的“区域和语言选项”中区域设置的不同而有所不同。
注意，如果 y 的回归分析预测值超出了用来计算公式的 y 值的范围，它们可能是无效的。
LINEST 函数中使用的下层算法与 SLOPE 和 INTERCEPT 函数中使用的下层算法不同。当数据未定且共线时，这些算法之间的差异会导致不同的结果。例如，如果参数 known_y's 的数据点为 0，参数 known_x's 的数据点为 1：

LINEST 会返回值 0。LINEST 函数的算法用来返回共线数据的合理结果，在这种情况下至少可找到一个答案。
SLOPE 和 INTERCEPT 会返回错误 #DIV/0!。SLOPE 和 INTERCEPT 函数的算法只用来查找一个答案，在这种情况下可能有多个答案。

除了使用 LOGEST 计算其他回归分析类型的统计值外，还可以使用 LINEST 计算其他回归分析类型的范围，方法是将 x 和 y 变量的函数作为 LINEST 的 x 和 y 系列输入。例如，下面的公式：

=LINEST(yvalues, xvalues^COLUMN($A:$C))

将在您使用 y 值的单个列和 x 值的单个列计算下面的方程式的近似立方（多项式次数 3）值时运行：

y = m1*x m2*x^2 m3*x^3 b

可以调整此公式以计算其他类型的回归，但是在某些情况下，需要调整输出值和其他统计值。

示例

例1：斜率和 Y 轴截距

（提示：示例中的公式必须以数组公式的形式输入。将本示例复制到空白工作表后，选择以公式单元格开始的区域 A7:B7。按 F2，然后按 Ctrl Shift Enter。如果公式不是以数组公式输入，则返回单个结果值 2。）

当以数组输入时，将返回斜率 2 和 y 轴截距 1。

例2：简单线性回归

通常，SUM({m,b}*{x,1}) 等于 mx b，即给定 x 值的 y 的估计值。还可以使用 TREND 函数。

例3：多重线性回归

假设有开发商正在考虑购买商业区里的一组小型办公楼。

开发商可以根据下列变量，采用多重线性回归的方法来估算给定地区内的办公楼的价值。

变量	代表
y	办公楼的评估值
x1	底层面积（平方英尺）
x2	办公室的个数
x3	入口个数
x4	办公楼的使用年数

本示例假设在自变量（x1、x2、x3 和 x4）和因变量 (y) 之间存在线性关系。其中 y 是办公楼的价值。

开发商从 1,500 个可选的办公楼里随机选择了 11 个办公楼作为样本，得到下列数据。“半个入口”指的是运输专用入口。

（提示：示例中的公式必须以数组公式的形式输入。在将公式复制到一张空白工作表后，选择以公式单元格开始的区域 A14:E18。按 F2，然后按 Ctrl Shift Enter。如果公式不是以数组公式输入，则返回单个结果值 -234.2371645。）

当作为数组输入时，将返回下面的回归统计值，用该值可识别所需的统计值。

将第 14 行的值代入多重回归公式 y = m1*x1 m2*x2 m3*x3 m4*x4 b 可得到：

y = 27.64*x1 12,530*x2 2,553*x3 - 234.24*x4 52,318

现在，开发商用下面公式可得到办公楼的评估价值，其中面积为 2,500 平方英尺、3 个办公室、2 个入口，已使用 25 年：

y = 27.64*2500 12530*3 2553*2 - 234.24*25 52318 = ￥158,261

或者，可将下表复制到为本示例创建的工作表的单元格 A21。

底层面积(x1)	办公室的个数(x2)	入口个数(x3)	办公楼的使用年数(x4)	办公楼的评估值 (y)
2500	3	2	25	=D14A22 C14B22 B14C22 A14D22 E14

也可以用 TREND 函数计算此值。

例4：使用 F 和 r2 统计值

在上例中，判定系数 r2 为 0.99675（函数 LINEST 的输出单元格 A17 中的值），表明自变量与销售价格之间存在很强的相关性。可以通过 F 统计值来确定具有如此高的 r2 值的结果偶然发生的可能性。

假设事实上在变量间不存在相关性，但选用 11 个办公楼作为小样本进行统计分析却导致很强的相关性。术语“Alpha”表示得出这样的相关性结论错误的概率。

LINEST 函数输出中的 F 和 df 值可被用于评估偶然出现较高 F 值的可能性。F 可与发布的 F 分布表中的值进行比较，或者 Excel 中的 FDIST 函数可被用于计算偶然出现较高 F 值的概率。适当的 F 分布具有 v1 和 v2 自由度。如果 n 是数据点的个数且 const = TRUE 或被省略，那么 v1 = n – df – 1 且 v2 = df。（如果 const = FALSE，那么 v1 = n – df 且 v2 = df。）语法为 FDIST(F,v1,v2) 的 FDIST 函数将返回偶然出现较高 F 值的概率。在本例中，df = 6（单元格 B18）且 F = 459.753674（单元格 A18）。

假设 Alpha 值为 0.05，v1 = 11 – 6 – 1 = 4 且 v2 = 6，那么 F 的临界值为 4.53。由于 F = 459.753674 远大于 4.53，所以偶然出现高 F 值的可能性非常低。（因为，在 Alpha = 0.05 的情况下，当 F 超过临界值 4.53 时，known_y’s 和 known_x’s 之间没有关系这一假设不成立。）使用 Excel 中的 FDIST 函数可获得偶然出现高 F 值的概率。例如，FDIST(459.753674, 4, 6) = 1.37E-7，是一个极小的概率。于是可以断定，无论通过在表中查找 F 的临界值，还是使用 FDIST 函数，回归公式都可用于预测该区域中的办公楼的评估价值。请注意，使用在上一段中计算出的 v1 和 v2 的正确值是非常关键的。

例5：计算 t 统计值

另一个假设测试可以判定每个斜率系数是否可以用来估算示例 3 中的办公楼的评估价值。例如，如果要测试办公楼的使用年数系数的统计显著性水平，用 13.268（单元格 A15 中办公楼的使用年数系数的估算标准误差）去除 -234.24（办公楼的使用年数斜率系数）。以下是 t 观察值：

t = m4 ÷ se4 = -234.24 ÷ 13.268 = -17.7

如果 t 的绝对值足够大，那么可以断定斜率系数可用来估算示例 3 中的办公楼的评估价值。下表显示了 4 个 t 观察值的绝对值。

如果查阅统计手册里的表，将会发现：双尾、自由度为 6、Alpha = 0.05 的 t 临界值为 2.447。该临界值还可使用 Excel 中的 TINV 函数计算，TINV(0.05,6) = 2.447。既然 t 的绝对值为 17.7，大于 2.447，则办公楼的使用年数对于估算办公楼的评估价值来说是一个重要变量。用同样方法，可以测试其他每个自变量的统计显著性水平。以下是每个自变量的 t 观察值。

变量	t观察值
底层面积	5.1
办公室的个数	31.3
入口个数	4.8
使用年数	17.7

这些值的绝对值都大于 2.447；因此，回归公式的所有变量都可用来估算区域内的办公楼的评估价值。

更多精彩内容将在以后的章节分享给朋友们，请添加好友至收藏，欢迎点赞并关注后期内容更新！