Линейная регрессия#
Введение#
В разделе Метод наименьших квадратов рассмотрена задача линейной регрессии с точки зрения алгебры и оптимизации. Рассмотрим ту же задачу со статистической точки зрения. [KRS22] [T16]
Напомним уравнение линейной регрессии (см. [KRS22], с. 239):
Оно выражает линейную зависимость между двумя величинами: \(x\) и \(y\), которые заданы \(n\) наблюдениями \((x_i, y_i)\), \(i = 1, \ldots, n\). Числа \(\alpha, \beta\) - это постоянные, а \(e_i\) - это случайная составляющая с нулевым средним и постоянным среднеквадратичным разбросом (дисперсией). Коэффициент \(\beta\) носит название интерсепт, \(\alpha\) - коэффициент наклона. Геометрически уравнение линейной регрессии изображается прямой линией, аппроксимирующей точки \((x_i, y_i)\).
Оценка регрессионных коэффициентов \(\alpha, \beta\) производится с помощью метода наименьших квадратов. Находим оценки \(a, b\) чисел \(\alpha, \beta\), при которых минимальна сумма квадратов отклонений: (sum-of-squares error)
Если потребовать, чтобы линия проходила через центр \((\overline{x}, \overline{y})\), то
отсюда
Подставляя данное выражение в формулу для SSE, придем к формуле
Если теперь разделить полученное равенство на \((n-1)\), то получим
Здесь \(S_{xy}\) - выборочная ковариация, \(S_x, S_y\) - выборочные дисперсии,
Теперь нужно выбрать коэффициент \(b\) так, чтобы минимизировать данную величину.
Можно показать (см. [KRS22], с. 240), что
Здесь \(R_{xy}\) - выборочный коэффициент корреляции:
Поэтому оптимальным значением \(b\) будет то, при котором второе слагаемое обратится в ноль:
Средний квадрат ошибки \(\mathrm{SSE}/(n-1)\) при оптимальных регрессионных коэффициентах равен
Величина
носит название коэффициента детерминации. Это число выражает, какую долю дисперсии величины \(y\) “объясняет” линейная регрессия.
Также вводят скорректированный коэффициент детерминации: