Hồi quy tuyến tính đa biến

Trong bài Hồi quy tuyến tính đơn biến, chúng ta đã xét bài toán hồi quy với biến phụ thuộc và chỉ 1 biến độc lập. Trong bài này, chúng ta xét trường hợp có nhiều biến độc lập.

Kí hiệu $Y$ là biến phụ thuộc (cân nặng của em bé) và $X_1, X_2,\dots, X_p$ là các biến độc lập (cân nặng, chiều cao, độ tuổi của mẹ,...). Tương tự như trường hợp đơn, chúng ta muốn tìm một mối quan hệ tuyến tính
$$Y \sim \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p. $$
Vì phép xấp xỉ này tồn tại sai số $\epsilon$ nào đó, ta có thể viết
$$Y = \beta_0 + \beta_1 X_1 +\dots + \beta_p X_p + \epsilon.$$
Trong thực tế, chúng ta có bộ số liệu gồm $n$ quan sát $(Y_1, X_{11}, X_{12}, \dots, X_{1p})$, $(Y_2, X_{21}, X_{22}, \dots, X_{2p})$, $(Y_n, X_{n1}, X_{n2}, \dots, X_{np})$ (trong thống kê, ta luôn kí hiệu $n$ là số lượng mẫu, $p$ là số biến độc lập). Ta muốn tìm $\beta_0,\dots, \beta_p$ để phép xấp xỉ
$$Y_{i} \approx \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_p X_{ip}, $$
là tốt với mọi $i$. Tương tự như trường hợp đơn, ta cũng xét bình phương sai số và tìm $\beta$ để minimize nó
$$ \sum_{i=1}^{n} (Y_{i} - \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_p X_{ip})^2 = \|Y - \textbf{X}\beta\|^2, $$
với $Y$ là vector cột $(Y_1, Y_2, \dots, Y_n)$, $\textbf{X}$ (ma trận thiết kế) là ma trận cỡ $n \times (p+1)$ với cột đầu tiên là cột toàn 1 (ứng với hệ số tự do $\beta_0$), $p$ cột tiếp theo là các biến độc lập và $n$ hàng là các quan sát, $\beta = [\beta_0,\beta_1,\dots, \beta_p]$ là các hệ số cần ước lượng.

Giờ có 2 trường hợp có thể xảy ra: Nếu $p+1 \geq n$ (số chiều của dữ liệu lớn hơn số quan sát), thì có vô số $\beta$ làm minimize bình phương sai số trên. Bài toán này thường gặp khi làm thống kê với dữ liệu y tế, khi số lượng ADN rất lớn và số lượng bệnh nhân nhỏ, và ta muốn tìm các ADN có liên quan đến bệnh. Với trường hợp thống kê nhiều chiều này, người ta thường thêm một số số hạng vào hàm bình phương sai số để kiểm soát số chiều (Lasso, Ridge). Chúng ta có thể xem thêm ở bài.

Nếu $p\leq n$ (số quan sát nhiều hơn hoặc bằng số chiều), ta thấy $X\hat{\beta}$ làm cực tiểu hàm trên chính là hình chiếu của $Y$ lên không gian vector con sinh bởi các cột của $X$, vậy nên

$$X\hat{\beta} = P_{X}Y = XX^{+}Y, $$

với $X^{+}$ là giả nghịch đảo của $X$ (Moore-Penrose pseudo inverse). Trong trường hợp ma trận $\textbf{X}$ khả nghịch thì tồn tại duy nhất $\hat{\beta}$ làm hàm bình phương sai số trên đạt cực tiểu và được xác định bởi

$$\hat{\beta} = (\textbf{X}'\textbf{X})^{-1}\textbf{X} Y.$$

Phần lớn các bài toán thực tế đều có $n > p$ và ma trận thiết kế $X$ khả nghịch. Ta cũng không cần phải nhớ các công thức trên để áp dụng. Các phần mềm thống kê đều có lệnh để input vào dữ liệu và output cho ngay $\beta$. Với giả sử phân bố của $\epsilon$ là chuẩn, ta còn có thể suy luận về các vai trò của các $\beta_i$ (ảnh hưởng của $X_i$ đến $Y$) và làm các kiểm định giả thiết.

Blog xác suất - thống kê

Tìm kiếm Blog này

Phản ví dụ của một số sự kéo theo hội tụ trong xác suất

Hồi quy tuyến tính đa biến

Nhận xét

Đăng nhận xét