- Nhận đường liên kết
- X
- Ứng dụng khác
- Nhận đường liên kết
- X
- Ứng dụng khác
Hồi quy tuyến tính là một trong những kĩ thuật cơ bản nhất của Supervised Learning. Trong bài toán hồi quy, chúng ta thường có một "biến phụ thuộc" và các "biến độc lập" ("biến dự đoán"), và xây dựng phương trình để tìm sự phụ thuộc của "biến phụ thuộc" với các "biến độc lập". Một ví dụ là cân nặng của đứa bé mới sinh phụ thuộc nhiều vào cân nặng, độ tuổi, sức khỏe, nơi sinh sống,... của người mẹ. Vậy ta có thể xét bài toán hồi quy tuyến tính với biến phụ thuộc là cân nặng của em bé, và các thông tin của người mẹ là biến độc lập.
Trong bài này, chúng ta chỉ xét bài toán hồi quy tuyến tính đơn, tức là chỉ có một biến độc lập. Kí hiệu biến phụ thuộc là $Y$ (cân nặng của em bé) và biến độc lập là $X$ (cân nặng của người mẹ). Chúng ta đi tìm một mối quan hệ tuyến tính
$$Y \approx \beta X + \alpha, $$
với $\alpha$ và $\beta$ là các số thực. Vì ngoài $X$, $Y$ có thể bị ảnh hưởng bởi rất nhiều các biến khác và các sai số, ta cũng có thể viết
$$Y = \beta X + \alpha + \epsilon, $$
với $\epsilon$ là sai số. Trong thực tế, chúng ta có bộ dữ liệu $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ và mong muốn tìm $\alpha, \beta$ để
$$y_i \approx \beta x_i + \alpha, \quad \forall \, i = 1,...,n. $$
Ta thực hiện điều này bằng cách minimize tổng bình phương các sai số của các phép xấp xỉ trên (phương pháp OLS (Ordinary Least Square)):
$$\hat{\alpha}, \hat{\beta} = \text{argmin} L(\alpha, \beta) = \sum_{i=1}^{n} (y_i - \beta x_i - \alpha)^2. $$
Sử dụng đạo hàm để tìm minimize, ta có nghiệm duy nhất khi $\hat{var}(x) \neq 0$
$$\hat{\beta} = \dfrac{\hat{cov}(x,y)}{\hat{var}(x)}, \hat{\alpha} = \bar{y} - \hat{\beta} \bar{x}. $$
với
$$\bar{x} = \dfrac{\sum_{i=1}^{n} x_i}{n}, \bar{y} = \dfrac{\sum_{i=1}^{n} y_i}{n},$$ $$\hat{cov}(x,y) = \dfrac{1}{n} \sum_{i=1}^{n} x_i y_i - \bar{x} \bar{y}, \hat{var}(x) = \dfrac{1}{n} \sum_{i=1}^{n} x_i^2 - \bar{x}^2.$$
Một số nhận xét:
(1) đường thẳng hồi quy $y = \hat{\beta} x + \hat{\alpha}$ đi qua trung bình của bộ dữ liệu $(\bar{x}, \bar{y})$.
(2) Hệ số tương quan thực nghiệm (Pearson correlation coefficient) tỉ lệ thuận với $\hat{\beta}$
$$\hat{\rho} = \dfrac{\hat{cov}(x,y)}{\hat{SD}(y) \hat{SD}(x)} = \hat{\beta} \dfrac{\hat{SD}(x)}{\hat{SD}(y)},$$
và chúng cùng dấu. Điều này hợp lí vì nếu $x$ và $y$ tương quan dương thì ta cũng mong muốn hệ số hồi quy $\hat{\beta} > 0$.
**[Ví dụ trong R]
Chúng ta sẽ thấy nhiều hơn về tính chất của hồi quy tuyến tính trong bài Hồi quy tuyến tính đa biến.
Trong bài này, chúng ta chỉ xét bài toán hồi quy tuyến tính đơn, tức là chỉ có một biến độc lập. Kí hiệu biến phụ thuộc là $Y$ (cân nặng của em bé) và biến độc lập là $X$ (cân nặng của người mẹ). Chúng ta đi tìm một mối quan hệ tuyến tính
$$Y \approx \beta X + \alpha, $$
với $\alpha$ và $\beta$ là các số thực. Vì ngoài $X$, $Y$ có thể bị ảnh hưởng bởi rất nhiều các biến khác và các sai số, ta cũng có thể viết
$$Y = \beta X + \alpha + \epsilon, $$
với $\epsilon$ là sai số. Trong thực tế, chúng ta có bộ dữ liệu $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ và mong muốn tìm $\alpha, \beta$ để
$$y_i \approx \beta x_i + \alpha, \quad \forall \, i = 1,...,n. $$
Ta thực hiện điều này bằng cách minimize tổng bình phương các sai số của các phép xấp xỉ trên (phương pháp OLS (Ordinary Least Square)):
$$\hat{\alpha}, \hat{\beta} = \text{argmin} L(\alpha, \beta) = \sum_{i=1}^{n} (y_i - \beta x_i - \alpha)^2. $$
Sử dụng đạo hàm để tìm minimize, ta có nghiệm duy nhất khi $\hat{var}(x) \neq 0$
$$\hat{\beta} = \dfrac{\hat{cov}(x,y)}{\hat{var}(x)}, \hat{\alpha} = \bar{y} - \hat{\beta} \bar{x}. $$
với
$$\bar{x} = \dfrac{\sum_{i=1}^{n} x_i}{n}, \bar{y} = \dfrac{\sum_{i=1}^{n} y_i}{n},$$ $$\hat{cov}(x,y) = \dfrac{1}{n} \sum_{i=1}^{n} x_i y_i - \bar{x} \bar{y}, \hat{var}(x) = \dfrac{1}{n} \sum_{i=1}^{n} x_i^2 - \bar{x}^2.$$
Một số nhận xét:
(1) đường thẳng hồi quy $y = \hat{\beta} x + \hat{\alpha}$ đi qua trung bình của bộ dữ liệu $(\bar{x}, \bar{y})$.
(2) Hệ số tương quan thực nghiệm (Pearson correlation coefficient) tỉ lệ thuận với $\hat{\beta}$
$$\hat{\rho} = \dfrac{\hat{cov}(x,y)}{\hat{SD}(y) \hat{SD}(x)} = \hat{\beta} \dfrac{\hat{SD}(x)}{\hat{SD}(y)},$$
và chúng cùng dấu. Điều này hợp lí vì nếu $x$ và $y$ tương quan dương thì ta cũng mong muốn hệ số hồi quy $\hat{\beta} > 0$.
**[Ví dụ trong R]
Chúng ta sẽ thấy nhiều hơn về tính chất của hồi quy tuyến tính trong bài Hồi quy tuyến tính đa biến.
Nhận xét
Đăng nhận xét