Cách Kiểm Định Tự Tương Quan Trong Stata Mới Nhất

Trang chủ » Tài liệu SPSS » Cách Kiểm Định Tự Tương Quan Trong STATA Mới Nhất

Nguyễn Phương Nam

Tự tương quan là hiện tượng thường hay xảy ra trong hồi quy tuyến tính, trong dữ liệu theo thời gian (time series) hoặc dữ liệu bảng (panel data). Vậy kiểm định tự tương quan trong Stata là gì? Nguyên nhân, cách khắc phục cũng như ý nghĩa của hiện tượng như thế nào? Hãy cùng Best4team tham khảo ngay chi tiết nhất ở bài viết bên dưới nhé!

1. Kiểm định tự tương quan là gì?

Kiểm định tự tương quan trong kinh tế lượng hay còn gọi là Autocorrelation là hiện tượng mà tại đó hạng nhiễu tại thời điểm t (hay còn gọi là sai số) thường được kí hiệu là ut có sự tương quan với hạng nhiễu tại thời điểm (t-1) hoặc bất kỳ hạng nhiều nào trong quá khứ. Thường xảy ra trong bộ dữ liệu bảng (panel data) và trong bộ dữ liệu chuỗi thời gian (time-series).
Đối với dữ liệu theo thời gian, hiện tượng này được tên trong tiếng Anh là “Autocorrelation”. Hiện tượng tự tương quan bậc 1 (sai số kỳ t có tương quan với sai số kỳ t – 1) dưới dạng công thức như sau: ut = ρut-1+ t

Đối với dữ liệu bảng, hiện tượng này được tên trong tiếng Anh “serial correlation” và tự tương quan bậc 1 được diễn tả dưới dạng công thức như sau: uit = ρuit-1+ it

Lưu ý: Đây là mối quan hệ trong sai số giữa các khoảng thời gian khác nhau, nhưng sẽ cùng một biến quan sát.
Nếu có hiện tượng tự tương quan thì hệ số tương quan ρ sẽ khác 0, ngược lại nếu ρ = 0 thì như vậy sẽ không có hiện tượng tự tương quan xảy ra..

2. Cách phát hiện tự tương quan trong Stata

2.1. Phương pháp vẽ đồ thị

Để đánh giá các kết quả của hồi quy thì cách tốt nhất là chúng ta nên luôn luôn phải vẽ đồ thị phần dư từ mô hình đó. Vì hiện tượng tự tương quan là sự tương quan giữa các hạng nhiễu ut nên một phương pháp đơn giản tình thế để kiểm định tự tương quan đơn giản là vẽ các giá trị của ut theo thời gian.
Không may, chúng ta không thể quan sát các ut một cách trực tiếp mà chỉ quan sát được đại diện của chúng là et hay còn gọi là phần dư.

predict s1, resid

gen s1_100=100*s1

label var s1_100 “Residuals”

predict s2, rstandard

twoway (line s1_100 time) (line s2 time)

Dạng đồ thị phần dư và cách phát hiện tự tương quan

Tự tương quan dương:

Tự tương quan âm:

Không có tự tương quan:

2.2. Kiểm định tự tương quan với dữ liệu chuỗi thời gian

– Các bạn nhớ khai báo dữ liệu chuỗi thời gian bằng câu lệnh: tset timevar (trong đó timevar là biến thời gian của mô hình) của Stata.

– Lưu ý rằng sau khi hồi quy mô hình thì chúng ta mới dùng 3 cách dưới để kiểm định tự tương quan.

– Giả thuyết H0:

H0 : Mô hình không xảy ra hiện tượng tự tương quan
H1: Mô hình xảy ra hiện tượng tự tương quan

– Cách 1: Kiểm định bằng phương pháp Durbin-Watson

Durbin-Watson luôn tạo ra dải số thử nghiệm từ 0 đến 4. Các giá trị gần 0 cho biết mức độ tương quan dương lớn hơn, các giá trị gần 4 cho biết mức độ tự tương quan âm lớn hơn, trong khi các giá trị gần giữa hơn cho thấy mức độ tự tương quan ít hơn.
Dùng lệnh: dwstat

Lệnh dwstat

– Cách 2: Sử dụng Durbin’s alternative để hiện mức ý nghĩa cho cách 1

Kiểm định Durbin-Watson có thể được ánh xạ tuyến tính theo mối tương quan Pearson giữa các giá trị và độ trễ của chúng.
Dùng lệnh: estat durbinalt

– Cách 3: Sử dụng kiểm định Breusch-Godfrey

Lưu ý: Tự tương quan của các bậc cao hơn và có thể áp dụng cho dù các bộ hồi quy có bao gồm độ trễ của biến phụ thuộc hay không còn được gọi là thử nghiệm Breusch-Godfrey.
Lệnh: bgodfrey

Kết quả từ cách 2 và cách 1 đều cho p-value < 0.05 nên ta bác bỏ H0 và kết luận mô hình xảy ra hiện tượng tự tương quan.

2.3. Kiểm định tự tương quan với dữ liệu bảng

Chúng ta sử dụng dữ liệu bảng và cài đặt dữ liệu cho Stata hiểu bằng câu lệnh: xtset bank YEAR
Sau khi hồi quy mô hình dùng lệnh: xtserial [BPT] + [BĐL] như hình bên dưới:

Kết quả với bộ dữ liệu này thì p-value = 0.0849 > 0.05 nên chấp nhận H0 và kết luận mô hình không xảy ra hiện tượng tự tương quan.

Bước đầu tiên để chạy kiểm định tự tương quan đó là bước làm quen với phần mềm Stata. Sau đây, Best4team sẽ hướng dẫn các bạn chi tiết, toàn tập về khái niệm, ứng dụng và cách chạy Stata mới nhất dành cho người mới bắt đầu ở bài viết này. Hãy tham khảo ngay!

3. Cách khắc phục hiện tượng tự tương quan trong Stata

3.1. Cách 1: Biến đổi theo sai phân bậc nhất

Với cách này các bạn sẽ đưa toàn bộ dữ liệu về dạng sai phân bậc 1 tức là lấy hiệu số giữa hai kỳ quan sát thứ t và t-1 cho mỗi biến trong mô hình.
Trong Stata bạn không cần làm phức tạp chỉ cần dùng lệnh D. ở phía trước các biến như sau: reg D.Y D.X1 D.X2 D.X3

3.2. Cách 2: Biến đổi theo hệ số tương quan ước lượng

Các giá trị ước lượng p của các tham số thu được vì thế được biết với tên gọi là các ước lượng bình phương bé nhất tổng quát khả thi viết tắt là FGLS (Feasible Generalized Least Squares estimators).Trong phần mềm Stata đối với dữ liệu bảng ta có lệnh sau để khắc phục hiện tượng tự tương quan:

xtgls [BPT][BĐL],corr(ar1)

Với giả định ut theo cơ chế AR(1) là phù hợp, hồi quy et theo et-1, sử dụng etlàm biến đại diện cho ut, một giả định có thể phù hợp trong các mẫu lớn, bởi vì trong các mẫu lớn 𝜌̂ là ước lượng nhất quán của giá trị ước lượng p.

3.3. Cách 3: Dùng phương pháp Newey-West để điều chỉnh các số chuẩn của OLS

Nhưng nếu cỡ mẫu lớn, thì bạn có thể ước lượng hồi quy OLS theo cách thông thường, nhưng điều chỉnh các sai số chuẩn của các hệ số hồi quy, theo một phương pháp được đề xuất bởi Newey và West.
Các sai số chuẩn được điều chỉnh theo thủ tục của họ cũng được biết với tên gọi các sai số chuẩn HAC (heteroskedasticity and autocorrelation consistent). Nói chung, nếu có tự tương quan, các sai số theo phương pháp HAC được tìm thấy lớn hơn các sai số chuẩn theo phương pháp OLS thông thường.
Thực hiện bằng 1 trong 2 cách sau trong phần mềm Stata:

reg Y X1 X2 X3, vce(robust) hoặc ewey Y X1 X2 X3 , lag(n)

Lưu ý: Khi dùng lệnh newey phải thêm giá trị biến trễ thấp nhất là 1 để thay đổi bậc tương quan.

3.4. Cách 4: Đưa biến trễ vào biến phụ thuộc trong mô hình

– Có thể thêm biến trễ cho biến phụ thuộc trong trường hợp biến này bị tương quan giữa hai giai đoạn t và t -1 với lệnh như sau:

reg Y L.Y X1 X2 X3 (Nếu chỉ muốn biến phụ thuộc với độ trễ 1)
reg Y L(1/2).Y X1 X2 X3 (Nếu muốn biến phụ thuộc với độ trễ 1 và 2)

– Sau khi thêm biến trễ vào biến phụ thuộc các bạn nhớ dùng kiểm định kiểm tra lại nhé!

Stata là phần mềm phổ biến nhất thường được nhiều bạn sinh viên ứng dụng vào chạy mô hình hồi quy cho luận văn, báo cáo khoa học của mình. Sau đây, Best4team sẽ chia sẻ khái niệm, ý nghĩa và hướng dẫn các bạn cách chạy mô hình hồi quy trong Stata chi tiết, toàn tập, đầy đủ nhất ở bài viết này. Hãy tham khảo ngay!

4. Phân biệt tự tương quan và tương quan chuỗi

Trên thực tế hiện nay nhiều người thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa, vẫn có một số người vẫn muốn phân biệt hai từ này. Cho dù sự khác biệt giữa hai từ này có thể là hữu ích, trong bài này chúng ta sẽ coi chúng như là đồng nghĩa.
Mặc dù việc xảy ra tự tương quan là hiện tường thường xuất hiện với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là tương quan theo không gian chứ không phải là theo thời gian.
Tuy nhiên, vấn đề quan trọng là cần nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo logic, hoặc lợi ích kinh tế nào đó, để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.

5. Nguyên nhân của tự tương quan

Có rất nhiều nguyên nhân dẫn đến hiện tượng tự tương quan đó là:

Nguyên nhân là do quán tính: Sự nổi trội của hầu hết các chuỗi thời gian trong kinh tế là quán tính mang tính chất chu kỳ.
Hiện tượng của mạng nhện
Các mức độ trễ: Trong khi phân tích chuỗi thời gian, chúng ta có thể gặp các hiện tượng biến phụ thuộc ở thời kỳ t phụ thuộc vào chính biến đó ở thời kỳ t -1 và các biến khác.
Quá trình xử lý số liệu: Trong phân tích thực nghiệm, số liệu thô thường được xử lý sẵn. Chẳng hạn trong hồi quy chuỗi thời gian gắn với các số liệu quý, các số liệu này thường được suy ra từ các số liệu tháng bằng cách cộng 3 biến quan sát rồi chia cho 3. Việc lấy trung bình này làm trơn tru các số liệu và làm giảm sự dao động của số liệu tháng. Chính vì sự làm trơn này có thể dẫn đến sai số có hệ thống trong các sai số ngẫu nhiên và gây ra sự tương quan
Sai số khi lập mô hình: Đây là nguyên nhân chính khi lập mô hình.

6. Ý nghĩa của hiện tượng tự tương quan

Tự tương quan, là một khái niệm thống kê, còn được gọi là tương quan nối tiếp. Nó thường được sử dụng với mô hình trung bình di chuyển tự động hồi phục (ARMA) và mô hình trung bình động tích hợp tự động hồi phục (ARIMA). Phân tích tự tương quan giúp tìm ra các mẫu chu kỳ lặp lại, có thể được sử dụng như một công cụ phân tích kỹ thuật trên thị trường vốn .
Tự tương quan biểu thị mức độ giống nhau giữa một chuỗi thời gian nhất định và một phiên bản trễ của chính nó trong các khoảng thời gian liên tiếp.
Tự tương quan đo lường mối quan hệ giữa giá trị hiện tại của một biến và các giá trị trong quá khứ của nó.
Tự tương quan +1 thể hiện mối tương quan dương hoàn hảo, trong khi tự tương quan âm 1 thể hiện mối tương quan âm hoàn hảo.
Các nhà phân tích kỹ thuật có thể sử dụng tự tương quan để đo lường mức độ ảnh hưởng của giá trong quá khứ đối với chứng khoán lên giá tương lai của nó.

Trong quá trình xử lý số liệu SPSS các bạn còn gặp nhiều vướng mắc, khó khăn không thể trình bày như chưa có số liệu, chưa biết sử dụng SPSS, dữ liệu xử lý cho ra kết quả xấu, gặp nhiều lỗi khi thao tác….Đừng ngần ngại hãy liên hệ dịch vụ thuê chạy SPSS của Best4team cam kết xử lý số liệu nhanh nhất, chuẩn nhất, số liệu mới hoàn toàn, đạt kết quả cao nhất và đặc biệt bảo mật thông tin tuyệt đối cho khách hàng. Hãy liên hệ chúng tôi ngay!

7. Hậu quả của hiện tượng tự tương quan

Các ước lượng mô hình OLS vẫn không chệch và nhất quán theo phân phối chuẩn cho dù có hiện tượng này xảy ra.

Các ước lượng nói trên không còn hiệu quả nữa nghĩa là chúng không còn là ước lượng tuyến tính không sai lệch tốt nhất nửa (còn gọi là BLUE).
Các giá trị sai số chuẩn của mô hình OLS bị ước lượng thấp (underestimated), tức các giá trị t ước lượng bị thổi phồng cao hơn mức bình thường.
Các kiểm định giả thuyết trở nên đáng nghi vì các sai số ước lượng không còn đáng tin cậy. Do đó, kiểm định t và F có thể sẽ không còn hiệu lực.
Các trường hợp khác có thể dẫn đến mô hình bị hiện tượng hồi quy giả mạo (spurious regression)

Như vậy, bài viết trên đã tổng hợp các khái niệm, cách nhận biết, cách khắc phục hiện tượng cũng như nguyên nhân, hậu quả và ý nghĩa kiểm định tự tương quan trong Stata. Hy vọng sẽ giúp thêm kiến thức cho các ban. Chúc các bạn đạt kết quả cao khi xử lý số liệu!

5/5 (1 Review)

Nguyễn Phương Nam

Tôi là Nguyễn Phương Nam chức vụ phó phòng nội dung tại Best4Team. Công việc của tôi là nghiên cứu, sản xuất nội dung thông tin cho website Best4Team.com ở lĩnh vực tài liệu và chạy mô hình kinh tế lượng bằng các phần mềm Eview, Stata, Spss,...