Hiện tượng đa cộng tuyến trong SPSS là một hiện tượng mà người thực hiện phân tích thống kê dễ dàng gặp phải. Làm sao để giải quyết tình huống này? Bài viết này sẽ chia sẻ với bạn đọc định nghĩa, nguyên nhân, hậu quả và biện pháp để xử lý hiện tượng này một cách hiệu quả.
1. Đa cộng tuyến là gì?
Đa cộng tuyến hay Multicollinearity là một hiện tượng trong mô hình hồi quy phụ thuộc khi các biến độc lập tuyến tính lẫn nhau và được thể hiện dưới dạng hàm số.
Nói cách khác, khi biến độc lập có mối quan hệ tương quan mạnh với nhau trong mô hình hồi quy tuyến tính thì sẽ xảy ra hiện tượng đa cộng tuyến.
2. Hiện tượng đa cộng tuyến trong SPSS là gì?
Hiện tượng đa cộng tuyến trong SPSS xảy ra khi hai hoặc nhiều biến dự đoán có mối tương quan cao với nhau, do đó chúng không cung cấp thông tin duy nhất hoặc độc lập trong mô hình hồi quy.
– Đa cộng tuyến trong SPSS có thể dẫn đến những thay đổi lớn dựa trên các biến độc lập trong một mô hình và làm giảm độ mạnh của các hệ số được sử dụng trong một mô hình. Mối quan hệ giữa các biến trở nên khó diễn giải khi sử dụng mô hình và có thể khiến kết quả của nó trở nên vô giá trị.
– Ví dụ: Giả sử bạn chạy phân tích hồi quy bằng cách sử dụng bước nhảy dọc tối đa của biến phản hồi và các biến dự báo sau:
- Chiều cao
- Cỡ giày
- Giờ dành cho việc luyện tập mỗi ngày
Trong trường hợp này, chiều cao và cỡ giày có thể có mối tương quan chặt chẽ với nhau vì những người cao hơn có xu hướng đi cỡ giày lớn hơn. Điều này có nghĩa là đa cộng tuyến có thể là một vấn đề trong hồi quy này.
3. Nguyên nhân xảy ra hiện tượng đa cộng tuyến trong SPSS
– 8 nguyên nhân phổ biến gây ra hiện tượng đa cộng tuyến trong SPSS bao gồm:
- Các loại biến khác nhau được sử dụng không chính xác.
- Lựa chọn những câu hỏi kém hoặc giả thuyết đưa ra là vô hiệu.
- Lựa chọn biến là biến phụ thuộc.
- Biến bị lặp lại trong mô hình hồi quy tuyến tính.
- Giữa các biến có mối tương quan cao – một biến có thể được phát triển thông qua một biến khác được sử dụng trong hồi quy.
- Dữ liệu không đầy đủ.
- Sử dụng các biến giả không chính xác.
- Biến trong mô hình hồi quy thực chất lại là sự kết hợp của hai hay nhiều biến khác.
- Dữ liệu của một số biến trong tập dữ liệu bị thiếu hay còn được gọi là các giá trị missing value.
4. Cách phát hiện đa cộng tuyến trong SPSS
Để phát hiện ra hiện tượng đa cộng tuyến trong SPSS thì có 2 cách thường được sử dụng bao gồm: kiểm tra hệ số phóng đại phương sai VIF và kiểm định dựa vào hệ số tương quan.
4.1. Sử dụng hệ số phóng đại phương sai VIF
– Cách phổ biến nhất để phát hiện đa cộng tuyến trong SPSS là sử dụng hệ số lạm phát phương sai (VIF), đo lường mối tương quan và cường độ tương quan giữa các biến dự đoán trong mô hình hồi quy.
– Hầu hết các phần mềm thống kê đều có khả năng tính toán VIF cho mô hình hồi quy. Giá trị cho VIF bắt đầu từ 1 và không có giới hạn trên. Một nguyên tắc chung để diễn giải VIF như sau:
- Giá trị 1 cho biết không có mối tương quan giữa một biến dự đoán nhất định và bất kỳ biến dự báo nào khác trong mô hình.
- Giá trị từ 1 đến 5 biểu thị mối tương quan vừa phải giữa một biến dự đoán nhất định và các biến dự đoán khác trong mô hình, nhưng điều này thường không đủ nghiêm trọng để cần chú ý.
- Giá trị lớn hơn 5 biểu thị mối tương quan nghiêm trọng tiềm ẩn giữa một biến dự đoán nhất định và các biến dự đoán khác trong mô hình. Trong trường hợp này, các ước tính hệ số và giá trị p trong kết quả hồi quy có thể không đáng tin cậy.
– Ví dụ: Giả sử chúng ta chạy phân tích hồi quy bằng cách sử dụng các biến dự đoán height, shoe size, và hours spent practicing per day để dự đoán max vertical jump cho người chơi bóng rổ và nhận được kết quả sau:
Từ cột cuối cùng, chúng ta có thể thấy rằng các giá trị VIF cho height và shoe size đều lớn hơn 5. Điều này cho thấy chúng có khả năng bị đa cộng tuyến và ước tính hệ số cũng như giá trị p của chúng có thể không đáng tin cậy.
Nếu chúng ta xem xét ước tính hệ số cho shoe size, thì mô hình cho chúng ta biết rằng cứ tăng thêm một đơn vị shoe size, mức tăng trung bình của max vertical jump là -0,67498 inch, giả sử chiều cao và số giờ luyện tập không đổi.
Điều này dường như không có ý nghĩa gì, vì kết quả mong đợi những người chơi có shoe size lớn hơn sẽ cao hơn và do đó có max vertical jump cao hơn.
4.2. Sử dụng ma trận tương quan Pearson
– Khi quan sát kết quả phân tích tương quan Pearson tại ma trận tương quan, bạn có thể phát hiện ra hiện tượng đa cộng tuyến trong SPSS bằng cách quan sát giá trị sig giữa các biến độc lập.
– 2 bước để xác định hiện tượng đa cộng tuyến:
- Bước 1: Xác định các cặp biến độc lập có giá trị Sig<0.05.
- Bước 2: Quan sát hệ số tương quan Pearson: với hệ số tương quan >0.5 thì có thể xảy ra hiện tượng đa cộng tuyến.
5. Cách khắc phục hiện tượng đa cộng tuyến trong SPSS
5.1. Xác định đa cộng tuyến
Nếu bạn phát hiện thấy hiện tượng đa cộng tuyến, bước tiếp theo là quyết định xem bạn có cần giải quyết vấn đề này theo cách nào đó hay không. Tùy thuộc vào mục tiêu phân tích hồi quy của bạn, bạn có thể không thực sự cần giải quyết vấn đề đa cộng tuyến. Dưới đây là 3 trường hợp đặc biệt mà bạn có thể bỏ qua hiện tượng đa cộng tuyến:
– Nếu chỉ có đa cộng tuyến vừa phải, bạn có thể không cần giải quyết nó theo bất kỳ cách nào.
– Đa cộng tuyến chỉ ảnh hưởng đến các biến dự đoán có tương quan với nhau. Nếu bạn quan tâm đến một biến dự đoán trong mô hình không bị đa cộng tuyến, thì đa cộng tuyến không phải là vấn đề đáng lo ngại.
– Đa cộng tuyến ảnh hưởng đến các ước tính hệ số và giá trị p, nhưng nó không ảnh hưởng đến các dự đoán hoặc thống kê mức độ phù hợp. Điều này có nghĩa là nếu mục tiêu chính của bạn với hồi quy là đưa ra dự đoán và bạn không quan tâm đến việc hiểu mối quan hệ chính xác giữa các biến dự đoán và biến phản hồi, thì không cần phải giải quyết đa cộng tuyến.
5.2. Cách khắc phục đa cộng tuyến
Để khắc phục hiện tượng đa cộng tuyến trong SPSS, bạn có thể thực hiện 4 giải pháp dưới đây bao gồm:
– Loại bỏ một hoặc nhiều biến có tương quan cao. Đây là cách khắc phục nhanh nhất trong hầu hết các trường hợp và thường là giải pháp có thể chấp nhận được vì các biến bạn đang loại bỏ dù sao cũng dư thừa và thêm ít thông tin duy nhất hoặc độc lập vào mô hình.
– Kết hợp tuyến tính các biến dự đoán, chẳng hạn như cộng hoặc trừ chúng theo một cách nào đó. Bằng cách đó, bạn có thể tạo một biến mới bao gồm thông tin từ cả hai biến và bạn không còn gặp vấn đề về đa cộng tuyến nữa.
– Thu thập nhiều dữ liệu hơn: Bạn càng thu thập nhiều dữ liệu cho mô hình của mình, các phép đo càng chính xác và sẽ có ít phương sai hơn. Đây là một trong những giải pháp rõ ràng hơn cho đa cộng tuyến.
– Hủy bỏ toàn bộ dữ liệu nếu vấn đề xuất phát từ chọn mô hình nghiên cứu và lập bảng khảo sát. Thực hiện việc điều chỉnh mô hình và tiến hành khảo sát lại.
6. 4 Hậu quả của hiện tượng đa cộng tuyến trong SPSS
Hiện tượng đa cộng tuyến gây ra 5 loại vấn đề cơ bản:
– Các ước tính hệ số có thể dao động mạnh dựa trên các biến độc lập khác trong mô hình. Các hệ số trở nên rất nhạy cảm với những thay đổi nhỏ trong mô hình.
– Đa cộng tuyến làm giảm độ chính xác của các hệ số ước tính, điều này làm suy yếu sức mạnh thống kê của mô hình hồi quy của bạn. Bạn có thể không tin tưởng vào giá trị p để xác định các biến độc lập có ý nghĩa thống kê.
– Bạn không biết được tác động thực sự của từng biến số. Bạn có thể gặp các tình huống mà dữ liệu sẽ bị thay đổi tùy thuộc vào các biến mà bạn đưa vào mô hình. Điều đó sẽ gây ra những rắc rối khi các mô hình khác nhau dẫn đến những kết luận rất khác nhau.
– Đa cộng tuyến sẽ khiến cho khoảng tin cậy tạo ra xác suất chuẩn kém hơn và ảnh hưởng đến kết quả của các biến độc lập.
– Đa cộng tuyến khiến các sai số chuẩn của các hệ số chuẩn lớn và điều đó khiến chúng ta dễ đi đến kết luận không có cơ sở và bác bỏ giả thiết “không”. Điều này có thể là kết quả không chính xác.
Bài viết chia sẻ với bạn đọc về hiện tượng đa cộng tuyến trong SPSS để bạn có thể phát hiện và xử lý chúng một cách nhanh chóng và dễ dàng. Hãy tiếp tục theo dõi các bài viết của chúng tôi để không bỏ lỡ bất kỳ thông tin và kiến thức hữu ích nào liên quan đến SPSS bạn nhé!