Mã hóa dữ liệu trong SPSS là bước đầu tiên trong việc xử lý dữ liệu đã thu thập được trong quá trình nghiên cứu. Việc mã hóa dữ liệu một cách chính xác sẽ giúp cho quá trình thực hiện phân tích đạt hiệu quả tối đa. Bài viết dưới đây sẽ chia sẻ với bạn đọc về định nghĩa và cách mã hóa dữ liệu trong SPSS đơn giản để bạn có thể thực hiện thao tác này một cách dễ dàng.
1. Mã hóa dữ liệu trong SPSS là gì?
Mã hóa dữ liệu trong SPSS là việc thực hiện chuyển các dữ liệu trong bước khảo sát và nghiên cứu từ dạng số liệu hoặc dạng chữ bằng các số được sắp xếp theo một trình tự nhất định.
– Quá trình mã hóa dữ liệu tốt sẽ giúp cho phần mềm định dạng, sắp xếp và phân tích dữ liệu dễ dàng và nhanh chóng.
– Để thực hiện việc mã hóa dữ liệu, 3 cách phổ biến nhất thường được sử dụng trong SPSS bao gồm:
- Mã hóa dữ liệu trong SPSS thành các biến khác nhau
- Mã hóa dữ liệu trong SPSS thành các biến giống nhau
- Mã hóa dữ liệu trong SPSS bằng cú pháp DO IF
2. Cách mã hóa dữ liệu trong SPSS thành các biến khác nhau
2.1. Mã hóa dữ liệu thành các biến khác nhau là gì?
Mã hóa dữ liệu trong SPSS thành các biến khác nhau là quá trình mã hóa dữ liệu bằng cách ghi lại toàn bộ kết quả nghiên cứu các dữ liệu gốc thành một biến khác, không ghi đè lên những biến ban đầu và thay vào đó một bản sao với một tên biến mới.
– Mã hóa dữ liệu trong SPSS thành các biến khác nhau được khuyến khích sử dụng bởi cách này sẽ giúp cho dữ liệu ban đầu của bạn không bị thay đổi và bạn có thể truy cập dữ liệu gốc dễ dàng hơn nếu có mong muốn sửa đổi.
– 3 cách mã hóa dữ liệu thánh biến khác nhau bao gồm:
- Mã hóa giá trị biến đơn lẻ
- Mã hóa một phạm vi nhất định
- Mã hóa dữ liệu thành 2 loại khác nhau
2.2. Cách chạy mã hóa dữ liệu SPSS
Để thực hiện việc chạy mã hóa dữ liệu SPSS thành các biến khác nhau bạn cần thực hiện theo 4 bước sau:
Bước 1: Mở phần mềm SPSS, tại thanh công cụ bạn lựa chọn Transform → chọn Recode into Different Variables.
Bước 2: Hộp thoại mã hóa dữ liệu thành các biến khác nhau sẽ hiện ra với các tùy chọn bạn cần phải nhập và lựa chọn bao gồm:
- A – Input Variables -> Output Variables (Biến đầu vào -> Biến đầu ra): chứa danh sách các biến bạn sẽ lựa chọn để thực hiện việc mã hóa.
- B – Output Variables (Biến đầu ra): Tại đây bạn cần xác định tên và dán nhãn cho các biến cần mã hóa và nhấn Change để hoàn thành.
- C – Old and New Values (Giá trị cũ và mới): chọn vào biểu tượng này để thực hiện việc chỉ định cách mà bạn muốn mã hóa các giá trị cho biến bạn đã chọn.
- D- If (optional case selection condition) – Tùy chọn IF: Lệnh tùy chọn này sẽ cho phép bạn thực hiện việc chỉ định điều kiện mà tại đó các nhãn dán mã hóa của bạn được áp dụng.
- Cột bên trái sẽ chứa tất cả các biến trong tập dữ liệu của bạn. Để chọn biến mà bạn muốn thực hiện việc mã hóa thì bạn có thế thao tác bằng cách nhấp vào biến cần mã hóa và bấm mũi tên bên cạnh để di chuyển vào cột A.
Bước 3: Sau khi lựa chọn Old and New Values → một cửa sổ mới nơi bạn chỉ định cách chuyển đổi các giá trị sẽ xuất hiện.
1 – Giá trị cũ: Chỉ định loại giá trị bạn muốn mã hóa lại (ví dụ: một giá trị cụ thể, dữ liệu bị thiếu hoặc một phạm vi giá trị) và giá trị cụ thể sẽ được mã hóa (ví dụ: giá trị “1” hoặc một phạm vi “ 1-5 ”).
- Value (Giá trị): Nhập mã số cụ thể đại diện cho danh mục hiện có.
- System-missing (Thiếu hệ thống): Áp dụng cho mọi giá trị thiếu hệ thống (.)
- System or user-missing (Hệ thống hoặc thiếu người dùng): Áp dụng cho mọi giá trị thiếu hệ thống (.) Hoặc mã giá trị bị thiếu đặc biệt do người dùng xác định trong cửa sổ Chế độ xem biến
- Range (Phạm vi): Để sử dụng với các danh mục được đặt hàng hoặc các phép đo liên tục. Nhập ranh giới dưới và ranh giới trên cần được mã hóa. Danh mục được mã hóa sẽ bao gồm cả hai điểm cuối, vì vậy các giá trị dữ liệu chính xác bằng các ranh giới sẽ được đưa vào danh mục đó.
- Range, LOWEST through value (Phạm vi, giá trị THẤP NHẤT đến hết): Để sử dụng cho các danh mục có thứ tự hoặc các phép đo liên tục. Mã hóa tất cả các giá trị nhỏ hơn hoặc bằng một số.
- Range, value through HIGHEST (Phạm vi, giá trị đến CAO NHẤT): Để sử dụng cho các danh mục có thứ tự hoặc các phép đo liên tục. Mã hóa tất cả các giá trị lớn hơn hoặc bằng một số.
- All other values (Tất cả các giá trị khác): Áp dụng cho bất kỳ giá trị nào không được tính toán rõ ràng bởi các quy tắc mã hóa trước đó. Nếu sử dụng cài đặt này, nó sẽ được áp dụng sau cùng.
2 – Giá trị mới: Chỉ định giá trị mới cho biến của bạn (tức là, một mã số cụ thể chẳng hạn như “2”, thiếu hệ thống hoặc sao chép các giá trị cũ).
3 – Cũ -> Mới: Khi bạn đã chọn các giá trị cũ và mới cho biến đã chọn của mình trong (1) và (2), hãy nhấp vào Thêm vào vùng (3), Cũ -> Mới . Mã lặp lại mà bạn đã chỉ định giờ sẽ xuất hiện trong trường văn bản. Nếu bạn cần thay đổi một trong các đoạn mã mà bạn đã thêm vào phần Cũ -> Khu vực mới, chỉ cần nhấp vào đoạn bạn muốn thay đổi và thực hiện các thay đổi trong (1) và (2) nếu cần.
4 – Output variables are strings và Convert numeric strings to numbers: Các tùy chọn này thay đổi kiểu biến của biến mới.
- Output variables are strings (biến đầu ra là chuỗi): biến mới sẽ là biến chuỗi.
- Convert numeric strings to numbers (chuyển đổi chuỗi số thành số): Tùy chọn này chỉ có thể được sử dụng khi biến đầu vào của bạn là một chuỗi và sẽ chuyển sang màu xám nếu không. Nếu biến đầu vào là một chuỗi, nhưng bản thân các giá trị dữ liệu là các số hợp lệ, thì việc chọn tùy chọn này sẽ chuyển đổi các chuỗi số thành số thực.
Bước 4: Sau khi bạn nhấp vào tùy chọn If (optional case selection condition) → hộp thoại tùy chọn IF sẽ xuất hiện để bạn hoàn thành các tùy chọn phù hợp cho biến → chọn Continue đề thực hiện bước tiếp theo.
- 1: Cột hiển thị tất cả các biến có trong tập dữ liệu của bạn.
- 2: chọn Include all case – đặc điểm của tất cả các biến.
- 3: cửa sổ chứa tất cả các tập hợp toán tử số học, các toán tử Boolean kèm các ký tự số để giúp bạn thực hiện việc thiết lập các điều kiện cho biến.
- 4: Function group: Hộp chứa tất cả các hàm phổ biến nhằm giúp bạn tính giá trị cho các biến mới.
2.3. Ví dụ mã hóa thành các biến khác nhau
– Đề bài: Dữ liệu ghi lại số lần chạy của 5 vận động viên đánh bóng. Mã hóa dữ liệu đầu vào để các vận động viên được sắp xếp thứ tự theo số lần họ chạy (vận động viên có số lần chạy nhiều nhất sẽ được mã hóa là 1, vận động viên có số lượt chạy nhiều thứ 2 là 2, vận động viên có số lượt chạy nhiều thứ 3 là 3, ận động viên có số lượt chạy nhiều thứ 4 là 4 và vận động viên có số lượt chạy thấp nhất là 5).
– Thực hiện quá trình mã hóa:
Bước 1: Nhập dữ liệu thống kê và đặt tên biến là “Runs”
Bước 2: Chọn Transform → chọn Recode Into Different Variables (hộp thoại mới sẽ mở ra) → chuyển biến Runs đến Numeric Variable → chọn Output Variable.
Bước 3: Trong mục Output Variables tiến hành nhập và đặt tên cho biến mới “RankedRun” → chọn Change (hộp Numeric Variable sẽ hiện thay đổi tên biến vừa thực hiện)
Bước 4: Lựa chọn Old and New Values: tại hộp Old Value nhập 120 tại Value và tại hộp New Value nhập 1 tại Value → chọn Add để tiến hành mã hóa (Lặp lại thao tác cho tất cả các giá trị còn lại.
Bước 5: Chọn Continue → chọn Ok để hoàn thành quá trình mã hóa dữ liệu.
3. Cách mã hóa dữ liệu trong SPSS thành các biến giống nhau
3.1. Mã hóa dữ liệu thành các biến giống nhau là gì?
Mã hóa dữ liệu thành các biến giống nhau là dạng mã hóa dữ liệu mà biến mới sẽ ghi đè các giá trị lên các giá trị biến ban đầu thay vì dán nhãn thành một biến hoàn toàn mới.
Mã hóa dữ liệu thành các biến giống nhau không được khuyến khích sử dụng bởi bạn sẽ khó lấy lại thông tin ban đầu để thực hiện việc sửa đổi trong quá trình phân tích do các biến đã bị ghi đè lên và biến ban đầu đã bị biến mất.
3.2. Cách chạy mã hóa dữ liệu SPSS
Các bước chạy mã hóa dữ liệu thành các biến giống nhau tương tự như các bước thực hiện của quá trình chạy mã hóa dữ liệu thành các biến khác nhau. Tuy nhiên, các giá trị ban đầu sẽ được thay thế bằng các giá trị được giải mã thay vì dán các nhãn mới tại bước 2.
3.3. Ví dụ mã hóa thành các biến giống nhau
– Đề bài: Dữ liệu ghi lại số lần chạy của 5 vận động viên đánh bóng. Mã hóa dữ liệu đầu vào để các vận động viên được sắp xếp thứ tự theo số lần họ chạy (vận động viên có số lần chạy nhiều nhất sẽ được mã hóa là 1, vận động viên có số lượt chạy nhiều thứ 2 là 2, vận động viên có số lượt chạy nhiều thứ 3 là 3, ận động viên có số lượt chạy nhiều thứ 4 là 4 và vận động viên có số lượt chạy thấp nhất là 5).
– 4 bước mã hóa:
- Bước 1: Chọn Transform → chọn Recode into different variables.
- Bước 2: Chọn biến CommuteTime trong hộp Input Variable -> Output Variable. Trong vùng Output Variable, bạn cần nhập tên của biến mới (như CommuteLengh) rồi nhấn nút Change.
- Bước 3: Chọn Old and new Values và nhập các thông tin
- Bước 4: Bấm OK để hoàn thành thủ tục mã hóa dữ liệu.
4. Cách mã hóa dữ liệu trong SPSS bằng Cú pháp DO IF – ELSE IF
4.1. Mã hóa dữ liệu bằng Cú pháp DO IF-ELSE IF là gì?
Mã hóa dữ liệu bằng cú pháp DO IF-ELSE IF là việc thực hiện mã hóa dữ liệu nhưng cho phép kiểm soát nhiều hơn việc chỉ định phạm vi số.
Tức là, nếu bạn muốn tách biến số thành nhiều hơn ba danh mục hoặc nếu bạn muốn thực hiện mã hóa dựa trên nhiều biến, bạn sẽ cần sử dụng cú pháp DO IF-ELSE IF.
4.2. Cách chạy mã hóa dữ liệu SPSS
Cú pháp DO IF-ELSE IF là:
Cú pháp DO IF-ELSE IF
– Các dòng DO IF và ELSE IF lệnh cho SPSS thực hiện phép tính lồng nhau nếu các điều kiện nhất định là đúng. Các điều kiện này là các tuyên bố (hoặc chuỗi các tuyên bố) được đánh giá là đúng hoặc sai .
– Ví dụ:
- x > 2: là một câu lệnh điều kiện trả về true nếu giá trị của x lớn hơn 2 và trả về false nếu giá trị của x nhỏ hơn hoặc bằng 2.
- x > 2 AND x < 10: trả về true nếu x lớn hơn hai và cũng nhỏ hơn 10 (tức là 2 <x <10) và trả về false nếu x nhỏ hơn hoặc bằng hai hoặc nếu x lớn hơn hoặc bằng mười (x ≤ 2 hoặc x ≥ 10).
- Hàm trả về true nếu đối số của nó thiếu hệ thống hoặc thiếu người dùng. Nếu bạn muốn xử lý việc mã hóa các giá trị bị thiếu, bạn sẽ sử dụng cú pháp MISSING(…)DO IF(MISSING(variable)).
– Danh sách các toán tử mà SPSS nhận ra trong các câu lệnh có điều kiện (hoặc lôgic) được đưa ra trong bảng sau.
– Lưu ý rằng bạn có thể sử dụng các tổ hợp chữ cái hoặc các ký hiệu toán học trong các câu lệnh của mình. Bạn cũng có thể sử dụng dấu ngoặc đơn để nhóm hoặc phân phối các hiệu ứng của một toán tử.
– Dòng ELSE trong SPSS thực hiện tính toán lồng nhau của nó trên tất cả các giá trị khác không được tính bởi các câu lệnh điều kiện trước đó. ELSE là tùy chọn – bạn không nhất thiết phải sử dụng nó, nhưng nó thường thuận tiện hơn để sử dụng hơn là giải quyết mọi kết quả có thể xảy ra bằng ELSE IF. Nếu bạn sử dụng ELSE, nó phải ở cuối vòng lặp (ngay trước END DO).
– Các câu lệnh COMPUTE là nơi (các) biến mới thực sự được tính toán hoặc thiết lập. Lưu ý rằng nếu bạn muốn đặt biến aa bằng một giá trị bị thiếu trong câu lệnh COMPUTE, hãy sử dụng cú pháp var=$SYSMIS. Thuật ngữ $ SYSMIS đề cập đến các giá trị thiếu hệ thống.
4.3. Ví dụ mã hóa dữ liệu SPSS bằng Cú pháp DO IF-ELSE IF
– Đề bài: Giả sử chúng ta có điểm kiểm tra dưới dạng tỷ lệ phần trăm và muốn chuyển đổi các tỷ lệ phần trăm đó thành điểm chữ cái. Một sơ đồ chấm điểm điển hình ở Hoa Kỳ là:
- Dưới 60: F (kiểm tra <60)
- 60 đến 69: D (60 ≤ kiểm tra <70)
- 70 đến 79: C (70 ≤ kiểm tra <80)
- 80 đến 89: B (80 ≤ kiểm tra <90)
- 90 trở lên: A (kiểm tra ≥ 90)
– 3 bước mã hóa sử dụng cú pháp DO IF – ELSE IF:
- Bước 1: Chọn File → chọn New —> chọn Syntax để tạo một tệp mới.
- Bước 2: Thực hiện việc nhập cú pháp theo hình sau:
- Bước 3: Chọn Run Selection để hoàn thành thao tác mã hóa dữ liệu.
Bài viết đã chia sẻ với bạn đọc về cách mã hóa dữ liệu trong SPSS theo từng bước cụ thể kèm ví dụ điển hình. Hy vọng với những chia sẻ này bạn đã có thể thực hiện được việc mã hóa dữ liệu một cách nhanh chóng và dễ dàng. Theo dõi các bài viết tiếp theo của chúng tôi để liên tục cập nhật những kiến thức mới nhất liên quan đến SPSS bạn nhé!