(Tính
tần số)
1.
Sau khi mở file dữ liệu, vào menu
Analyze à Descriptive
Statistics à Frequencies
Màn hình sẽ xuất hiện hộp
thoại sau:
2.
Chọn biến muốn tính tần số (biến Place
V1) bằng cách click chuột vào tên biến rồi đưa sang khung Variable(s).
3.
Click Ok. Trường hợp muốn vẽ biểu đồ thực
hiện thêm bước 4 trước khi click Ok.
4.
Để vẽ biểu đồ click chuột vào ô Charts….
Chọn dạng biểu đồ ở Chart type, chọn giá trị thể hiện trên biểu đồ là số đếm
(frequencies) hay phần trăm (percentages). Click Continue để trở lại hộp thoại
Frequencies à Ok để thực hiện
lệnh.
TÍNH TRỊ TRUNG BÌNH (2 CÁCH)
CÁCH
1. DÙNG LỆNH FREQUENCY
1.
Vào menu Analyze à Descriptive Statistics à Frequencies. Đưa biến cần tính trị
trung bình vào ô variables như bước 1 và 2 ở phần trước.
2.
Click chọn thẻ Statistic, mở hộp thoại,
và click chọn các thông số cần thiết:
3.
Ý nghĩa một số thông số thông dụng:
Mean:
trung bình cộng
Sum:
tổng cộng (cộng tất cả
các giá tị trong tập dữ liệu quan sát)
Std.
Deviation: độ lệch chuẩn
Minimum:
giá trị nhỏ nhất
Maximum:
giá trị lớn nhất
S.E.
mean: sai số chuẩn khi ước lượng
trị trung bình
CÁCH
2. DÙNG LỆNH DESCRIPTIVES
(Tính
điểm trung bình)
1.
Vào menu Analyze à Descriptive Statistics à Descriptives…, xuất hiện hộp thoại
2. Chọn 1 hay nhiều biến (định lượng) muốn tính điểm trung bình
đưa vào khung Variable(s).
3. Click vào ô Options… để xuất hiện hộp thoại Descriptive
Options. Chọn các đại lượng thống kê muốn tính toán bằng cách click vào ô vuông
cần thiết.
4. Chọn cách sắp xếp kết quả tính toán theo thứ tự danh sách biến
(Variable list), thứ tự Alphabetic của nhãn biến, thứ tự tăng dần (Ascending
list), và thứ tự giảm dần (Descending list).
5. Click Continue để trở về hộp thoại Descriptive à Ok để thực hiện lệnh.
Ý nghĩa của từng giá trị trung bình
đối với thang đo khoảng (Interval Scale)
Giá
trị khoảng cách = (Maximum - Minimum) / n
= (5 -1) / 5
= 0.8
Giá trị trung
bình Ý
nghĩa
1.00
- 1.80 Rất không đồng ý/Rất không hài
lòng/Rất không quan trọng
1.81
- 2.60 Không đồng ý/Không hài
lòng/ Không quan trọng
2.61
- 3.40 Không
ý kiến/trung bình
3.41
- 4.20 Đồng
ý/ Hài lòng/ Quan trọng
4.21
- 5.00 Rất đồng ý/ Rất
hài lòng/ Rất quan trọng
CÁCH
THỨC TIẾN HÀNH PHÂN TÍCH BẢNG CHÉO
(CROSSTABULATION)
Phân tích bảng chéo dùng để kiểm định mối quan hệ giữa các biến
định tính với nhau bằng cách dùng kiểm định Chi – bình phương (Chi-square).
Cách thức tiến hành với SPSS như sau:
1. Vào menu Analyze à Descriptive Statistics
à Crosstabs…,
2. Xuất hiện hộp thoại sau:
3. Chọn và đưa các biến vào khung Row(s) (dòng) và Column(s) (cột)
và Layer 1 of 1 (đối với trường hợp trên 2 biến).
4. Click vào ô Statistics, xuất hiện hộp thoại sau:
5. Chọn các kiểm định cần thiết. Trong trường hợp này ta dùng kiểm
định Chi – bình phương (Chi-square).
-
Các kiểm định ở ô
Norminal dùng để kiểm định mối liên hệ giữa các biến biểu danh.
-
Các kiểm định ở ô
Ordinal dùng để kiểm định mối liên hệ giữa các biến thứ tự.
6. Click vào continue để trở lại hộp thoại Crosstabs à Click vào ô Cells, hộp thoại sau xuất hiện:
7. Ở ô Counts chọn Observed (thể hiện tần số quan sát). Trong
trường hợp muốn thể hiện tần số mong đợi chọn Expected.
8. Chọn cách thể hiện phần trăm theo dòng hay theo cột ở ô
Percentages.
9. Click Continue để trở lại hộp thoại Crosstabs à Ok để thực hiện lệnh.
CÁCH ĐỌC KẾT QUẢ
KIỂM ĐỊNH
Khi thực
hiện kiểm định, ta có 2 giả thuyết.
H0: không có
mối quan hệ giữa các biến.
H1: có mối
quan hệ giữa các biến.
Để kết luận là chấp nhận hay bác bỏ giả thuyết H0,
ta sẽ dùng các kiểm định phù hợp.
Dựa vào giá trị P (p-value) (SPSS viết tắt p-value là sig.) để
kết luận là chấp nhận hay bác bỏ giả thuyết H0
p-value (sig.) ≤ α (mức ý nghĩa) à bác bỏ giả thuyết H0. Có nghĩa là có mối quan hệ có ý nghĩa giữa
các biến cần kiểm định.
p-value (sig.) > α (mức ý nghĩa) à chấp nhận H0. Không có mối quan hệ giữa các biến cần kiểm định.
ĐỐI VỚI KIỂM ĐỊNH CHI – BÌNH PHƯƠNG
Hàng đầu
tiên của bảng Chi-square tests thể hiện giá trị P
Chi-Square Tests
|
|||
Value
|
df
|
Asymp. Sig. (2-sided)
|
|
Pearson Chi-Square
|
16.217a
|
8
|
.039
|
Likelihood
Ratio
|
18.708
|
8
|
.017
|
Linear-by-Linear
Association
|
.202
|
1
|
.653
|
N of
Valid Cases
|
511
|
||
a. 8
cells (44.4%) have expected count less than 5. The minimum expected count is
1.69.
|
Cuối bảng Chi-Square tests SPSS sẽ đưa ra dòng thông báo cho
biết % số ô có tần suất mong đợi dưới 5. Kiểm định Chi-bình phương chỉ có ý
nghĩa khi số quan sát đủ lớn, nếu có quá 20%
số ô trong bảng chéo có tần số lý thuyết nhỏ hơn 5 thì giá trị chi-bình
phương không còn đáng tin cậy.
Trong ví dụ trên có đến 44.4% số ô có tần số mong đợi dưới 5,
biện pháp cho trường hợp này là ta sẽ gom các biểu hiện trên các biến lại để
tăng số quan sát trong mỗi nhóm.
CÁCH
THỨC TIẾN HÀNH KIỂM ĐỊNH GIẢ THUYẾT VỀ TRỊ TRUNG BÌNH CỦA 2 TỔNG THỂ ĐỘC LẬP
(Independent Samples T-test)
1. Vào menu Analyze à Compare Means à Independent-samples T-test
2. Chọn biến định lượng cần kiểm định trị trung bình đưa vào
khung Test Variable(s). Chọn biến định tính chia số quan sát thành 2 nhóm mẫu để
so sánh giữa 2 nhóm này với nhau đưa vào khung Grouping Variable.
3. Chọn Define Groups… để nhập mã số của 2 nhóm. Click Continue
để trở lại hộp thoại chính à Click Ok để thực hiện
lệnh
Trong kiểm định Independent-samples T-test, ta cần dựa vào kết
quả kiểm định sự bằng nhau của 2 phương sai tổng thể (kiểm định Levene). Phương
sai diễn tả mức độ đồng đều hoặc không đồng đều (độ phân tán) của dữ liệu quan
sát.
Independent Samples Test
|
||||
A.Cleanliness and comfort of room
|
||||
Equal variances assumed
|
Equal variances not assumed
|
|||
Levene's
Test for Equality of Variances
|
F
|
.138
|
||
Sig.
|
.710
|
|||
t-test
for Equality of Means
|
t
|
-3.066
|
-3.040
|
|
df
|
509
|
448.100
|
||
Sig.
(2-tailed)
|
.002
|
.003
|
||
Mean
Difference
|
-.231
|
-.231
|
||
Std.
Error Difference
|
.075
|
.076
|
||
95%
Confidence Interval of the Difference
|
Lower
|
-.379
|
-.380
|
|
Upper
|
-.083
|
-.082
|
Nếu giá trị Sig. trong kiểm định Levene (kiểm định F) <
0.05 thì phương sai của 2 tổng thể khác nhau, ta sử dụng kết quả kiểm định t ở
dòng Equal variances not assumed.
Nếu Sig. ≥ 0.05 thì phương sai của 2
tổng thể không khác nhau, ta sử dụng kết quả kiểm định t ở dòng Equal variances
assumed.
Trong
VD trên Sig. của kiểm định F = 0.71 > 0.05 è chấp nhận giả thuyết H0
không có sự khác nhau về phương sai của 2 tổng thể è sử dụng kết quả ở dòng Equal variances assumed.
Nếu Sig. của kiểm định t ≤ α (mức ý
nghĩa) à có sự phác biệt có ý nghĩa về trung bình của 2 tổng thể.
Nếu Sig. > α (mức ý nghĩa) à không có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể.
Trong
VD trên sig. = 0.002 < 0.05 è có sự khác biệt có ý
nghĩa về trung bình của 2 tổng thể.
CÁCH
THỨC TIẾN HÀNH KIỂM ĐỊNH GIẢ THUYẾT VỀ TRỊ TRUNG BÌNH CỦA 2 TỔNG THỂ PHỤ THUỘC
HAY PHỐI HỢP TỪNG CẶP
(Paired-Samples
T-test)
1. Vào menu Analyze à Compare means à Paired-samples T-test
2. Chọn cặp biến muốn so sánh (nhấn giữ phím ctrl để chọn 2 biến)
đưa vào khung Paired Variable(s). Có thể chọn nhiều cặp để so sánh cùng 1 lúc.
3. Có thể chỉnh lại độ tin cậy bằng cách click vào ô Option, nhập
độ tin cậy vào khung Confidence Interval.
4. Click Ok để thực hiện lệnh.
5. Xem cách đọc kết quả kiểm định ở phần trên. Cũng dùng giá trị
Sig.
CÁCH
THỨC TIẾN HÀNH PHÂN TÍCH PHƯƠNG SAI
(ANOVA
– Analysis of Variance)
Phân tích phương sai ANOVA là phương pháp so sánh trị trung
bình của 3 nhóm trở lên. Có 2 kỹ thuật phân tích phương sai: ANOVA 1 yếu tố (một
biến yếu tố để phân loại các quan sát thành các nhóm khác nhau) và ANOVA nhiều
yếu tố(2 hay nhiều biến để phân loại). Ở phần thực hành cơ bản chỉ đề cập đến
phân tích phương sai 1 yếu tố (One-way ANOVA).
Một số giả định đối với phân tích phương sai một yếu tố:
-
Các nhóm so sánh phải độc
lập và được chọn một cách ngẫu nhiên.
-
Các nhóm so sánh phải
có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối
chuẩn.
-
Phương sai của các nhóm
so sánh phải đồng nhất.
1. Từ menu Analyze à Compare Means à One-Way ANOVA, xuất hiện hộp thoại sau:
2. Đưa biến định lượng (trị trung bình) vào khung Dependent list.
Đưa biến phân loại xác định các nhóm cần so sánh với nhau vào
khung Factor.
3. Click vào nút Option để mở hộp thoại One-Way ANOVA Options.
Trong hộp thoại One-way ANOVA Options:
-
Click chọn ô
Descriptive để tính đại lượng thống kê mô tả (tính trị trung bình) theo từng
nhóm so sánh.
-
Click chọn ô
Homogeneity of variance test để kiểm định sự bằng nhau của các phương sai nhóm
(thực hiện kiểm định Levene).
4. Click chọn Continue để trở lại hộp thoại ban đầu à click Ok để thực hiện lệnh.
5. Dựa vào kết quả kiểm định ANOVA, nếu H0 được chấp
nhận thì kết luận không có sự khác biệt có ý nghĩa giữa các nhóm với nhau. Nếu
H0 bị bác bỏ à có sự khác biệt có ý
nghĩa giữa các nhóm à trở lại hộp thoại One
– way ANOVA để thực hiện kiểm định sâu ANOVA nhằm xác định cụ thể trung bình của
nhóm nào khác với nhóm nào, nghĩa là tìm xem sự khác biệt của các nhóm xảy ra ở
đâu.
6. Tuy nhiên có thể thực hiện kiểm định ANOVA và sâu ANOVA cùng
lúc với nhau. Dựa vào sự chấp nhận hay bác bỏ giả thuyết H0 để quan
tâm hay không quan tâm đến kết quả kiểm định sâu ANOVA.
Phân tích sâu
ANOVA – Xác định chỗ khác biệt
Có 2 phương pháp để phân tích sâu ANOVA, đó là kiểm định “trước”
(kiểm định Priori Contrasts) và kiểm định “sau” (kiểm định Post-Hoc test).
Phương pháp kiểm định gần với phương pháp nghiên cứu thực là Post-Hoc test. Nên
trong phần này ta sẽ sử dụng Post-Hoc test để thực hiện kiểm định sâu ANOVA nhằm
tìm ra chỗ khác biệt.
Các phương pháp kiểm định thống kê của Post-Hoc test thường
được sử dụng:
-
LSD: đây là phép kiểm định
dùng kiểm định t lần lượt cho từng cặp trung bình nhóm, do vậy nhược điểm của
nó là độ tin cậy không cao vì làm gia tăng mức độ phạm sai lầm tương ứng với việc
so sánh nhiều nhóm cùng một lúc.
-
Bonferroni: giống
quy tắc của LSD nhưng điều chỉnh được mức ý nghĩa khi tiến hành so sánh bội dựa
trên số lần tiến hành so sánh. Đây là một trong những thủ tục kiểm định đơn giản
nhất và hay được sử dụng cho mục tiêu này.
-
Tukey: cũng được sử dụng
phổ biến cho việc tìm kiếm các trung bình các nhóm khác biệt. Nó sử dụng bảng
phân phối Studentizze range distribution. Tukey hiệu quả hơn Bonferroni khi số lượng
các cặp trung bình cần so sánh khá nhiều.
-
R-E-G-W: thực hiện 2 bước
kiểm định, đầu tiên tiến hành kiểm định lại toàn bộ các giá trị trung bình nhóm
xem có bằng nhau không; nếu không bằng thì bước kế tiếp nó sẽ kiểm định để tìm
các nhóm nào khác biệt thật sự với nhau về trị trung bình. Nhưng kiểm
định này không phù hợp khi kích cỡ các nhóm mẫu không bằng nhau.
-
Dunnett: là thủ tục cho
phép chọn so sánh các trị trung bình của các nhóm mẫu còn lại với trị trung
bình của một nhóm mẫu cụ thể nào đó được chọn ra so sánh (nhóm điều khiển), SPSS mặc
định chọn nhóm cuối (last) để làm nhóm điều khiển.
Sử dụng kiểm định nào là tuỳ thuộc vào mục đích của nhà
nghiên cứu và tình hình thực tế nghiên cứu.
Đọc kết quả phân
tích phương sai
1. Bảng đầu tiên thể hiện các đại lượng thống kê mô tả
Descriptives
|
||||||||
Willingness
to introduce
|
||||||||
N
|
Mean
|
Std. Deviation
|
Std. Error
|
95% Confidence Interval for Mean
|
Minimum
|
Maximum
|
||
Lower Bound
|
Upper Bound
|
|||||||
Single
|
153
|
4.12
|
.811
|
.066
|
3.99
|
4.25
|
1.00
|
5
|
Married/Living
with partner
|
341
|
4.28
|
.645
|
.035
|
4.22
|
4.35
|
1.00
|
5
|
Divorced
|
15
|
4.13
|
.743
|
.192
|
3.72
|
4.54
|
3.00
|
5
|
Widowed
|
2
|
4.50
|
.707
|
.500
|
-1.85
|
10.85
|
4.00
|
5
|
Total
|
511
|
4.23
|
.704
|
.031
|
4.17
|
4.29
|
1.00
|
5
|
2. Bảng thứ 2 thể hiện kết quả kiểm định Levene. Trong
VD này Sig. = 0.273 > mức ý nghĩa 0.1 à
chấp nhận giả thuyết H0 à phương sai các
nhóm không khác nhau một cách có ý nghĩa à có thể sử dụng
kết quả phân tích ANOVA ở bảng tiếp theo.
Test of Homogeneity of Variances
|
|||
Willingness
to introduce
|
|||
Levene Statistic
|
df1
|
df2
|
Sig.
|
1.303
|
3
|
507
|
.273
|
3. Bảng thứ 3 thể hiện kết quả kiểm định ANOVA. Trong VD này
sig. = 0.089 < mức ý nghĩa 0.1 à bác bỏ giả thuyết H0
à có sự khác biệt có ý nghĩa về giá trị trung bình của mức độ
sẵn lòng giới thiệu của các nhóm tình trạng hôn nhân.
ANOVA
|
|||||
Willingness
to introduce
|
|||||
Sum of Squares
|
df
|
Mean Square
|
F
|
Sig.
|
|
Between
Groups
|
3.228
|
3
|
1.076
|
2.186
|
.089
|
Within
Groups
|
249.523
|
507
|
.492
|
||
Total
|
252.751
|
510
|
4. Bảng
thứ 4 thể hiện kết quả kiểm định sâu ANOVA (dùng kiểm định LSD).
Multiple Comparisons
|
|||||||
Willingness
to introduce
LSD
|
|||||||
(I)
Marital status
|
(J)
Marital status
|
Mean Difference (I-J)
|
Std. Error
|
Sig.
|
95% Confidence Interval
|
||
Lower Bound
|
Upper Bound
|
||||||
Single
|
Married/Living
with partner
|
-.167*
|
.068
|
.015
|
-.30
|
-.03
|
|
Divorced
|
-.016
|
.190
|
.934
|
-.39
|
.36
|
||
Widowed
|
-.382
|
.499
|
.444
|
-1.36
|
.60
|
||
Married/Living
with partner
|
Single
|
.167*
|
.068
|
.015
|
.03
|
.30
|
|
Divorced
|
.151
|
.185
|
.415
|
-.21
|
.51
|
||
Widowed
|
-.216
|
.498
|
.665
|
-1.19
|
.76
|
||
Divorced
|
Single
|
.016
|
.190
|
.934
|
-.36
|
.39
|
|
Married/Living
with partner
|
-.151
|
.185
|
.415
|
-.51
|
.21
|
||
Widowed
|
-.367
|
.528
|
.488
|
-1.40
|
.67
|
||
Widowed
|
Single
|
.382
|
.499
|
.444
|
-.60
|
1.36
|
|
Married/Living
with partner
|
.216
|
.498
|
.665
|
-.76
|
1.19
|
||
Divorced
|
.367
|
.528
|
.488
|
-.67
|
1.40
|
||
*. The
mean difference is significant at the 0.05 level.
|
|||||||
Dựa vào kết quả kiểm định LSD này, ta có thể kết luận chỉ có
hai nhóm đã kết hôn và độc thân là có sự khác nhau về mức độ sẵn lòng giới thiệu.
Trong VD này nhóm đã kết hôn sẽ sẵn lòng giới thiệu hơn nhóm độc thân (xem bảng
thống kê mô tả).
MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
1. Từ menu Analyze à Regression à Linear…
2. Xuất hiện hộp thoại sau:
-
Đưa biến phụ thuộc vào
khung Dependent(s).
-
Đưa biến độc lập vào khung Independent(s).
3. Chọn phương pháp đưa biến vào ở ô Method.
-
Mặc định SPSS sẽ chọn
phương pháp đưa biến vào là Enter.
Đây là phương pháp mà SPSS sẽ xử lý tất cả các biến độc lập mà nhà nghiên cứu
muốn đưa vào mô hình.
-
Phương pháp đưa vào dần
(forward selection). Biến độc lập đầu
tiên được xem xét để đưa vào mô hình là biến có tương quan lớn nhất với biến phụ
thuộc. Tiếp tục SPSS sẽ xét điều kiện để đưa các biến độc lập còn lại vào mô
hình. Nếu biến đầu tiên không thoả điều kiện vào thì thủ tục này sẽ chấm dứt,
không có biến nào được đưa vào mô hình.
-
Phương pháp loại trừ dần
(backward elimination). Đầu tiên tất
cả các biến độc lập được đưa vào mô hình, biến có hệ số tương quan nhỏ nhất sẽ
được kiểm tra đầu tiên, nếu không thoả điều kiện sẽ bị loại ra. Lúc này mô hình
này sẽ được tính toán lại mà không có biến độc lập vừa loại. Tiếp theo SPSS sẽ
lặp lại thủ tục trên cho đến khi nào giá trị F của biến có hệ số tương quan nhỏ
nhất lớn hơn điều kiện thì quá trình này sẽ dừng lại.
ô Tham khảo điều kiện để đưa vào và loại ra PIN, FIN, FOUT, POUT.
-
Phương pháp chọn từng
bước (stepwise selection) là sự kết
hợp của phương pháp đưa vào dần vào loại trừ dần và là phương pháp được sử dụng
thông thường nhất.
ô Sử dụng phương pháp đưa biến vào nào phụ thuộc vào tính chất
của cuộc nghiên cứu. Và phương pháp được sử dụng nhiều nhất là phương pháp chọn
từng bước (stepwise selection).
4. Click vào ô Statistics…, để mở hộp thoại sau:
-
Click chọn ô Collinearity
diagnostics để kiểm tra hiện tượng Đa cộng tuyến (Multicollinearity). Độ chấp
nhận của biến (Tolerances) và hệ số phóng đại phương sai (Variance inflation
factor – VIF) được dùng để phát hiện hiện tượng đa cộng tuyến. Quy tắc là khi VIF vượt quá 10 là dấu hiệu của đa cộng tuyến.
5. Click Continue để trở lại hộp thoại Linear Regressions à click Ok để thực hiện lệnh.
Các bước đánh giá mô hình
VD: sử
dụng stepwsise để đưa các biến độc lập vào mô hình.
Mô hình: sự hài lòng của DK về điểm đến = α + β1
(sự hài lòng về dịch vụ lưu trú)
+
β2 (sự hài lòng về dịch vụ ăn uống)
+
β3 (sự hài lòng về dịch vụ mua sắm)
+
β4 (sự hài lòng về dịch vụ vận chuyển)
Giá trị Tolerances và VIF ở bảng số
3 (bảng Coefficients) cho thấy không hiện diện hiện tượng đa cộng tuyến của các
biến. à tiếp tục đánh giá mô hình.
1.
Đánh giá độ phù hợp của mô hình
Hệ số xác định R2 và R2 hiệu chỉnh
(Adjusted R square) được dùng để đánh giá độ phù hợp của mô hình. Vì R2
sẽ tăng khi đưa thêm biến độc lập vào mô hình nên dùng R2 hiệu chỉnh
sẽ an toàn hơn khi đánh giá độ phù hợp của mô hình. R2 hiệu chỉnh
càng lớn thể hiện độ phù hợp của mô hình càng cao.
Model Summary
|
||||
Model
|
R
|
Adjusted
|
Std. Error of the Estimate
|
|
1
|
.618a
|
.382
|
.381
|
.461
|
2
|
.664b
|
.441
|
.439
|
.439
|
3
|
.677c
|
.459
|
.455
|
.432
|
4
|
.684d
|
.468
|
.463
|
.429
|
R2 hiệu chỉnh của mô hình số 4 là 0.463 à 46.3% sự biến thiên của mức độ hài lòng của DK về điểm đến được giải
thích bởi mối liên hệ tuyến tính của các biến độc lập. à Mức độ phù hợp của mô hình tương đối cao. Tuy nhiên sự phù hợp này chỉ
đúng với dữ liệu mẫu. Để kiểm định xem có thể suy diễn mô hình cho tổng thể thực
hay không ta phải kiểm định độ phù hợp của mô hình.
2.
Kiểm định độ phù hợp của mô hình
Giả thuyết H0: β1 = β2 = β3
= β4 = 0.
Để kiểm định độ phù hợp của mô hình hồi quy tuyến tính đa bội
ta dùng giá trị F ở bàng phân tích ANOVA sau:
ANOVAe
|
||||||
Model
|
Sum of Squares
|
df
|
Mean Square
|
F
|
Sig.
|
|
1
|
Regression
|
66.904
|
1
|
66.904
|
314.686
|
.000a
|
Residual
|
108.216
|
509
|
.213
|
|||
Total
|
175.119
|
510
|
||||
2
|
Regression
|
77.248
|
2
|
38.624
|
200.475
|
.000b
|
Residual
|
97.872
|
508
|
.193
|
|||
Total
|
175.119
|
510
|
||||
3
|
Regression
|
80.296
|
3
|
26.765
|
143.109
|
.000c
|
Residual
|
94.823
|
507
|
.187
|
|||
Total
|
175.119
|
510
|
||||
4
|
Regression
|
81.897
|
4
|
20.474
|
111.131
|
.000d
|
Residual
|
93.223
|
506
|
.184
|
|||
Total
|
175.119
|
510
|
Giá trị sig. của trị F của mô hình số
4 rất nhỏ (< mức ý nghĩa) à bác bỏ giả thuyết H0
à mô hình phù hợp với tập dữ liệu và có thể suy rộng ra cho
toàn tổng thể.
3.
Ý nghĩa các hệ số hồi quy riêng phần trong mô hình
Coefficientsa
|
||||||||
Model
|
Unstandardized
Coefficients
|
Standardized
Coefficients
|
t
|
Sig.
|
Collinearity
Statistics
|
|||
B
|
Std.
Error
|
Beta
|
Tolerance
|
VIF
|
||||
4
|
(Constant)
|
1.172
|
.136
|
8.595
|
.000
|
|||
Overall
satisfaction Accommodation
|
.300
|
.041
|
.335
|
7.331
|
.000
|
.502
|
1.990
|
|
Overall
satisfaction Transportation
|
.168
|
.032
|
.218
|
5.168
|
.000
|
.589
|
1.697
|
|
Overall
satisfaction Food
|
.139
|
.041
|
.150
|
3.404
|
.001
|
.538
|
1.857
|
|
Overall
satisfaction Shopping
|
.103
|
.035
|
.121
|
2.947
|
.003
|
.624
|
1.603
|
|
a. Dependent Variable: Overall
satisfied
|
-
Ý nghĩa của hệ số riêng
phần là βk đo lường sự thay đồi giá trị trung bình Y khi Xk thay đổi 1 đơn vị,
giữ các biến độc lập còn lại không đổi.
-
Hệ số Beta (cột thứ 4 từ
bên trái) được dùng để so sánh khi các biến độc lập không cùng đơn vị đo lường.
-
Ở VD này ta có thể viết lại mô hình như sau:
Hài lòng về điểm đến =
1.172 + 0.300(hài lòng về lưu trú) + 0.168(hài lòng về vận chuyển)
+ 0.139(hài lòng về ăn uống) + 0.103(hài lòng
về mua sắm).
Giải thích mô hình: Phương trình hồi quy bội được phương pháp stepwise ước lượng
cho thấy sự hài lòng của du khách về 4 dịch vụ: lưu trú, vận chuyển, ăn uống,
và mua sắm có tác động tỷ lệ thuận với sự hài lòng chung của du khách về điểm đến.
Trong đó sự hài lòng về dịch vụ lưu trú có tác động mạnh nhất đến sự hài lòng về
điểm đến.
MỘT SỐ BIỆN PHÁP
KHẮC PHỤC HIỆN TƯỢNG ĐA CỘNG TUYẾN TRONG MÔ HÌNH HỒI QUY TUYẾN TÍNH
(Đề nghị tham khảo chi tiết hơn trong giáo trình Kinh tế lượng của Tiến sĩ Mai Văn Nam )
1.
Sử dụng thông tin tiên nghiệm
Thông tin tiên nghiệm có thể từ các công việc thực tế trước
đây trong đó đã xảy ra hiện tượng cộng tuyến nhưng ít nghiêm trọng hoặc từ các
lý thuyết tương ứng trong lĩnh vực nghiên cứu.
2.
Loại trừ một biến giải thích ra khỏi mô hình
Bước
1: Xem cặp biến có quan hệ chặc chẽ. Giả sử X3 và X4 có
tương quan chặc chẽ với nhau.
Bước
2: Tính R2 đối với các hàm hồi quy: có mặt cả 2 biến; không có mặt 1
trong 2 biến.
Bước
3: Loại biến mà giá trị R2 tính được khi không có mặt biến đó lớn
hơn.
VD: R2
của hàm có mặt 2 biến là 0.94; R2 của mô hình không có biến X3 là 0.92; R2
của mô hình không có biến X4
là 0.87 à loại biến X3 ra khỏi
mô hình.
3.
Thu thập thêm số liệu hoặc lấy mẫu mới
Vấn đề đa cộng tuyến là một đặc tính của mẫu, có thể là trong
một mẫu khác, các biến cộng tuyến có thể không nghiêm trọng như trong mẫu đầu
tiên. Vì vậy, tăng cỡ mẫu có thể làm giảm bớt vấn đề cộng tuyến.
HỒI QUY BINARY LOGISTIC
Hồi quy Binary Logistic sử dụng biến phụ thuộc dạng nhị
phân để ước lượng xác suất một sự kiện sẽ xảy ra với những thông tin của biến độc
lập mà ta có được. Khi biến phụ thuộc ở dạng nhị phân ( hai biểu hiện 0 và 1)
thì không thể phân tích với dạng hồi quy thông thường mà phải sử dụng hồi quy
Binary Logistic.
I.
Cách
thức tiến hành phân tích hồi quy Binary Logistic với SPSS
1.
Vào menu Analyze à Regression à Binary Logistic, xuất hiện hộp thoại
sau:
2.
Đưa biến phụ thuộc Y dạng nhị phân vào ô
dependent, và biến độc lập sang khung Covariate.
3.
Chọn phương pháp đưa biến vào (Method)
tương tự như hồi quy tuyến tính thông thường. Tuy nhiên điều kiện căn cứ trên số
thống kê likelihood-ratio (tỷ lệ thích hợp) hay số thống kê Wald.
-
Enter: đưa vào bắt buộc, các biến trong
khối biến độc lập được đưa vào trong một bước.
-
Forward: Conditional là phương pháp đưa
dần vào theo điều kiện. Nó kiểm tra việc loại biến căn cứ trên xác suất của số
thống kê Likelihood-ratio dựa trên những ước lượng thông số có điều kiện.
-
Forward: LR là phương pháp đưa dần vào
kiểm tra việc loại biến căn cứ trên xác suất của số thống kê Likelihood-ratio dựa
trên ước lượng khả năng xảy ra tối đa (maximum-likelihood estimates).
-
Forward: Wald là phương pháp đưa dần vào
kiểm tra việc loại biến căn cứ trên xác suất của số thống kê Wald.
-
Backward: Conditional là phương pháp loại
trừ dần theo điều kiện. Nó kiểm tra việc loại biến căn cứ trên xác suất của số
thống kê Likelihood-ratio dựa trên những ước lượng thông số có điều kiện.
-
Backward: LR là phương pháp loại trừ dần
vào kiểm tra việc loại biến căn cứ trên xác suất của số thống kê
Likelihood-ratio dựa trên ước lượng khả năng xảy ra tối đa.
-
Backward: Wald là phương pháp đưa dần
vào kiểm tra việc loại biến căn cứ trên xác suất của số thống kê Wald.
-
Stepwise: hồi quy từng bước, số thống kê
được sử dụng cho các biến được đưa vào và loại ra căn cứ trên số thống kê
Likelihood-ratio, hay số thống kê Wald.
4.
Để hiện đồ thị phân loại giá trị thật và
giá trị dự báo của biến phụ thuộc, chọn Option, chọn Classification plots trong
phần Statistics and plots. Click Continue trở về hộp thoại đầu tiên.
5.
Muốn tính được giá trị dự đoán, là xác
suất mà một đối tượng sẽ … (biến phụ thuộc Y), ta chọn Predict value trong hộp
thoại Save. Chọn Continue à
Ok để thực hiện lệnh.
II.
Cách
thức đọc kết quả phân tích hồi quy Binary Logistic
Ví
dụ: sử dụng phương pháp đưa biến vào mặc định là Enter. Phân tích mức độ ảnh hưởng
của sự hài lòng về 4 dịch vụ đến mức độ hài lòng chung về điểm đến khi đi du lịch
của du khách.
Y:
mức độ hài lòng chung về điểm đến (0: không hài lòng, 1: hài lòng)
X1
à X4: mức độ hài
lòng về 4 dịch vụ (tương tự như phần hồi quy tuyến tính)
Thực
hiện các bước trên để tiến hành phân tích. Kết quả xuất hiện với rất nhiều bảng.
Ta sẽ chú ý phân tích các bảng sau:
Bảng 1. Omnibus Tests of Model Coefficients
|
||||
Chi-square
|
df
|
Sig.
|
||
Step 1
|
Step
|
178.459
|
4
|
.000
|
Block
|
178.459
|
4
|
.000
|
|
Model
|
178.459
|
4
|
.000
|
Ở
bảng 1, ta đọc kết quả kiểm định H0: b1 = b2 = … = bk = 0. Kiểm định
này xem xét khả năng giải thích biến phụ thuộc của tổ hợp biến độc lập.
Kết
quả ở bảng 1 cho thấy độ phù hợp tổng quát có mức ý nghĩa quan sát sig. = 0,000
nên ta bác bỏ H0. Nghĩa là tổ hợp liên hệ tuyến tính của toàn bộ các
hệ số trong mô hình có ý nghĩa trong việc giải thích cho biến phụ thuộc.
Bảng 2. Model Summary
|
|||
Step
|
-2 Log likelihood
|
Cox &
|
|
1
|
26.793a
|
.595
|
.769
|
a.
Estimation terminated at iteration number 6 because parameter estimates
changed by less than .001.
|
Bảng 2 thể hiện kết quả độ phù hợp của
mô hình. Khác với hồi quy tuyến tính thông thường hệ số R2 càng lớn
thì mô hình càng phù hợp, hồi quy Binary Logistic sử dụng chỉ tiêu -2LL (-2 log
likelihood) để đánh giá độ phù hợp của mô hình. -2LL càng nhỏ càng thể hiện độ
phù hợp cao. Giá trị nhỏ nhất của -2LL là 0 (tức là không có sai số) khi đó mô
hình có độ phù hợp hoàn hảo.
Kết quả bảng 2 cho thấy giá trị của -2LL
= 26,472 không cao lắm, như vậy nó thể hiện một độ phù hợp khá tốt của mô hình
tổng thể.
Bảng 3. Classification Tablea
|
|||||
Observed
|
Predicted
|
||||
Satisfied dummy
|
Percentage Correct
|
||||
Dissatisfied
|
Satisfied
|
||||
Step 1
|
Satisfied
dummy
|
Dissatisfied
|
51
|
49
|
51.0
|
Satisfied
|
22
|
389
|
94.6
|
||
Overall
Percentage
|
86.1
|
||||
a. The
cut value is .500
|
Mức độ chính xác cũng được thể hiện ở
bảng 3, bảng này cho thấy trong 73 trường hợp không hài lòng về điểm đến (xem
theo cột) mô hình đã dự đoán đúng 49 trường hợp (xem theo hàng), vậy tỷ lệ đúng
là 51%. Còn với 438 trường hợp hài lòng về điểm đến, mô hình dự đoán sai 22 trường
hợp, tỷ lệ đúng là 94,6%. Từ đó ta tính được tỷ lệ dự đoán đúng của toàn bộ mô
hình là 86,1%.
Bảng 4. Variables in the Equation
|
|||||||
B
|
S.E.
|
Wald
|
df
|
Sig.
|
Exp(B)
|
||
Step 1a
|
Satisfied
with Accom
|
1.567
|
.255
|
37.812
|
1
|
.000
|
4.794
|
Satisfied
with Food
|
.435
|
.249
|
3.051
|
1
|
.031
|
1.546
|
|
Satisfied
with Shopping
|
.672
|
.222
|
9.164
|
1
|
.002
|
1.959
|
|
Satisfied
with Transp
|
.918
|
.228
|
16.273
|
1
|
.000
|
2.505
|
|
Constant
|
-11.737
|
1.347
|
75.891
|
1
|
.000
|
.000
|
|
a.
Variable(s) entered on step 1: Q3.2.a, Q3.2.f, Q3.2.s, Q3.2.t.
|
Bảng 4 thể hiện kết quả của kiểm định
Wald (kiểm định giả thuyết hồi quy khác không). Nếu hệ số hồi quy B0
và B1 đều bằng 0 thì tỷ lệ chênh lệch giữa các xác suất sẽ bằng 1, tức
xác suất để sự kiện xảy ra hay không xảy ra như nhau, lúc đó mô hình hồi quy
không có tác dụng dự đoán.
Đối với hồi quy tuyến tính sử dụng
kiểm định t để kiểm định giả thuyết H0: bk=0.
Còn đối với hồi quy Binary Logistic, đại lượng Wald Chi Square được sử dụng để
kiểm định ý nghĩa thống kê của hệ số hồi quy tổng thể.
Kết quả bảng 4 cho thấy mức độ hài
lòng về 4 dịch vụ có giá trị p (sig.) nhỏ hơn mức ý nghĩa a = 0,05
à bác bỏ
H0. Như vậy các hệ số hồi quy tìm được có ý nghĩa và mô hình được sử
dụng tốt.
Từ các hệ số hồi quy này ta viết được
phương trình:
Diễn giải ý nghĩa của các hệ số hồi
quy Binary Logistic như sau:
Mức độ hài lòng về 4 dịch vụ đều làm
tăng mức độ hài lòng chung về điểm đến , trong đó hài lòng về DV lưu trú tác động
mạnh nhất. Cụ thể tác động biên của mức độ hài lòng về DV lưu trú lên mức độ
hài lòng chung với xác suất ban đầu = 0,5 thì tác động này bằng 0,5(1-0,5)1,57
= 0,3925.
VẬN DỤNG MÔ
HÌNH HỒI QUY BINARY LOGISTIC CHO MỤC ĐÍCH DỰ BÁO
Mô
hình hồi quy Binary Logistic có thể được áp dụng để dự báo khả năng trả nợ khi
đối tượng đi vay hay dự báo nhu cầu sử dụng một sản phẩm cụ thể nào đó. Ta sử dụng
công thức sau:

CÁCH THỨC TIẾN HÀNH PHÂN TÍCH NHÂN
TỐ
1.
Từ menu Analyze à Data Reduction à Factor
2.
Xuất hiện hộp thoại sau:
3.
Chọn tất cả các biến cần gom nhóm vào ô
Variables.
4.
Click chọn ô Descriptives…, xuất hiện hộp
thoại sau:
-
Chọn các tham số thống kê mô tả.
-
Chọn tính các ma trận hệ số tương quan.
-
Chọn kiểm định Bartlett . Trong phân tích nhân tố, cần kiểm định
mối tương quan của các biến với nhau (H0: các biến không có tương
quan với nhau trong tổng thể). Nếu giả thuyết H0 không được bác bỏ
thì phân tích nhân tố có khả năng không thích hợp.
-
Click continue để trở lại hộp thoại
Factor analysis
5.
Click chọn ô Extraction để mở hộp thoại
sau:
-
Chọn phương pháp rút trích nhân tố,
phương pháp mặc định là rút các thành phần chính – Principal components.
-
Phân tích ma trận tương quan hay hiệp
phương sai ở ô Analyze.
-
Thể hiện phương án nhân tố chưa xoay và
vẽ biểu đồ dốc ở ô Display.
-
Xác định tiêu chuẩn rút trích nhân tố
hay số lượng nhân tố cần rút trích.
Có
2 cách để xác định tiêu chuẩn này ở ô Extract:
·
Xác định từ trước dựa vào ý đồ của nhà
nghiên cứu và kết quả của các cuộc nghiên cứu trước. Nhà nghiên cứu xác định số
nhân tố ở ô Number of factors.
·
Xác định dựa vào Eigenvalue
(Determination based on eigenvalue. Chỉ có những nhân tố nào lớn hơn 1 mới được
giữ lại trong mô hình phân tích.
-
Click Continue để trở lại hộp thoại
Factor Analysis.
6.
Click chọn ô Rotation (Xoay nhân tố) để
mở hộp thoại sau:
Xoay
nhân tố là thủ tục giúp ma trận nhân tố trở nên đơn giản và dễ giải thích hơn.
Có nhiều phương pháp xoay khác nhau trong đó được sử dụng
rộng rãi nhất là Varimax procedure
(xoay nguyên góc các nhân tố để tối thiểu hoá số lượng biến có hệ số lớn tại
cùng một nhân tố, vì vậy sẽ tăng cường khả năng giải thích các nhân tố).
Click Continue để trở lại hộp thoại chính.
7.
Click chọn ô Factor Score để tính điểm
các nhân tố
Nếu
nhà nghiên cứu muốn xác định tập hợp nhân tố ít hơn để sử dụng trong các phương
pháp phân tích đa biến tiếp theo (phân tích ANOVA, hồi quy…), ta có thể tính
toán ra các nhân số (trị số của các biến tổng hợp) cho từng trường hợp quan sát
một. Nhân số của nhân tố thứ i bằng:
Fi
= Wi1X1 + Wi2X2 + Wi3X3
+ … + WikXk
Máy tính sẽ tính các nhân số này và tự động save vào file
dữ liệu những biến mới này.
-
Mặc định của chương trình là phương pháp
tính nhân số Regression (theo đơn vị đo lường độ lệch chuẩn).
-
Chọn thể hiện bảng trọng số nhân tố bằng
cách click vào ô Display factor …
-
Click Continue để trở lại hộp thoại ban
đầu à click Ok để thực
hiện lệnh.
ĐỌC
KẾT QUẢ CỦA VÍ DỤ SAU
VD: xác định nhân tố ảnh
hưởng đến quyết định chọn nhà trọ của sinh viên khoa công nghệ trường Đại học Cần
thơ.
Bảng 1. Descriptive Statistics
|
|||||||||||||||
Mean
|
Std. Deviation
|
Analysis N
|
|||||||||||||
gia ca
|
3.91
|
1.065
|
43
|
||||||||||||
ve sinh
|
4.05
|
.950
|
43
|
||||||||||||
an ninh
|
4.35
|
.948
|
43
|
||||||||||||
moi truong song
|
4.09
|
.811
|
43
|
||||||||||||
gan truong
|
3.60
|
1.072
|
43
|
||||||||||||
gan khu vui choi, giai tri
|
3.28
|
1.161
|
43
|
||||||||||||
phong co gac lung
|
3.33
|
.993
|
43
|
||||||||||||
co nha ve sinh trong phong
|
3.67
|
1.063
|
43
|
||||||||||||
noi qui
|
3.79
|
.940
|
43
|
||||||||||||
dien, nuoc
|
4.16
|
.871
|
43
|
||||||||||||
Bảng 2. Correlation Matrix
|
|||||||||||||||
Correlation
|
|||||||||||||||
gia ca
|
ve sinh
|
an ninh
|
moi truong song
|
gan truong
|
gan khu vui choi, giai tri
|
phong co gac lung
|
co nha ve sinh trong phong
|
noi qui
|
dien, nuoc
|
||||||
gia ca
|
1.000
|
.522
|
.528
|
.313
|
.238
|
.291
|
.209
|
.288
|
.123
|
.402
|
|||||
ve sinh
|
.522
|
1.000
|
.801
|
.581
|
.392
|
.096
|
.337
|
.298
|
.198
|
.393
|
|||||
an ninh
|
.528
|
.801
|
1.000
|
.607
|
.303
|
.191
|
.129
|
.281
|
.378
|
.535
|
|||||
moi truong song
|
.313
|
.581
|
.607
|
1.000
|
.372
|
.174
|
.021
|
.257
|
.307
|
.315
|
|||||
gan truong
|
.238
|
.392
|
.303
|
.372
|
1.000
|
.569
|
.325
|
.219
|
.034
|
.275
|
|||||
gan khu vui choi, giai tri
|
.291
|
.096
|
.191
|
.174
|
.569
|
1.000
|
.270
|
.365
|
.142
|
.401
|
|||||
phong co gac lung
|
.209
|
.337
|
.129
|
.021
|
.325
|
.270
|
1.000
|
.238
|
.049
|
.130
|
|||||
co nha ve sinh trong phong
|
.288
|
.298
|
.281
|
.257
|
.219
|
.365
|
.238
|
1.000
|
.478
|
.470
|
|||||
noi qui
|
.123
|
.198
|
.378
|
.307
|
.034
|
.142
|
.049
|
.478
|
1.000
|
.479
|
|||||
dien, nuoc
|
.402
|
.393
|
.535
|
.315
|
.275
|
.401
|
.130
|
.470
|
.479
|
1.000
|
|||||
Bảng
1 thể hiện đại lượng thống kê mô tả.
Bảng
2 thể hiện ma trận tương quan giữa các biến. Ta thấy hệ số tương quan giữa các
biến trong ma trận này tương đối cao.
Bảng 3 thể hiện kết quả của kiểm định
Barlett. Dựa vào kết quả này ta có thể bác bỏ H0 (Các biến không có
tương quan với nhau). à Phân tích nhân tố là phương pháp phù hợp để phân tích ma trận tương
quan ở bảng 2.
Bảng 3. KMO and
|
||
Kaiser-Meyer-Olkin
Measure of Sampling Adequacy.
|
.714
|
|
Approx.
Chi-Square
|
167.933
|
|
df
|
45
|
|
Sig.
|
.000
|
Bảng 5. Total Variance
Explained
|
|||||||||||
Component
|
|||||||||||
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
||
Initial
Eigenvalues
|
Total
|
3.989
|
1.406
|
1.283
|
.892
|
.760
|
.526
|
.412
|
.324
|
.290
|
.119
|
% of
Variance
|
39.892
|
14.058
|
12.829
|
8.916
|
7.599
|
5.259
|
4.116
|
3.238
|
2.903
|
1.191
|
|
Cumulative
%
|
39.892
|
53.949
|
66.778
|
75.694
|
83.293
|
88.552
|
92.668
|
9.591E1
|
98.809
|
1.000E2
|
|
Extraction
Sums of Squared Loadings
|
Total
|
3.989
|
1.406
|
1.283
|
|||||||
% of
Variance
|
39.892
|
14.058
|
12.829
|
||||||||
Cumulative
%
|
39.892
|
53.949
|
66.778
|
||||||||
Rotation
Sums of Squared Loadings
|
Total
|
2.776
|
2.006
|
1.896
|
|||||||
% of
Variance
|
27.758
|
20.056
|
18.965
|
||||||||
Cumulative %
|
27.758
|
47.814
|
66.778
|
||||||||
Extraction Method:
Principal Component Analysis.
|
Dựa vào bảng 5 và theo tiêu chuẩn
eigenvalue lớn hơn 1 thì chỉ có 3 nhân tố được rút trích ra. Giá trị Cumulative
% cho biết 3 nhân tố đầu giải thích 66.78% biến thiên của dữ liệu.
Bảng số 4 (bảng Cummunalities) cho
biết thông tin về phần biến thiên được giải thích bởi các nhân tố chung.
Bảng số 6 là bảng thể hiện các nhân
tố chưa xoay. Để dễ dàng giải thích các nhân tố hơn ta sử dụng bảng số 7 để đọc
kết quả.
Bảng 6. Component Matrixa
|
|||
Component
|
|||
1
|
2
|
3
|
|
gia ca
|
.647
|
-.039
|
-.221
|
ve sinh
|
.781
|
-.245
|
-.419
|
an ninh
|
.814
|
-.379
|
-.205
|
moi
truong song
|
.667
|
-.324
|
-.206
|
gan
truong
|
.573
|
.527
|
-.268
|
gan khu
vui choi, giai tri
|
.514
|
.661
|
.179
|
phong
co gac lung
|
.369
|
.529
|
-.184
|
co nha
ve sinh trong phong
|
.601
|
.127
|
.525
|
noi qui
|
.498
|
-.288
|
.651
|
dien,
nuoc
|
.718
|
-.040
|
.369
|
Extraction
Method: Principal Component Analysis.
|
|||
a. 3
components extracted.
|
Bảng 7. Rotated Component Matrixa
|
|||
Component
|
|||
1
|
2
|
3
|
|
gia ca
(1)
|
.604
|
.149
|
.286
|
ve sinh
(2)
|
.896
|
.069
|
.198
|
an ninh
(3)
|
.875
|
.280
|
.056
|
moi
truong song (4)
|
.743
|
.198
|
.041
|
gan
truong (5)
|
.312
|
.020
|
.762
|
gan khu
vui choi, giai tri (6)
|
-.015
|
.358
|
.778
|
phong
co gac lung (7)
|
.119
|
-.014
|
.660
|
co nha
ve sinh trong phong (8)
|
.124
|
.746
|
.285
|
noi qui
(9)
|
.176
|
.838
|
-.148
|
dien,
nuoc (10)
|
.364
|
.689
|
.215
|
Dựa vào bảng số 7 ta thấy biến 1,2,3,4
có tương quan mạnh với nhau và thuộc nhân tố thứ 1. Tương tự nhân tố 2 bao gồm
các biến 8,9,10. Các biến 5,6,7 là các biến giải thích cho nhân tố 3.
Dựa vào những điểm giống nhau (thể
hiện tính chung) của biến nằm trong nhân tố và những nghiên cứu trước nhà
nghiên cứu sẽ đặt tên cho những nhân tố này.
VD: nhóm 1 là nhân tố an toàn; nhóm
2 là nhân tố điều kiện sinh hoạt; nhóm 3 là nhân tố vị trí thuận lợi.
Bảng 8. Component Transformation Matrix
|
|||||||
Component
|
1
|
2
|
3
|
||||
1
|
.736
|
.516
|
.437
|
||||
2
|
-.461
|
-.090
|
.883
|
||||
3
|
-.495
|
.852
|
-.171
|
||||
Extraction
Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
|
|||||||
Bảng 9. Component Score Coefficient Matrix
|
|||||||
Component
|
|||||||
1
|
2
|
3
|
|||||
gia ca
|
.218
|
-.060
|
.076
|
||||
ve sinh
|
.386
|
-.161
|
-.012
|
||||
an ninh
|
.354
|
-.006
|
-.122
|
||||
moi
truong song
|
.309
|
-.030
|
-.103
|
||||
gan
truong
|
.036
|
-.138
|
.430
|
||||
gan khu
vui choi, giai tri
|
-.191
|
.143
|
.448
|
||||
phong
co gac lung
|
-.034
|
-.108
|
.397
|
||||
co nha
ve sinh trong phong
|
-.134
|
.418
|
.076
|
||||
noi qui
|
-.065
|
.515
|
-.213
|
||||
dien,
nuoc
|
.003
|
.341
|
.004
|
||||
Extraction
Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Scores.
|
|||||||
Bảng 10. Component Score Covariance Matrix
|
|||||||
Component
|
1
|
2
|
3
|
||||
1
|
1.000
|
.000
|
.000
|
||||
2
|
.000
|
1.000
|
.000
|
||||
3
|
.000
|
.000
|
1.000
|
||||
Extraction
Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
Component Scores.
|
|||||||
Dựa
vào bảng 8, 9 và 10 ta xác định nhân số như sau:
F1 = 0.218*giá cả + 0.386*vệ sinh + 0.354*an ninh +
0.309*môi trường sống
F2 = 0.418*có nhà vệ sinh trong phòng + 0.515*nội quy +
0.341*điện nước
F3 = 0.430*gần trường + 0.448*gần khu vui chơi + 0.397*có
gác lửng
XỬ LÝ CÂU HỎI NHIỀU
LỰA CHỌN
1.
MÃ HOÁ
Trong quá trình nghiên cứu, có những câu hỏi cho phép người
trả lời chọn nhiều hơn 1 lựa chọn. Ví dụ: câu hỏi về tiền sử phẫu thuật, bệnh
nhân có thể cùng một lúc có nhiều phẩu thuật trước đây. Đây được gọi là câu hỏi
nhiều lựa chọn.
Số thứ tự
|
Tên phẫu thuật
|
Đánh dấu và ghi chú (nếu có)
|
1.
|
Cắt
viêm ruột thừa
|
|
2.
|
Mổ
lấy thai
|
|
3.
|
Cắt
tử cung
|
|
4.
|
Phẫu
thuật u buồng trứng
|
|
5.
|
Viêm
túi mật
|
|
6.
|
Phẫu
thuật khác
|
Đối với câu hỏi nhiều lựa chọn, mỗi một lựa chọn sẽ được mã
hoá thành 1 biến. Theo ví dụ trên ta sẽ mã hoá thành 6 biến.
Cách thức khai báo Value: có 2 cách thức
-
Cách 1: dùng dạng câu hỏi
phân đôi Có – Không (Dạng biến Dichotomy)
-
Cách 2: dùng chính số
thứ tự của biến để mã hoá. Nếu bệnh nhân nào có tiền sử cắt viêm ruột thừa sẽ
nhập vào số 1, có tiền sử mổ lấy thai sẽ nhập vào số 2. (Dạng biến Category)
2.
CÁCH THỨC XỬ LÝ
Đối với câu hỏi nhiều lựa chọn, khi cần phân tích tần số
chúng ta không sử dụng công cụ thống kê mô tả tính Frequency thông thường. Công
cụ dùng xử lý câu hỏi nhiều lựa chọn là Multiple
Response.
2.1.
Định dạng biến tổng hợp
1. Từ menu Analyze à Multiple Response à Define Variable Sets… để mở hộp thoại sau:
2. Chọn tất cả các biến thuộc câu nhiều lựa chọn đưa vào khung
Variables in Set.
3. Khai báo cách mã hoá ở khung Variables Are Coded As:
-
Nếu dùng cách mã hoá 1:
dùng dạng câu hỏi phân đôi Có – Không, ta sẽ khai báo biến ở dòng Dichotomies.
Và sẽ đếm giá trị “Có” ở ô Counted
value. Đối với ví dụ trên, do ta khai báo 1. Không, 2. Có, nên ở ô này ta sẽ nhập
giá trị cần đếm là “2”
-
Nếu dùng cách mã hoá 2,
ta sẽ khai báo ở dòng Categories, và đếm các số thứ tự của biến. Trong ví dụ
trên có 6 biến, ta sẽ đếm từ giá trị 1 đến 6 tại ô Range: 1 through: 6.
4. Khai báo tên và nhãn biến ở khung Name và Label.
5. Click vào Add để xác nhận biến tổng hợp đã được tạo à Click chọn Close để hoàn tất quá trình định dạng biến tổng hợp.
2.2.
Phân tích tần số (Frequency)
1. Từ menu Analyze à Multiple Response à Frequency, xuất hiện hộp thoại sau:
2. Đưa biến tổng hợp vừa tạo ở phần trên vào ô Tables for à Click chọn Ok để hoàn tất thao tác.
3. Kết quả hiện ra ở cửa sổ Output như sau:
$TSPHAUTHUATTH Frequencies
|
||||
Responses
|
Percent of Cases
|
|||
N
|
Percent
|
|||
TIEN SU
PHAU THUAT TONG HOPa
|
tien su cat viem ruot thua
|
38
|
69.1%
|
76.0%
|
tien su mo lay thai
|
3
|
5.5%
|
6.0%
|
|
tien su mo cat tu cung
|
2
|
3.6%
|
4.0%
|
|
tien su
phau thuat u buong trung
|
3
|
5.5%
|
6.0%
|
|
ts mo
do benh khac
|
9
|
16.4%
|
18.0%
|
|
Total
|
55
|
100.0%
|
110.0%
|
|
a.
Dichotomy group tabulated at value 2.
|
-
Percent
of Cases: phần trăm trên tổng số bệnh nhân được quan sát (50 bệnh nhân)
-
Percent
of Responses: phần trăm trên tổng sự trả lời (vì mỗi bệnh nhân có thể có nhiều
tiền sử phẩu thuật nên tổng sự trả lời = 55 > cỡ mẫu quan sát = 50)
MÃ HOÁ LẠI BIẾN
Trong quá trình phân tích dữ liệu người làm nghiên cứu đôi
khi sẽ phải mã hoá lại biến để sử dụng cho nhiều mục đích khác nhau, và trường
hợp đơn cử nhất là:
Khi nhà nghiên cứu muốn chuyển một biến định lượng (thang đo
tỷ lệ) sang một biến định tính (thang đo biểu danh hay thứ tự).
Ví dụ: Khi thu thập thông tin về độ tuổi của bệnh nhân, chúng
ta sử dụng thang đo tỷ lệ (dùng chính xác số tuổi của bệnh nhân: 52, 67, hay 81
tuổi…). Đến khi xử lý số liệu, nhà nghiên cứu lại muốn sử dụng nhóm tuổi để
phân tích và viết báo cáo:
1.
< 30 tuổi
2.
30 – 39 tuổi
3.
40 – 49 tuổi
4.
50 – 59 tuổi
5.
≥ 60 tuổi
Quy trình mã hoá lại biến như sau:
1. Vào menu Transform à Recode into Different
Variables…
Nếu chúng ta chọn Recode into Same Variables… thì biến cũ (số
tuổi chính xác) sẽ mất đi và được thay thế bằng một biến mới với các biểu hiện
mới (là nhóm tuổi).
Thông thường ta sẽ chọn Recode
into Different Variables… để tạo ra biến mới mà vẫn giữ lại biến cũ.
2. Xuất hiện hộp thoại sau:
3. Đưa biến cần mã hoá lại từ khung chứa bộ biến sang khung
Numeric Variable -> Output Variable.
4. Tại khung Output Variable, khai báo tên và nhãn cho biến mới à Click chọn Change để thực hiện thay biến.
5. Tiếp tục thay đổi giá trị của biến bằng cách click chọn Old
and New Values…, mở hộp thoại sau:
6. Ta lần lượt khai báo giá trị cũ bên tay trái (Old Value)
thành giá trị mới bên tay phải (New Value) à Click chọn Add sau mỗi lần
khai báo. Với giá trị cũ có các dạng sau đây:
-
Value: từng giá trị cũ rời rạc
-
System-missing: giá trị khuyết hệ thống
-
System or user missing: giá trị khuyết của hệ thống hoặc do
người sử dụng định nghĩa
-
Range: một khoảng giá trị (từ … đến … / range: … through: …)
-
Range, LOWEST through value: một khoảng giá trị từ giá trị nhỏ
nhất đến một giá trị được nhập vào
-
Range, value through HIGHEST: một khoảng giá trị từ giá trị
nhập vào đến giá trị lớn nhất
7. Chọn Continue trở về hộp thoại trước, và chọn OK để hoàn tất
kệnh.
8. Khai báo value cho biến vừa tạo tại ô Value của cửa sổ
Variable View như hình sau:
9. Tiếp tục thực hiện các phép thống kê mô tả hay kiểm định dựa
trên biến mới vừa tạo nhằm phục vụ cho mục tiêu nghiên cứu.
CÁCH TÍNH TOÁN GIÁ TRỊ BIẾN MỚI TỪ
BIẾN CÓ SẴN
Có thể sử dụng SPSS để cộng, trừ, nhân chia các biến đã
có sẵn để trở thành 1 biến mới (thủ tục TransformàCompute).
Tuy nhiên biến mới được tính toán này không tự động thay đổi nếu ta thay đổi
các biến thành phần như công cụ tính toán trong Excel. Vì vậy, thủ tục tính
toán này thường được tiến hành sau khi đã chỉnh lý dữ liệu.
Thủ tục tính toán này được sử dụng khá nhiều trong phân
tích số liệu. Đặc biệt đối với những đề tài có sử dụng phân tích nhân tố để gom
nhóm.
Sau khi tiến hành gom nhóm các yếu tố có cùng tính chất,
ta sẽ tính toán giá trị của nhóm bằng thủ tục Compute này.
Ví dụ: kết quả sau khi tiến hành phân tích nhân tố như
sau
Với
N1, N2, N3 là ký hiệu mã hoá cho 3 nhóm được
gom từ 12 biến đánh giá chất lượng dịch vụ.
Nếu những bước tiếp theo của đề tài cần thực hiện kiểm định
t, ANOVA hay phân tích hồi quy liên quan đến các tiêu chí đánh giá chất lượng dịch
vụ này, chúng ta sẽ không dùng 12 biến để thực hiện mà dùng nhóm lớn (3 nhóm).
Để tính được giá trị cho các nhóm lớn (bằng trị trung
bình của các biến trong nhóm) nhằm phục vụ cho mục đích kiểm định t, ANOVA hay
phân tích hồi quy, chúng ta sẽ thao tác trong SPSS theo trình tự như sau
6. Mã hoá biến mới (nhóm lớn)
Đối
với ví dụ trên, sau khi phân tích nhân tố ta có được 3 nhóm, vậy ta sẽ tiến
hành mã hoá 3 biến mới (đại diện cho 3 nhóm) trong bộ số liệu đã có tại cửa sổ
Variable View.
7. Tiến hành tính toán cho nhóm
Vào
menu Transform à
Compute Variables, xuất hiện hộp thoại sau:
Tại
ô Target Variable, ta nhập vào tên biến mới sẽ chứa giá trị tính toán (tên biến
của nhóm). Chú ý cần nhập đúng tên đã khai báo ở bước 1.
Tại
ô Numberic Expression, ta nhập công thức tính toán cho biến mới. Trong ví dụ
trên, nhóm 1 gồm 5 biến 5.1, 5.6, 5.7, 5.8 và 5.9. Như vậy biến mới (N1) sẽ bằng
trung bình của 5 biến.
Cách
nhập công thức tại ô này như sau: ta chọn biến từ khung chứa các biến rồi dùng
dấu mũi tên đưa biến vào ô công thức, và sử dụng các phím công cụ cho phép tính
trong cửa sổ này hoặc trên bàn phím máy vi tính.
Sau
đó chọn nút OK để hoàn tất lệnh, một hộp thoại xuất hiện để xác định quá trình
tính toán biến, ta tiếp tục chọn OK. Đến đây thao tác tính toán biến đã hoàn
thành.
Trong ví dụ này, ta tính trị trung
bình. Thao tác tương tự nếu chúng ta cần các phép tính nhân, chia, hiệu số, hay
kết hợp nhiều phép tính.
Kết
quả sau khi compute sẽ thể hiện rõ tại cửa sổ Data View. Lệnh compute đã giúp ta tính toán được nhóm lớn (3 nhóm)
cho từng quan sát (từng đối tượng nghiên cứu một)
Chúng ta có thể thực hiện
lệnh thống kê mô tả (tính trị trung bình của các nhóm trên tổng mẫu quan sát –
kết quả 2 cột cuối cùng ở VD trang 1), kiểm định t, ANOVA hay phân tích hồi quy
(đối với nhà nghiên cứu thuộc trường phái đồng ý trị trung bình làm biến độc lập
X) trên 3 biến N1, N2, và N3 này.
************************
CHÚC THÀNH CÔNG ************************
Bình Luận
0 Bình luận "HƯỚNG DẪN THỰC HÀNH SPSS"