본문 바로가기
자료처리

SPSS 통계 소프트웨어 주성분 분석

by Prof. Sung-Deuk Choi 2024. 7. 1.

SPSS를 생략하면 섭섭할 것 같아서 추가합니다. 

 

입력자료 준비

전체 65개 시료(산불 재, 토양, 나무 껍질)의 16종 PAHs 농도(ng/g) 자료(다변량 통계 자료)를 사용했습니다. 16종 중에서 불검출 비율이 높은 물질을 제외하고 10개의 PAHs 농도만 추렸습니다. 그리고 10개 농도를 합하여 시료별 총 농도를 계산하고, 개별 물질의 비율을 산정했습니다. 이 자료가 아래 스프레드시트에 보이는 자료입니다. 행별로 숫자를 합치면 1이 됩니다. 이와 같이, 시료별로 표준화된 프로필을 작성해서 PCA에 사용합니다. 이렇게 해야 시료별 오염 특성에 따라 점수그림(score plot)에서 그룹화 되는 시료들을 해석하기 편합니다. 단위가 다른 경우에는 별도의 표준화 없이 그대로 입력자료로 사용하면 됩니다. 

 

PCA 절차

Analyze → Dimention Reduction → Factor를 선택합니다.

 

변수(PAH 개별 물질)를 오른쪽으로 이동합니다.

 

아래 그림대로 옵션을 선택하면 됩니다. 상세한 옵션 설명은 매뉴얼을 찾아 보세요. 

 

추출방법은 주성분입니다. 요인분석(factor analysis)의 기본 추출법으로 주성분이 설정되어 있어서 많은 비판을 받는 부분이기도 합니다. 

 

회전방법으로 None을 선택하거나 Varimax를 선택하면 됩니다. 주성분 분석을 하면 주성분들이 이미 직교 상태이므로 추가적으로 직교회전할 필요는 없습니다. 워낙 예전부터 SPSS를 이용한 주성분 분석 예제에서 Varimax를 설정했기 때문에 회전을 선택하는 경우가 많습니다. JASP와 jamovi 등 SPSS를 대체하고자 하는 소프트웨어를 제외하면 대부분 회전하지 않습니다.  Varimax를 선택하여 조금 더 회전을 하더라도 시료 위치는 변하지만 그룹화는 변화가 없어서 PCA 결과해석에는 차이가 없습니다.   

 

회전 옵션 선택 이후에 아래와 같이 쭉 선택합니다.

 

 

PCA 결과

최종 PCA 결과 화면입니다.

 

가장 마지막 열에 PC1과 PC2 점수가 추가되었습니다. 

 

이 두 열을 이용해서 메뉴의 Chat Builder로 점수그림을 그립니다.

 

아래와 같이 산포도가 나왔습니다. 일부 학생들이 SPSS 그림을 그대로 논문에 쓰는데, 수준 낮아 보이므로 다른 프로그램으로 제대로 그리세요. 

 

 

SPSS로 PCA를 하려면 다른 통계 소프트웨어에 비해 클릭할 것이 너무 많습니다. 그럼에도 불구하고 통계 초보들은 하나하나 클릭해 보면서 다변량 통계에 차근차근 입문할 수 있습니다. 

댓글