본문 바로가기
자료처리

R과 Origin Pro를 이용한 주성분 분석(PCA)

by Prof. Sung-Deuk Choi 2022. 10. 1.

대기오염 분야에서는 요즘 대부분 PMF 모델을 많이 쓰지만, 여전히 주성분 분석(Principal Component Analysis: PCA)을 많이 사용합니다. 저는 PMF보다는 PCA를 선호하는데, 점수그림(score plot)과 적재그림(loading plot)을 그려서 시료 종류, 계절, 위치 등 다양한 조건에 따른 시료의 분포와 이를 결정하는 오염물질 경향(패턴, 프로필)을 종합적으로 파악할 수 있기 때문입니다. 

 

저는 석사과정 중에 PCA를 접했고(2000년으로 기억), 이후 대부분의 연구에서 PCA를 사용했습니다. PCA는 가장 대표적인 다변량 통계기법으로서 그리 어렵지 않게 배우고 논문에 사용할 수 있습니다. 요즘은 대부분의 그래프 프로그램과 통계 프로그램으로 PCA를 돌릴 수 있습니다. 

 

2005~2020년 일평균 미세먼지 주요 성분자료에 대해 R을 이용해서 PCA를 실시했습니다. 

R 기본 내장 함수인 prcomp 함수를 사용했고, 그림을 쉽게 그리기 위해서 ggfortify 패키지를 사용했습니다.

Plotting PCA (Principal Component Analysis) (r-project.org)

 

R로 작성한 PCA 그림

같은 자료를 이용해서 Origin Pro로 PCA를 실시했습니다. R 결과와 비교해서 회전각도와 수치 범위만 조금 다르고 거의 같은 결과가 나왔습니다.  Origin Pro 기본 메뉴의 PCA를 사용하지 않고, PCA 어플을 별도로 설치했습니다. 

Principal Component Analysis - File Exchange - OriginLab

Origin Pro로 작성한 PCA 그림

 

결론

자료량이 비교적 적을 때는 Orgin Pro나 옛날처럼 SPSS 사용해도 충분합니다.

자료량이 많다면, R 을 사용하는 것이 편합니다. R에서 여러 조건으로 PCA를 돌려보고 최적의 조건을 찾은 후에 논문용으로는 Origin Pro나 SPSS로 그림을 그려도 될 것 같습니다.

 

더 중요한 사실

사실 어떤 프로그램을 사용하느냐는 중요하지 않습니다. PCA 결과를 제대로 해석하고 연구에 활용할 수 있는 능력이 중요합니다. 스스로 다변량통계 기초 이론도 공부하고 본인의 연구자료를 활용해서 그림을 그리고 해석해야 합니다. 

댓글