본문 바로가기
자료처리

주요 통계 소프트웨어 주성분 분석(PCA) 방법 소개

by Prof. Sung-Deuk Choi 2024. 6. 28.

다양한 통계 소프트웨어를 이용해서 PCA 방법을 정리했고, 앞으로 이어지는 글을 통해서 결과를 제시할 예정입니다.

 

주성분 분석(PCA)은 2000년대 초반부터 국내 잔류성유기오염물질(POPs) 연구에 널리 사용되기 시작했습니다. 

다이옥신과 PCBs 등은 많은 동질체(congener)가 있기 때문에 시료별 오염특성을 파악하고 비교하기 위해서는 다변량 통계기법을 사용해야 합니다. PAHs도 마찬가지입니다. 예를 들어, 시료 하나만 분석해도 10~20개 성분(변수) 자료가 산출되므로, 이런 많은 변수를 2~3개 주성분으로 축약하여 더 쉽게 오염특성을 평가할 수 있습니다. 

Principal Component Analysis (PCA) 101, using R ❘ by Peter Nistrup ❘ Towards Data Science

 

제가 처음 PCA를 접한 것은 석사 과정(1999~2000) 중이었습니다. 당시 포항공대에서 산업공학을 전공하시던 분을 모시고 PCA 강의를 들었습니다. 박사과정부터 PCA를 사용했고, 지금은 우리 연구실 대부분의 학생들이 논문에 PCA 결과를 추가합니다. 

 

대학원 신입생이 가장 쉽게 통계처리를 배우고 PCA까지 하려면 SPSS를 사용하면 됩니다. 엑셀과 비슷하게 그래픽 유저 인터페이스(GUI)로 통계처리를 할 수 있기 때문입니다.  예전에 비해 인기가 많이 떨어졌지만 여전히 연구와 실무 차원에서 많이 사용되는 소프트웨어입니다. 그래서 우리 연구실에 입학하면 처음에는 SPSS를 배우고 나중에는 SAS, MATLAB, R, 파이썬 등 코드 기반으로 통계처리를 하는 것을 권장합니다. 제 경험상 R을 사용하는 것이 쉬운 편이고, 요즘 연구 추세를 따라가기 좋습니다.

 

한편, 그래프 작성 전문 소프트웨어인 SigmaPlot과 OriginPro도 기초통계부터 다변량 통계까지 주요 기능을 모두 탑재하고 있습니다. 특히, OriginPro는 별도의 PCA 어플이 있어서 점수그림(score plot)과 적재그림(loading plot)을 자동으로 그리는 기능까지 있습니다. SPSS를 배울 기회가 없었고, 다른 통계 패키지도 배우기 싫다면 Origin Pro만으로도 통상적인 환경연구를 위한 통계처리를 하기에 충분합니다. 

Principal Component Analysis - File Exchange - OriginLab

 

Principal Component Analysis - File Exchange - OriginLab

v1.5 12/5/2019 Standardized loading signs and added a sample project file.v1.4 8/23/2019 Updated to make it compatible with Origin 2020.v1.3 3/20/2019 Updated function for 2D Confidence Ellipse.v1.2 2/27/2019 Fixed biplot bug in Origin 2019.v1.1 12/3/2018

www.originlab.com

 

댓글