대기오염 분야에서는 요즘 대부분 PMF 모델을 많이 쓰지만, 여전히 주성분 분석(Principal Component Analysis: PCA)을 많이 사용합니다. 저는 PMF보다는 PCA를 선호하는데, 점수그림(score plot)과 적재그림(loading plot)을 그려서 시료 종류, 계절, 위치 등 다양한 조건에 따른 시료의 분포와 이를 결정하는 오염물질 경향(패턴, 프로필)을 종합적으로 파악할 수 있기 때문입니다.
저는 석사과정 중에 PCA를 접했고(2000년으로 기억), 이후 대부분의 연구에서 PCA를 사용했습니다. PCA는 가장 대표적인 다변량 통계기법으로서 그리 어렵지 않게 배우고 논문에 사용할 수 있습니다. 요즘은 대부분의 그래프 프로그램과 통계 프로그램으로 PCA를 돌릴 수 있습니다.
2005~2020년 일평균 미세먼지 주요 성분자료에 대해 R을 이용해서 PCA를 실시했습니다.
R 기본 내장 함수인 prcomp 함수를 사용했고, 그림을 쉽게 그리기 위해서 ggfortify 패키지를 사용했습니다.
Plotting PCA (Principal Component Analysis) (r-project.org)
같은 자료를 이용해서 Origin Pro로 PCA를 실시했습니다. R 결과와 비교해서 회전각도와 수치 범위만 조금 다르고 거의 같은 결과가 나왔습니다. Origin Pro 기본 메뉴의 PCA를 사용하지 않고, PCA 어플을 별도로 설치했습니다.
Principal Component Analysis - File Exchange - OriginLab
결론
자료량이 비교적 적을 때는 Orgin Pro나 옛날처럼 SPSS 사용해도 충분합니다.
자료량이 많다면, R 을 사용하는 것이 편합니다. R에서 여러 조건으로 PCA를 돌려보고 최적의 조건을 찾은 후에 논문용으로는 Origin Pro나 SPSS로 그림을 그려도 될 것 같습니다.
더 중요한 사실
사실 어떤 프로그램을 사용하느냐는 중요하지 않습니다. PCA 결과를 제대로 해석하고 연구에 활용할 수 있는 능력이 중요합니다. 스스로 다변량통계 기초 이론도 공부하고 본인의 연구자료를 활용해서 그림을 그리고 해석해야 합니다.
'자료처리' 카테고리의 다른 글
파이썬 기초부터 시작해서 연구에 활용하기 위한 책 소개 (0) | 2022.11.13 |
---|---|
수동대기채취 지점별 시료채취율 산정 (0) | 2022.10.18 |
파이퍼 다이어그램(Piper diagram) (0) | 2022.09.17 |
R 패키지 ggThemeAssist로 ggplot2 그래프 쉽게 수정하기 (0) | 2022.09.12 |
파이썬 라이브러리(matplotlib) 설치 (0) | 2022.04.23 |
댓글