데이터 분석: 군집 분석과 PCA 시각화 실습 정리
오늘은 비지도 학습 중 대표적인 기법인 군집 분석의 전 과정을 학습했다. 단순히 데이터를 나누는 것에 그치지 않고, 최적의 군집 수를 결정하고 시각화하여 분석하는 법까지 정리했다.
1. 군집 분석
데이터 간의 유사성을 측정하여 특징이 비슷한 데이터끼리 동일한 그룹으로 묶는 비지도 학습 기법을 다뤘다. 정답이 없는 상태에서 데이터 자체의 패턴과 구조를 찾아내는 것이 목적이다.
2. 엘보우 방법
군집의 개수(K)를 설정하는 객관적인 기준에 대해 배웠다.
- 원리: 군집 내 오차 제곱합을 그래프로 그려보고, 팔꿈치처럼 급격하게 꺾이는 지점을 K로 설정했다.
- 결론: K가 늘어날수록 오차는 줄어들지만, 감소 폭이 완만해지는 부분이 가장 효율적인 군집수인 것을 확인했다.
3. 데이터 전처리 실습
K-Means와 같은 거리 기반 알고리즘은 변수의 스케일에 민감하기 때문에 전처리가 필수이다.
- 스케일링: StandardScaler를 활용해 변수 단위를 표준화했다. 이를 통해 특정 변수가 거리에 과도한 영향을 주는 것을 방지했다.
- 정제: 군집 중심점을 왜곡할 수 있는 이상치와 결측치를 사전에 처리했다.
4. 군집 프로파일링
나누어진 군집이 실제로 어떤 의미를 갖는지 해석하는 과정을 거쳤다.
- 분석 방법: 각 군집의 변수별 평균값을 산출하여 전체 평균과 비교했다.
- 결과: 이를 통해 각 그룹의 페르소나를 정의하고, 그룹별 특징에 맞는 비즈니스 인사이트를 도출하는 법을 익혔다.
5. PCA 시각화
고차원 데이터를 2차원 평면에 시각화하기 위해 PCA를 적용했다.
- 차원 축소: 여러 변수의 분산을 최대한 보존하면서 2개의 주성분(PC1, PC2)으로 압축했다.
- 검증: 시각화된 산점도를 통해 군집들이 공간상에서 얼마나 잘 분리되었는지 직관적으로 확인할 수 있었다.
회고 : 전처리부터 PCA 시각화까지 이어지는 일련의 파이프라인을 실습하며, 데이터의 숨겨진 구조를 파악할 수 있었다. 특히 시각화하는 부분이 눈에 확 보여서 그런지 흥미로웠다. 그치만 아직도 혼자는 잘 못 할 것 같다. 어렵다..