우선 빅 데이터 분석 프로세스는 다음과 같다.

데이터 수집 → 데이터 정제 → 데이터 분석/시각화

 

그렇다면 분석 방법에는 어떤 것들이 있을까?

  1. 1. 통계적 접근(Statistics) : 통계 기법을 활용하여 문제를 풀어내는 방법.

   i.e. http://lululemon.synology.me:2913/2020/03/23/계절성지수-주차별-효과/">계절성지수

2.머신러닝 지도학습(Supervised Learning) : 답에 영향을 주는 특성을 기계에 학습시킨 후 미래의 특성만을 활용하여 답을 예측하는 방법.

   1) 일반 지도학습 : 과거 데이터 100(Test Data) 중 (대과거 70%)(Traing Data)를 분석해 (과거 30%)(답지)에 예측을 학습시켜 정확도를 높인 다음 미래를 예측.

 

   2) 회귀(Regression) : 과거 거래량에 영향을 주는 특성(프로모션, 홀리데이)과의 관계를 학습한 후 미래의 특성값만을 활용하여 거래량 예측. Decision Tree. 트리 무너뜨리기.

 

   3) 분류(Classification) : 데이터의 집단을 분류 시 최적의 분류 선을 생성한 후 미래 데이터에 대해서 기존에 학습한 내용을 바탕으로 예측. SVM. 선 긋고 편 나누기.

 

 

3. 머신러닝 비지도학습(Unsupervised Learning) : 답이 없는 상황에서 주어진 데이터를 특성에 맞게 가장 잘 설명하는 방법.

클러스터링(Clustering) : 데이터를 내부 집단간의 유사성이 높고 외부 집단과는 유사성이 낮도록 분류하는 방법. K-Means Clustering. 편 나누기.


 

 

회기(Regression) 방식과 분류(Classification) 방식의 가장 큰 차이점은?

고객의 과거 실적

2000 VVIP

1500 VIP

회기 → 1750

분류 → VVIP 또는 VIP 둘 중 하나로만 나옴.

정답지가 연속된 숫자 → 회기! 중간값이 있다!

정답지가 카테고리 → 분류! 중간값이 없다!

+ Recent posts