우선 빅 데이터 분석 프로세스는 다음과 같다.
데이터 수집 → 데이터 정제 → 데이터 분석/시각화
그렇다면 분석 방법에는 어떤 것들이 있을까?
- 1. 통계적 접근(Statistics) : 통계 기법을 활용하여 문제를 풀어내는 방법.
i.e. http://lululemon.synology.me:2913/2020/03/23/계절성지수-주차별-효과/">계절성지수
2.머신러닝 지도학습(Supervised Learning) : 답에 영향을 주는 특성을 기계에 학습시킨 후 미래의 특성만을 활용하여 답을 예측하는 방법.
1) 일반 지도학습 : 과거 데이터 100(Test Data) 중 (대과거 70%)(Traing Data)를 분석해 (과거 30%)(답지)에 예측을 학습시켜 정확도를 높인 다음 미래를 예측.
2) 회귀(Regression) : 과거 거래량에 영향을 주는 특성(프로모션, 홀리데이)과의 관계를 학습한 후 미래의 특성값만을 활용하여 거래량 예측. Decision Tree. 트리 무너뜨리기.
3) 분류(Classification) : 데이터의 집단을 분류 시 최적의 분류 선을 생성한 후 미래 데이터에 대해서 기존에 학습한 내용을 바탕으로 예측. SVM. 선 긋고 편 나누기.
3. 머신러닝 비지도학습(Unsupervised Learning) : 답이 없는 상황에서 주어진 데이터를 특성에 맞게 가장 잘 설명하는 방법.
클러스터링(Clustering) : 데이터를 내부 집단간의 유사성이 높고 외부 집단과는 유사성이 낮도록 분류하는 방법. K-Means Clustering. 편 나누기.
회기(Regression) 방식과 분류(Classification) 방식의 가장 큰 차이점은?
고객의 과거 실적
2000 VVIP
1500 VIP
회기 → 1750
분류 → VVIP 또는 VIP 둘 중 하나로만 나옴.
정답지가 연속된 숫자 → 회기! 중간값이 있다!
정답지가 카테고리 → 분류! 중간값이 없다!
'개발자 > Big Data' 카테고리의 다른 글
Power BI M formula (파워 BI M 수식 - 코딩을 해보자...) (0) | 2020.12.23 |
---|---|
Power BI 연습 (투마일스 - 온라인 쇼핑몰 영업현황) (0) | 2020.12.11 |
MapReduce vs Apache Spark (0) | 2020.06.22 |
하둡에코 (분산처리 시스템) (0) | 2020.03.27 |
빅데이터 기술 (0) | 2020.03.27 |