머신러닝 과정

2019. 7. 25. 16:54기타

728x90

▣ 문제정의

▣ 데이터 수집

▣ 데이터전처리
 - 글자들을 숫자로(기계가 읽어들일 수 있게) 인코딩
 - 스케일링(단위 바꿔보기), 칼럼정돈, 결측치 정리 등

▣ 탐색적 데이터분석
 - 모아놨던 데이터를 시각화하면서 데이터를 파악해본다
 - 모든 칼럼을 다 쓰는게 아니라 어떤 칼럼들을 사용할지 정한다(=사용할 feature를 선택한다)

▣ 모델선택, 하이퍼 파라미터 조정
 - 목적에 맞는 적절한 모델 선택
 - 여러가지 모델을 만들어놓고 그중에 어떤 모델이 내 프로젝트에 적합한지 선별한다.

▣ 학습과 예측
 - 학습: fit(X_train, y_train)
 - 예측: predict(X_test)
 - 내 데이터 중에서 70%는 train data, 나머지 30%는 test data로 잡아주는 것이 적절.
 - 70% 까지만 기계에게 학습시키고 예측을 뽑아본다.
 - 나머지 30%와 기계가 뽑아낸 예측치를 비교하여 accuracy를 측정한다.

▣ 모델평가
 

 confusion matrix

 - 정확도 accuracy
 - 재현율 recall : 양성과 음성. 
 - 정밀도 precision
 - f1 score 

728x90
반응형