비지도학습, 군집 요약

2019. 9. 5. 15:54파이썬

728x90

◈ 비지도학습(군집과 차원축소)

 - 문제는 있는데 답label이 없는 상태에서 시키는 기계학습

 - 정답을 찾는 것이 아니라 학습을 통해 데이터의 패턴, 특성 등을 찾아낸다.


 - 지도학습의 ★전처리 단계★에서 사용한다.
 - 정해진 답이 없으니 컴퓨터가 잘 학습을 했는지 판단하려면 사람의 주관적인 판단이 들어가야 한다.

 - 그래서 데이터사이언티스트는 도메인날리지의 수준이 아주 깊어야 한다.

 

 

1. 군집 Clustering (https://data-newbie.tistory.com/25) : 전체 데이터를 가장 효율적으로 대표해줄 수 있는  칼럼이 무엇인지 찾아내는 기능

 1-1. K평균군집 : 랜덤으로 k개의 점을 잡아서 각 점을 직선으로 연결한다. 그 직선에 대한 수직선을 긋는다. 각 샘플간의 거리의 합이 최소한으로 하는 곳으로 점이 계속해서 이동한다. 더이상 점이 움직이지 않을 때까지.

 

 1-2. 계층형군집(병합적 군집과 분할적 군집) : 덴드로그램. 군집을 몇 개로 잡는 것이 적합한지 찾는 방법.

 1-3. DBSCAN : 반경(epsilon) 얼만큼 안에 너를 포함해서 값이 n개(minPoints = minSamples)가 있다면 너는 코어(core)다 라고 정해주는 방법. 경계선에 걸친 값은 경계(potential core)이며, 경계선 밖에 있는 값은 이상치(noise)이다.

DBSCAN의 장점은 클러스터의 개수를 미리 지정할 필요가 없고, 여러 형상에서 잘 작동한다는 점이다.

단점은 속도가 느리다는 것인데, 이제는 옛날말이라고 하는 것 같다.

 

2. 차원축소

728x90
반응형