2019. 9. 5. 15:54ㆍ파이썬
◈ 비지도학습(군집과 차원축소)
- 문제는 있는데 답label이 없는 상태에서 시키는 기계학습
- 정답을 찾는 것이 아니라 학습을 통해 데이터의 패턴, 특성 등을 찾아낸다.
- 지도학습의 ★전처리 단계★에서 사용한다.
- 정해진 답이 없으니 컴퓨터가 잘 학습을 했는지 판단하려면 사람의 주관적인 판단이 들어가야 한다.
- 그래서 데이터사이언티스트는 도메인날리지의 수준이 아주 깊어야 한다.
1. 군집 Clustering (https://data-newbie.tistory.com/25) : 전체 데이터를 가장 효율적으로 대표해줄 수 있는 칼럼이 무엇인지 찾아내는 기능
1-1. K평균군집 : 랜덤으로 k개의 점을 잡아서 각 점을 직선으로 연결한다. 그 직선에 대한 수직선을 긋는다. 각 샘플간의 거리의 합이 최소한으로 하는 곳으로 점이 계속해서 이동한다. 더이상 점이 움직이지 않을 때까지.
1-2. 계층형군집(병합적 군집과 분할적 군집) : 덴드로그램. 군집을 몇 개로 잡는 것이 적합한지 찾는 방법.
1-3. DBSCAN : 반경(epsilon) 얼만큼 안에 너를 포함해서 값이 n개(minPoints = minSamples)가 있다면 너는 코어(core)다 라고 정해주는 방법. 경계선에 걸친 값은 경계(potential core)이며, 경계선 밖에 있는 값은 이상치(noise)이다.
DBSCAN의 장점은 클러스터의 개수를 미리 지정할 필요가 없고, 여러 형상에서 잘 작동한다는 점이다.
단점은 속도가 느리다는 것인데, 이제는 옛날말이라고 하는 것 같다.
2. 차원축소
'파이썬' 카테고리의 다른 글
파이썬 selenium.common.exceptions.sessionnotcreatedexception unable to find a matching set of capabilities (0) | 2020.02.23 |
---|---|
파이썬 sqlite3 import error : dll load failed 1은(는) 올바른 win32 응용 프로그램이 아닙니다 (0) | 2020.02.22 |
파이썬 한글 인코딩 (0) | 2019.09.05 |
크롤링 기본 흐름 (0) | 2019.08.10 |
파이썬 크롤링 BeautifulSoup 네이버 실검 따기 (0) | 2019.07.29 |