GMM2 머신러닝 Clustering - K-Means VS GMM K-Means VS GMM K-Means 클러스터링은 군집화 범위가 원형입니다. 그러므로 데이터 세트의 분포가 원형에 가까울수록 효율이 높아집니다. 그러나 실제 데이터의 분포가 원형인 경우는 적습니다. 데이터의 분포가 만약 타원의 형태로 길쭉하게 늘어져 있다면 K-means 클러스터링은 해당 데이터에 대하여 제대로 군집화를 진행하기 어렵습니다. 이런 경우에는 데이터의 분포 방향에 따라 군집화를 진행하는 GMM 클러스터링을 사용하면 군집화 성능을 높일 수 있습니다. 임의의 데이터 생성 클러스터링 알고리즘을 테스트하기 위한 데이터 생성기를 사용해보겠습니다. 대표적으로 make_blobs() 를 사용합니다. 이를 이용해 타원형 분포를 가진 데이터를 만들어냅니다. 타원형 분포 데이터 생성을 위한 사이킷런 함수/.. 2022. 5. 23. 머신러닝 Clustering - Gaussian Mixture Model (GMM) Gaussian Mixture Model (GMM) Gaussian Mixture Model(GMM)을 이용한 클러스터링은 데이터가 여러 개의 정규 분포를 가지고 있다고 가정한 후 클러스터링을 진행하는 방식입니다. 여러 개의 데이터 세트가 있다면 이를 구성하는 여러 개의 정규 분포 곡선을 추출하고, 개별 데이터가 이 중 어떤 정규 분포에 속하는지 결정합니다. 또한, GMM은 K-means 클러스터링과 달리 군집 중심점(clustering center)가 없으므로 군집의 개수(K)를 정해주면 됩니다. 이번 실습에서는 동일한 iris 데이터를 가지고 GMM을 이용한 클러스터링을 수행하고, 결과를 시각화하여 확인해보겠습니다. GMM을 위한 사이킷런 함수/라이브러리 from sklearn.mixture impo.. 2022. 5. 23. 이전 1 다음