Introdução ao K-Means
Essa é uma das técnicas mais populares de aprendizado não-supervisionado
Clusterização de dados é um método de aprendizado não-supervisionado, onde os dados são separados em grupos de dados ou clusters baseados em uma ou mais medidas/características similares.
K-means é um dos exemplos mais comuns dessas técnicas.
Para entendermos melhor, vamos imaginar um exemplo de 1 dimensão, com dados de renda de pessoas. Tentaremos descobrir algum padrão nesses dados.
Exemplo Renda Anual de 10 Pessoas
A imagem ao lado representa a renda anual em Libras de 10 pessoas.
Utilizando técnicas tradicionais de estatística poderíamos deduzir que a média de renda anual está em torno de 30–50 mil libras por ano. Mas somente essa informação não é suficiente para dividirmos as pessoas em grupos. Será que existem grupos de pessoas nessa lista?
Ricos e Classe Média?
O algoritmo K-means é muito bom em encontrar esses padrões, mesmo sem a nossa ajuda de indicar as médias ou ou qualquer informação adicional.
Esse algoritmo segue 5 passos básicos, que iremos detalha-los a seguir.