Agrupamento Hierárquico vs Particional
Clustering é uma técnica de aprendizado de máquina para analisar dados e dividir em grupos de dados semelhantes. Esses grupos ou conjuntos de dados semelhantes são conhecidos como clusters. A análise de cluster analisa algoritmos de cluster que podem identificar clusters automaticamente. Hierárquico e Particional são duas dessas classes de algoritmos de agrupamento. Os algoritmos de agrupamento hierárquico dividem os dados em uma hierarquia de agrupamentos. Algoritmos parciais dividem o conjunto de dados em partições mutuamente disjuntas.
O que é agrupamento hierárquico?
Os algoritmos de agrupamento hierárquico repetem o ciclo de mesclar agrupamentos menores em agrupamentos maiores ou dividir agrupamentos maiores em agrupamentos menores. De qualquer forma, produz uma hierarquia de clusters chamada dendograma. A estratégia de clustering aglomerativo usa a abordagem de baixo para cima de mesclar clusters em clusters maiores, enquanto a estratégia de cluster divisiva usa a abordagem de cima para baixo de dividir em clusters menores. Normalmente, a abordagem gulosa é usada para decidir quais clusters maiores/menores são usados para mesclar/dividir. Distância euclidiana, distância de Manhattan e similaridade de cosseno são algumas das métricas de similaridade mais comumente usadas para dados numéricos. Para dados não numéricos, são usadas métricas como a distância de Hamming. É importante notar que as observações reais (instâncias) não são necessárias para agrupamento hierárquico, pois apenas a matriz de distâncias é suficiente. O dendograma é uma representação visual dos clusters, que exibe a hierarquia com muita clareza. O usuário pode obter diferentes agrupamentos dependendo do nível em que o dendograma é cortado.
O que é Clustering Particional?
Algoritmos de agrupamento particional geram várias partições e então as avaliam por algum critério. Eles também são chamados de não hierárquicos, pois cada instância é colocada em exatamente um dos k clusters mutuamente exclusivos. Como apenas um conjunto de clusters é a saída de um algoritmo de cluster particional típico, o usuário precisa inserir o número desejado de clusters (geralmente chamado de k). Um dos algoritmos de agrupamento particional mais comumente usados é o algoritmo de agrupamento k-means. O usuário é obrigado a fornecer o número de clusters (k) antes de iniciar e o algoritmo inicia primeiro os centros (ou centroides) das k partições. Em poucas palavras, o algoritmo de agrupamento k-means atribui membros com base nos centros atuais e reestima os centros com base nos membros atuais. Essas duas etapas são repetidas até que uma determinada função objetivo de similaridade intracluster e função objetivo de dissimilaridade intercluster sejam otimizadas. Portanto, a inicialização sensata de centros é um fator muito importante na obtenção de resultados de qualidade de algoritmos de agrupamento particional.
Qual é a diferença entre Clustering Hierárquico e Particional?
Hierarchical and Partitional Clustering tem diferenças importantes no tempo de execução, suposições, parâmetros de entrada e clusters resultantes. Normalmente, o clustering particional é mais rápido do que o clustering hierárquico. O clustering hierárquico requer apenas uma medida de similaridade, enquanto o clustering particional requer suposições mais fortes, como o número de clusters e os centros iniciais. O clustering hierárquico não requer nenhum parâmetro de entrada, enquanto os algoritmos de clustering particional exigem o número de clusters para iniciar a execução. O agrupamento hierárquico retorna uma divisão de clusters muito mais significativa e subjetiva, mas o agrupamento particional resulta em exatamente k agrupamentos. Os algoritmos de agrupamento hierárquico são mais adequados para dados categóricos, desde que uma medida de similaridade possa ser definida de acordo.