A principal diferença entre classificação e árvore de regressão é que na classificação as variáveis dependentes são categóricas e não ordenadas enquanto na regressão as variáveis dependentes são valores inteiros contínuos ou ordenados.
Classificação e regressão são técnicas de aprendizado para criar modelos de previsão a partir de dados coletados. Ambas as técnicas são apresentadas graficamente como árvores de classificação e regressão, ou melhor, fluxogramas com divisões de dados após cada etapa, ou melhor, “ramificação” na árvore. Esse processo é chamado de particionamento recursivo. Campos como Mineração usam essas técnicas de aprendizado de classificação e regressão. Este artigo se concentra na árvore de classificação e na árvore de regressão.
O que é Classificação?
Classificação é uma técnica utilizada para chegar a um esquema que mostra a organização dos dados a partir de uma variável precursora. As variáveis dependentes são as que classificam os dados.
Figura 01: Mineração de Dados
A árvore de classificação começa com a variável independente, que se ramifica em dois grupos conforme determinado pelas variáveis dependentes existentes. Destina-se a elucidar as respostas na forma de categorização trazidas pelas variáveis dependentes.
O que é Regressão
Regressão é um método de previsão baseado em um valor de saída numérico assumido ou conhecido. Este valor de saída é o resultado de uma série de particionamento recursivo, com cada passo tendo um valor numérico e outro grupo de variáveis dependentes que se ramificam para outro par como este.
A árvore de regressão começa com uma ou mais variáveis precursoras e termina com uma variável de saída final. As variáveis dependentes são variáveis numéricas contínuas ou discretas.
Qual é a diferença entre classificação e regressão?
Classificação vs Regressão |
|
Um modelo de árvore onde a variável alvo pode ter um conjunto discreto de valores. | Um modelo de árvore onde a variável alvo pode assumir valores contínuos, tipicamente números reais. |
Variável Dependente | |
Para árvore de classificação, as variáveis dependentes são categóricas. | Para árvore de regressão, as variáveis dependentes são numéricas. |
Valores | |
Tem uma quantidade definida de valores não ordenados. | Tem valores discretos mas ordenados ou valores indiscretos. |
Finalidade da Construção | |
O objetivo de construir a árvore de regressão é ajustar um sistema de regressão a cada ramo determinante de forma que o valor de saída esperado apareça. | Uma árvore de classificação se ramifica conforme determinado por uma variável dependente derivada do nó anterior. |
Resumo – Classificação vs Regressão
Árvores de regressão e classificação são técnicas úteis para mapear o processo que aponta para um resultado estudado, seja na classificação ou em um único valor numérico. A diferença entre a árvore de classificação e a árvore de regressão é sua variável dependente. As árvores de classificação têm variáveis dependentes que são categóricas e não ordenadas. As árvores de regressão têm variáveis dependentes que são valores contínuos ou valores inteiros ordenados.