Diferença entre KDD e mineração de dados

Diferença entre KDD e mineração de dados
Diferença entre KDD e mineração de dados

Vídeo: Diferença entre KDD e mineração de dados

Vídeo: Diferença entre KDD e mineração de dados
Vídeo: Estrutura de Capital 2024, Novembro
Anonim

KDD vs mineração de dados

KDD (Knowledge Discovery in Databases) é um campo da ciência da computação, que inclui as ferramentas e teorias para ajudar os humanos a extrair informações úteis e anteriormente desconhecidas (ou seja, conhecimento) de grandes coleções de dados digitalizados. O KDD consiste em várias etapas, e a Mineração de Dados é uma delas. Data Mining é a aplicação de um algoritmo específico para extrair padrões de dados. No entanto, KDD e Data Mining são usados de forma intercambiável.

O que é KDD?

Como mencionado acima, KDD é um campo da ciência da computação, que lida com a extração de informações anteriormente desconhecidas e interessantes de dados brutos. KDD é todo o processo de tentar entender os dados desenvolvendo métodos ou técnicas apropriadas. Este processo trata do mapeamento de dados de baixo nível em outras formas mais compactas, abstratas e úteis. Isso é alcançado criando relatórios curtos, modelando o processo de geração de dados e desenvolvendo modelos preditivos que podem prever casos futuros. Devido ao crescimento exponencial de dados, especialmente em áreas como negócios, o KDD tornou-se um processo muito importante para converter essa grande riqueza de dados em inteligência de negócios, já que a extração manual de padrões se tornou aparentemente impossível nas últimas décadas. Por exemplo, atualmente é usado para várias aplicações, como análise de redes sociais, detecção de fraudes, ciência, investimento, manufatura, telecomunicações, limpeza de dados, esportes, recuperação de informações e principalmente para marketing. O KDD geralmente é usado para responder perguntas como quais são os principais produtos que podem ajudar a obter alto lucro no próximo ano no Wal-Mart?. Este processo tem várias etapas. Ele começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, com a criação de um conjunto de dados de destino. Segue-se a limpeza, pré-processamento, redução e projeção dos dados. O próximo passo é usar a Mineração de Dados (explicada abaixo) para identificar o padrão. Finalmente, o conhecimento descoberto é consolidado pela visualização e/ou interpretação.

O que é Mineração de Dados?

Como mencionado acima, Data Mining é apenas uma etapa dentro do processo geral de KDD. Existem dois objetivos principais de mineração de dados, conforme definido pelo objetivo do aplicativo, e eles são verificação ou descoberta. A verificação é verificar a hipótese do usuário sobre os dados, enquanto a descoberta é encontrar automaticamente padrões interessantes. Há quatro tarefas principais de mineração de dados: agrupamento, classificação, regressão e associação (resumo). Clustering é identificar grupos semelhantes a partir de dados não estruturados. Classificação é aprender regras que podem ser aplicadas a novos dados. A regressão é encontrar funções com erro mínimo para modelar dados. E associação está procurando relacionamentos entre variáveis. Em seguida, o algoritmo de mineração de dados específico precisa ser selecionado. Dependendo do objetivo, diferentes algoritmos como regressão linear, regressão logística, árvores de decisão e Naïve Bayes podem ser selecionados. Em seguida, os padrões de interesse em uma ou mais formas de representação são pesquisados. Por fim, os modelos são avaliados usando precisão preditiva ou compreensibilidade.

Qual é a diferença entre KDD e mineração de dados?

Embora os dois termos KDD e Data Mining sejam muito usados de forma intercambiável, eles se referem a dois conceitos relacionados, mas ligeiramente diferentes. O KDD é o processo geral de extração de conhecimento dos dados, enquanto o Data Mining é uma etapa dentro do processo KDD, que lida com a identificação de padrões nos dados. Em outras palavras, Data Mining é apenas a aplicação de um algoritmo específico baseado no objetivo geral do processo de KDD.

Recomendado: