KDD
Agentes del KDD
Experto Analista Usuario
Data Mining
Es la búsqueda de patrones de comportamientos y relaciones entre los datos mediante el uso de técnicas y algoritmos especializados.
Tareas del Data Mining
- Asociación - Clasificación - Agrupación - Regresión/Tendencia - Visualización
Objetivos del Data Mining
- Predicción o Directed Data Mining - Descripción o Undirected Data Mining
Técnicas de Data Mining
- Redes neuronales artificiales - Árboles de decisión - Regresión lineal - k Nearest Neighbor - Regla de Inducción - Visualización mediante mapas temáticos SOM - Visualización mediante gráficos de dimensión
Esfuerzo Requerido por cada fase del proceso del KDD
20% Entendimiento del dominio. 60% Preparación de los datos (Preprocesamiento + Transformación) 10% Data Mining 10% Interpretación y consolidación del conocimiento.
Fases del CRISP-DM
Análisis del Problema Análisis de los datos Preparación de los datos modelado Evaluación Explotación
Tendencias/Regresión
Consiste en adquirir una función que mapa un elemento de dato a una variable de predicción de valor real.
Asociación (Modelo de Dependencias)
Consiste en encontrar un modelo el cual describa las dependencias significantes entre las variables. Permite identificar las relaciones entre atributos de forma tal a identificar que la ocurrencia de ciertos patrones implican la ocurrencia de otros.
Visualización
Consiste en generar modelos visuales que permitan al usuario sacar meta-conocimiento de los mismos. Ayudan a entender mejor los datos y/o patrones.
Predicción
Consiste en utilizar algunas variables o campos de los datos para predecir valores desconocidos o futuros de otras variables de interés. Un modelo productivo responde preguntas sobre datos futuros.
Agrupación
Divide los datos en diferentes grupos, con el objetivo de encontrar una agrupación de datos de forma que los datos de un mismo grupo sean muy similares y muy diferentes entre grupos distintos. No se conocen ni las clases ni su numero.
Experto KDD
Es quien conoce las necesidades y dificultades del negocio y es quien plantea el problema basado en los usuarios.
Analista
Es quien ejecuta todo el proceso KDD y que por ende debe tener muy claro todos los pasos que ello implica.
Metodología CRISP-DM (Cross-Industry Standard Process for Data Mining)
Método estándar que ha sido desarrollado para ayudar en la realización de proyectos de DM.
Usuario
Quien no necesita poseer mucho conocimiento pero es el que después que de terminado el proceso utilizará el conocimiento extraído.
Fases de SEMMA
Sample, Explore, Modify, Model, Assess
Descripción
Se centra en encontrar patrones interpretables por el ser humano, a partir de la descripción de los datos. Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características.
SEMMA
Se centra en las características técnicas del desarrollo del proceso. Solo es abierta en sus aspectos generales ya que está muy ligada a los productos SAS.
Clasificación
Se trata de obtener un modelo que permita asignar un caso de clase desconocida a un clase concreta.