BI: Segundo Parcial

Ace your homework & exams now with Quizwiz!

Herramientas de Verificación

1) Evaluación distribuida 2) Evaluación centralizada

De los Datos a las Decisiones: Minería de datos

El uso de la minería de datos como soporte a decisiones en los negocios quiere decir que se aplican redes neuronales o árboles de decisión sobre los datos.

Verificación de hipótesis

Es la actividad que mediante la observación, la experimentación, el análisis estadístico o la encuesta, se comprueba adecuadamente, si una hipótesis es falsa o verdadera.

De los Datos a las Decisiones: Árbol de Decisión

Esta necesidad surge porque: ● La tarea de mejorar el acceso a la información está siendo cada vez más necesaria a la hora de tomar decisiones de empresa. ● Se requieren procesos automáticos y reutilizables que ayuden a mejorar la competencia de los negocios. ● Las empresas tiene que tener la capacidad de adaptarse a un cambio continuo, ser adaptativas, aprender cómo resolver problemas y generar conocimiento. ● La estrategia de flexibilización es necesaria para adaptarse a un mercado globalizado.

Rama

Indica los distintos cambios por donde se puede emprender cuando se toma una decisión o sucede un evento aleatorio.

Nodo de decisión

Indica que debe tomarse una decisión en ese punto del proceso y su representación se da por un cuadro.

Nodo de probabilidad

Indica que en ese punto del proceso ocurre un evento aleatorio.

Hechos

Las tablas que contienen los datos correspondientes a un proceso de negocio particular. Cada fila representa un único evento asociado con ese proceso y contiene los datos de medición asociados con ese evento.

Herramientas de búsqueda de la información

Minería de Datos Árbol de Decisión Verificación de hipótesis

Utiliza el análisis matemático para reducir patrones y tendencia que existen en otros datos.

Minería de datos.

Dice

Selecciona valores correspondientes a un slice o un número consecutivo de slices en más de dos dimensiones del cubo.

Características Compartidas de las Herramientas de Consulta e Informes

● Accesibilidad a la información ● Apoyo en la toma de decisiones ● Orientación a los usuarios finales

Ventajas de los árboles de decisión

● Facilitan la interpretación de la decisión tomada ● Facilitan la comparación del conocimiento utilizando la toma de decisiones. ● Reduce el número de variables independientes ● Explica el comportamiento respecto a una determinada decisión.

Fases de la Transformación de datos

● Mapeo de datos. ● Generación de código.

Tipos de Sistemas OLAP.

● ROLAP ● MOLAP

La minería de datos y los métodos estadísticos: Características

● Técnicas de visualización y descriptivas,tales como: promedios y evaluación de variaciones, porcentuales y correlaciones simples ● Análisis de cluster, consiste en organizar la información en grupos de datos que sean heterogéneos a los que se los conoce como cluster de datos ● Análisis de correlaciones, se encarga de medir las relaciones entre 2 variables ● Análisis de factores, es útil para entender las correlaciones entre un grupo de variables ● Análisis de regresión, es una herramienta estadísticas que determina la relación entre 2 o más variables cuantitativas

Selección de datos

● Variables objetivos: Son variables que se colocan como meta a la cual se quiere llegar, las conclusiones que tomaré se basan en estas variables. ● Variables independientes: Estas variables pueden realizar los cálculos que necesito para poder llegar a las conclusiones necesarias y puedo dar un soporte muy significativo. ● Muestreo de registros disponibles.

Proceso de consulta

1) OLTP (On-Line Transactional Processing) 2) LOAD MANAGER 3) DW MANAGER 4) QUERY MANAGER 5) HERRAMIENTAS DE CONSULTAS Y ANÁLISIS 6) USUARIOS

¿Cómo se analiza un OLAP?

1) Slice 2) Dice 3) Drill Down 4) Pivot 5) Roll Up 6) Consolidate.

Operaciones de Minería de Datos

1) Sumarización de Datos 2) Modelo de Predicción y Clasificación. 3) Análisis de asociaciones 4) Segmentación de BD 5) Detección de desviaciones.

¿Qué es MOLAP?

Arquitectura en la que los datos se encuentran almacenados en ficheros con estructura multidimensional. (Multidimensional on line analytical processing)

¿Qué es ROLAP?

Arquitectura en la que los datos se encuentran almacenados en una base de datos relacional (Relational on line analytical processing).

Sumarización de Datos

Consiste en agrupar datos que tienen alguna asociación. Esta nos permite tener una visión general de nuestra estructura de datos.

Segmentación de BD

Consiste en agrupar los datos en conjuntos de manera que guarden relación entre ellos, sin importar que estos grupos sean disjuntos o no.

Detección de desviaciones.

Consiste en detectar cuáles registros poseen características discordantes o diferentes a las que poseen generalmente un registro de su naturaleza.

Análisis de asociaciones

Consiste en establecer la relación que se puede encontrar entre los registros de una base de datos. De manera más específica, consiste en identificar qué registros son afectados de manera simultánea durante una transacción determinada para descubrir su relación.

Modelo de Predicción y Clasificación.

Consiste en utilizar los datos que la empresa posee como histórico con el fin de analizarlos para generar de manera automática un modelo que prediga el comportamiento futuro.

Predicción Neuronal

Crea un modelo que se utiliza para predecir nuevos valores para regresión y pronóstico de series temporales. Utiliza una red neuronal de retropropagación para predecir valores.

Cambiar los niveles de agregación

Drill down and roll up: Abrir los datos de las dimensiones a fin de obtener más detalle.

Drill Down

Elija detalles de nivel inferior / superior. Usado en contexto de dimensiones jerárquicas.

Evaluación distribuida

En ella se evalúa cada herramienta en un paso concreto. Se ve cuál es la que mejor se adapta a nuestras necesidades y se examina la compatibilidad en cascada de todas ellas.

Evaluación centralizada

En ella se evalúa el soporte que cada herramienta proporciona a todos los pasos y se examina cuál es la que globalmente se adecua de forma global a nuestras necesidades.

Transformación de datos

Es el proceso de convertir datos o información de un formato a otro, usualmente desde el formato de un sistema fuente hasta el formato requerido e un sistema de destino.

Red de retroalimentación

Es el tipo de red neuronal más comúnmente utilizado y funciona alimentando las salida de cara nodo hacia adelante al siguiente nodo como sus entradas.

Motores de Cálculo y transformación.

Es un componente de modelado de datos multidimensionales. Sirve para crear un modelo multidimensional: una presentación de negocio de la información de uno o varios orígenes de datos con datos compartidos.

Redes Neuronales en Minería de Datos

Es un conjunto de elementos de procesamiento de la información altamente interconectados, capaces de aprender con la información que se les alimenta.

Métodos Neuronales

Estos métodos se caracterizan por tener sus fundamentos en el procesamientos simplificado de la información por parte del cerebro; estos a través de una arquitectura de nodos y conexiones permiten que los datos se propagan entre una capa de nodos de entrada hacia una capa de salida.

Pivot

Gire la orientación de los propósitos de informes de datos.

Ventajas e inconvenientes de las Herramientas de Verificación

La Evaluación distribuida nos permite obtener la mejor herramienta (la de mejor relación cumplimiento expectativas/ precio), pero puede comprometer la cadena completa de uso de un Data Warehouse. Lo contrario ocurre con la Evaluación centralizada.

Predicción de Valores

La finalidad es descubrir la dependencia y la variación de un valor de un campo en relación a los valores de otros campos que se encuentren en el mismo registro. Se genera un modelo con el mismo formato, en base a otros valores de campo.

Los Sistemas de Información de Ayuda a la Toma de Decisión (SIATD) o DSS (Decision Support System).

Permiten construir, validar, refinar modelos y aplicarlos a datos extraídos tanto de la base de datos propia del sistema como de la base de datos corporativa de la organización o de otros suministradores externos de datos. También incluyen herramientas para representar estos datos o los resultados de las aplicaciones de los modelos, según varias formas gráficas, más sintéticas y clarificadoras.

Minería de Datos

Proceso de extraer información comprensible, válida, y previamente desconocida, a partir de grandes volúmenes de datos, y dedicarla al soporte de la toma de decisiones de negocio. Usualmente los procesos se basan en conocer el negocio, conocer los datos, preparar los datos, modelar los datos, evaluar los datos e implementar el plan.

Herramientas de Consulta e Informes

Reportes y Consultas Dashboards Data Mining EIS (Executive Information Systems)

Slice

Selecciona valores correspondientes a un valor en una o más dimensiones.

Cambiar los ejes de análisis.

Slice and dice: mover el cubo como si fuera un dado para obtener una cara del cubo.

Dimensiones

Son aquellos datos que nos permiten filtrar, agrupar o seccionar la información.

Los Métodos Estadísticos

Son procedimientos para manejar datos cuantitativos y cualitativos mediante técnicas de recolección, recuento, presentación, descripción y análisis. Los métodos estadísticos permiten comprobar hipótesis o establecer relaciones de causalidad en un determinado fenómeno.

Árboles de decisión

Son representaciones gráficas y analíticas de datos introducidos por medio de una base de datos ya establecida. Ayudan a la toma de decisiones, desde un punto probabilístico con el fin de tomar la opción más conveniente.

Métodos Simbólicos

Sus característica más importante es su naturaleza auto explicativa, es decir, son capaces de explicar los criterios que utilizó para la clasificación de los registros.

Arquitectura OLAP

● Agilizar la consulta de grandes cantidades de datos. ● Cubos OLAP. ● OLTP. ● Es más rápido al ejecutar sentencias SELECT.

Clasificación Neuronal

● Basada en redes neuronales de propagación hacia atrás. ● Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar una concreta. ● Optimiza de forma interna los parámetros de la red durante el entrenamiento. ● Realiza un análisis de sensibilidad para detectar las variables más significativas para cada topología.

Características de la Predicción Neuronal

● Basada en redes neuronales de propagación. ● Detecta de forma automática la topología (razonamientos matemáticos) más adecuado. ● Permite la predicción de datos en serie temporales que permite crear patrones. ● Permite la regresión Logística

¿Qué permite la navegación sobre los datos?

● Cambiar los ejes de análisis. ● Cambiar los niveles de agregación.

Función de Base Radial: Características.

● Capacidad de procesar variables cuantitativas y cualitativas a la vez. ● Detecta el número de centroides óptimos, pre-definiendo sus máximo y mínimo de registro asignado a cada centro. ● Permite modelado no lineales en base d aproximación gaussiana y a la optimización de la pendiente para la división de nuevos centrados. ● Mayor rendimiento con estructura de data agrupada por conjunto, ya que implementa segmentación.

Puntos a tener en cuenta en la Minería de datos.

● Comprensión ● Determinación ● Creación de modelos ● Validación y comunicación ● Integración

Tipos y planificación de las consultas

● Consultas Empaquetadas ● Consultas Ad-Hoc

Consultas Ad-Hoc: Características

● Consultas Recurrentes y Aleatorias ● Respuesta a necesidad concreta de información

Funcionalidades y Beneficios de las Herramientas de Verificación

● Dar soluciones analíticas para áreas funcionales del negocio ● Explorar los datos según las necesidades ● Visualizaciones dinámicas a través de informes inteligentes

Almacenamiento ROLAP

● Datos detallados. ● Evita las sumatorias. ● Tablas desnormalizadas. ● Formato Snowflake o Star. ● Permite el análisis de una gran cantidad de datos.

Fases del proceso de consulta

● Definición de la Consulta ● Acceso a los Datos ● Manipulación y Cálculo ● Elaboración del Informe ● Liberación del Informe

Consultas Empaquetadas: Características

● Ejecución Periódica ● Sin Intervención de usuario

¿Cómo funciona OLAP?

● Independiente del origen. ● Ofrece una vista multidimensional. ● Orientado a un tema. ● Se nutre de las BD Relacionales. ● Esquema Snowflake o Star. ● Compuesto de dimensiones, medidas y hechos.

Métodos de Inducción Supervisada

● Neuronales ● Simbólicos

Características de los Árboles de decisión

● Nodo de decisión ● Nodo de probabilidad ● Rama

Selección de datos: Características

● Recogen datos adicionales apropiados. ● Realizan las pruebas de importancia y correlación ● Reconsideran criterios de selección de datos ● Seleccionan diferentes subconjuntos de datos ● Consideran el uso de técnicas de muestreo. ● Documentan el razonamiento para la inclusión/ exclusión ● Comprueban técnicas disponibles para el muestreo de datos.

Almacenamiento MOLAP

● Resume la información. ● Calcula por adelantado. ● Técnicas de compresión.

Proceso de la Minería de Datos

● Selección del conjunto de datos. ● Análisis de las propiedades de los datos. ● Transformación del conjunto de datos de entrada. ● Seleccionar y aplicar la técnica de minería de datos. ● Extracción de conocimiento. ● Interpretación y evaluación de datos.


Related study sets

Chapter 35 Nursing Diagnosis and Planning

View Set

PSY 3341 (Exam #1 material), PSY 3341 Exam 2 Memory, PSY 3341 - Exam 2

View Set

SIE Mastery Exam 1 Review Questions

View Set

ohio life insurance exam missed questions and answers part 10

View Set

PSY 101 Macmillan Learning Launchpad

View Set

Clinical Psych Final Exam Review

View Set

MAR 5625 - Marketing Research and Analytics - Chapter 7

View Set