Inteligencia de Negocios
Secuencia
Aquí se descubre que un evento "a" se hace comúnmente después de un evento "y".
Meidda
Atributo o medida de hechos
Propiedades de un Datawarehouse
- Estable - Coherente - Fiable - Con información histórica.
Niveles de BI
- Reportes - Consultas ("Queries") / Cubos OLAP (On-Line Analytic Processing). - Alertas - Análisis estadístico - Pronósticos ("Forecasting") - Modelado Predictivo o Minería de datos ("Data Mining") - Optimización
Tipos de Aplicaciones de BI
- Informes Estándar - Aplicaciones Analíticas
Dimensión
Característica de un hecho
Metadatos
Datos estructurados y codificados que describen características de instancias
Creador del Término de OLAP
Edgar F. Codd. (1993)
Esquema en estrella
Es la arquitectura de almacén de datos más simple, en este diseño la tabla de variables (Hechos) está rodeada por Dimensiones y juntos forman una estructura que permite implementar mecanismos básicos para poder utilizarla con una herramienta de consultas OLAP
Datawarehouse
Es un repositorio de datos que proporciona una visión global, común e integrada de los datos de la organización
DSS Pasivo
Es un sistema de ayudas para el proceso de toma de decisiones, pero que no puede llevar a cabo na decisión explícita, sugerencias o soluciones.
Esquema en Constelación
Este esquema es más complejo que las otras arquitecturas, debido a que contiene múltiples tablas de hechos.
HOLAP
Implementación que almacena los datos en un motor relacional y otros en una base de datos multidimencional
Otro nombre del Modelado Dimensional
Metodología Kimball
Jerarquía
Relaciones padre-hijo dentro de una dimensión
Caracterísitcas de BI
- Accesibilidad a la información - Apoyo en la toma de decisiones - Orientación al usuario final
Clasificación de Minería de Datos
- Análisis estáticos de datos - Descubrimiento de conocimientos - Otros
Tipos de información en Minería de Datos
- Asociaciones - Secuencias - Agrupamiento - Clasificación
Estructuras de un DW
- Con una estructura básica - Al añadir un área de ensayo - Se puede hacer agregando data marts
Tareas de la Planificación de Proyecto
- Definir el alcance (entender los requerimientos del negocio). - Identificar las tareas - Programar las tareas - Planificar el uso de los recursos. - Asignar la carga de trabajo a los recursos - Elaboración de un documento final que representa un plan del proyecto.
Operaciones OLAP
- Drill Down - Roll Up - Slice - Dice
Esquemas de Modelado Dimensional
- Estrella - Copo de Nieve - Constelación
Componentes de un DW
- Fuentes de datos - Procedimientos de Extracción - Procedimientos de Transformación - Procedimientos de carga (Loading) - Soporte físico de los datos (DBMS) - Herramientas de explotación : OLAP, reporting, Data Mining, etc
Tipos de medidas
- Naturales - Calculadas
Primera Forma Normal
- No admite atributos multivaluados - No admite atributos compuestos
Modelo Bill Inmon
- Orientado a temas - Integrado - No volátil - Variante en el tiempo
Caracterísitcas del Datawarehouse
- Orientado a un tema - Integrado - Variable en el tiempo - No volátil
Características de un Sistema Transaccional
- Orientados a aplicativos - Utilizados para el funcionamiento del negocio - Usados por empleados comunes - Contiene datos detallados - Contiene datos aislados - Acceso repetitivo y transacciones pequeñas - No hay redundancia (3FN)
Características de un DW
- Orientados a temas - Utilizados para analizar negocio - Usados por ejecutivos y analistas - Contiene datos resumidos y refinados - Contiene datos integrados - Acceso a medida con consultas complejas - Se prima la rapidez al tamaño en disco
Tipos de DSS
- Pasivo - Activo - Cooperativo
Categorías de los Sistemas OLAP
- ROLAP - MOLAP - HOLAP
Pasos del Modelado Dimensional
1. Elegir el proceso de negocio 2. Establecer el nivel de granularidad 3. Elegir las dimensiones 4. Identificar medidas y las tablas de hechos
Etapas del Ciclo de Vida de un DW
1. Planificación del Proyecto 2. Definición de Requerimientos del Negocio 3. Modelado Dimensional 4. Diseño Físico 5. Diseño e Implementación del subsistema ETL 6. Implementación 7. Mantenimiento y Crecimiento del Data Warehouse 8. Especificación de aplicaciones de BI
Clasificación
Aquí se identifican patrones que enlazan los datos con características de otros elementos definidos; por ejemplo, una empresa puede clasificar a sus clientes como leales al revisar sus consumos.
Enfoque del Modelo Bill Inmon
Bottom-Up
Inteligencia de Negocios
Conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de la información que permite tomar mejores decisiones a los usuarios de una organización
Diferencias entre BI y DW
Data Warehousing hace referencia al almacenamiento de datos, por su parte, el Business Intelligence hace referencia a las herramientas y aplicaciones utilizadas en el análisis e interpretación de esos datos.
Tecnologías que forman parte de BI
Data warehouse. • Reporting. • Análisis OLAP (On-Line Analytical Processing). • Análisis visual. • Análisis predictivo. • Cuadro de mando. • Cuadro de mando integral. • Minería de datos. • Gestión del rendimiento. • Previsiones. • Reglas de negocio. • Dashboards. • Integración de datos (que incluye ETL, Extract, Transform and Load).
Modelo Ralph Kimball
El Data Warehouse es un consolidado de todos los Data Marts dentro de una empresa
Esquema Copo de Nieve
En este las tablas de dimensiones en este modelo representan relaciones normalizadas (3NF) y forman parte de un modelo relacional de base de datos
Planificación del Proyecto
En este proceso se determina el propósito del proyecto de DW/BI, sus objetivos específicos y el alcance del mismo, los principales riesgos y una aproximación inicial a las necesidades de información
Mineria de Datos
Es el proceso de analizar datos desde diferentes perspectivas con el objetivo de resumir los datos en segmentos de información útiles. Esta información que puede ser usada para incrementar réditos o beneficios, reducir costos, etc
Data Warehousing
Es el proceso de extraer y filtrar datos de las operaciones comunes de la organización, para transformarlos, integrarlos y almacenarlos en un almacén de datos con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización.
Staging Area
Es el sistema que permanece entre las fuentes de datos y el data warehouse con el objetivo de Facilitar la extracción de datos desde fuentes de origen con una heterogeneidad y complejidad grande
Definición de Requerimientos del Negocio
Es un proceso de entrevistar al personal de negocio y técnico, aunque siempre conviene, tener un poco de preparación previa
Modelado Dimensional
Es un proceso dinámico y altamente iterativo. Comienza con un modelo dimensional de alto nivel obtenido a partir de los procesos priorizados y descritos en la tarea anterior, y El proceso iterativo consiste en cuatro pasos
Data Mart
Es un subconjunto de los datos del Datawarehouse cuyo objetivo es responder a un determinado análisis, función o necesidad, con una población de usuarios específica.
ODS
Es un tipo de almacén de datos que proporciona sólo los últimos valores de los datos y no su historial; además, generalmente admite un pequeño desfase o retraso sobre los datos operacionales. Es un sistema destinado a liberar a los sistemas operacionales de realizar las labores de query & reporting
Hecho
Evento, actividad, item, transacción del negocio
Asociación
Eventos que ocurren en vinculación a otro evento; por ejemplo, la compra de un producto "a" se asocia a un día de la semana en que hay promociones
ROLAP
Implementación que almacena los datos en un motor relacional.
MOLAP
Implementación que almacena los datos en una base de datos multidimensional
Sistema de Inteligencia de Negocios
La habilidad de aprehender las relaciones de hechos presentados de forma que guíen a las acciones hacia una meta deseada
Agrupamiento
La minería crea grupos similares en el patrón de los datos, por ejemplo crear grupos-perfiles de personas con base en el consumo en un restaurante.
Segunda Forma Normal
Ningún atributo no primo depende parcialmente de cualquier clave
OLAP
On-Line Analitical Processing, Es una tecnología que permite un análisis multidimensional a través de tablas matriciales o pivotantes
OLTP
On-Line Transaction Processing, son bases de datos orientadas al procesamiento de transacciones
Dice
Operación OLAP que rota el cubo hacia una nueva perspectiva, para que los usuarios puedan ver los datos desde diferentes perspectivas en su análisis de los datos
Slice
Operación OLAP que se realiza un "corte" en el cubo para que los usuarios puedan centrarse en una área determinada del cubo
Drill Down
Operación OLAP que se utiliza para ver la información a un mayor nivel de detalle
Roll Up
Operación OLAP que se utiliza para ver la información a un menor nivel de detalle
Bill Inmon
Padre del DataWarehouse
DSS Cooperativo
Permite al encargado de la toma de decisiones (o a sus asesores) modificar, completar o perfeccionar las sugerencias de decisión proporcionadas por el sistema, antes de enviar de vuelta al sistema para su validación
DSS Activo
Puede llevar a cabo dicha decisión, sugerencias o soluciones
Tercera Forma Normal
Si está en 2NF y ningún atributo no primo depene transitivamente de una clave
DSS
Son sistemas de información basados en computadora que combinan modelos y datos para intentar resolver problemas con la ayuda de un usuario extensamente involucrado.
Procesos ETL
Tecnología de integración de datos basada en la consolidación de datos que se usa tradicionalmente para alimentar data warehouse, data mart, staging area y ODS
Enfoque del Modelo Bill Inmon
Top-Down
Preguntas en el Diseño Físico
¿Cómo puede determinar cuán grande será el sistema de DW/BI? ¿Cuáles son los factores de uso que llevarán a una configuración más grande y más compleja? ¿Cómo se debe configurar el sistema? ¿Cuánta memoria y servidores se necesitan? ¿Qué tipo de almacenamiento y procesadores? ¿Cómo instalar el software en los servidores de desarrollo, prueba y producción? ¿Qué necesitan instalar los diferentes miembros del equipo de DW/BI en sus estaciones de trabajo? ¿Cómo convertir el modelo de datos lógico en un modelo de datos físicos en la base de datos relacional? ¿Cómo conseguir un plan de indexación inicial? ¿Debe usarse la partición en las tablas relacionales?