modulo 1
Tipos de analítica
Analítica descriptiva Analítica diagnóstica Analítica predictiva Analítica prescriptiva
Tipos de análisis de datos (Data Analysis)
Análisis cuantitativo Análisis cualitativo Minería de datos (Data Mining)
análisis cuantitativo
Esta técnica implica el análisis de un gran número de observaciones de un dataset con base en técnicas estadísticas
Análisis cualitativo
Este tipo de analisis implica analizar una pequeña muestra con mayor profundidad
Cloud Computing
Introduce entornos remotos que pueden hospedar una infraestructura de TI para almacenar y procesar datos a gran escala
OLTP Y OLAP
Las fuentes de datos de ________________ pueden ser usadas por las herramientas de Inteligencia de negocios
combinacion de de las necesidades empresariales y las innovaciones tecnológicas que surgieron en la big data
Analítica y ciencia de datos Digitalización Tecnología asequible y hardware básico Social media Comunidades y dispositivos hiperconectados Cloud Computing
los principales factores empresariales y tecnológicos que permitieron que Big Data se convirtiera en una especialidad en sí
Analítica y ciencia de datos Digitalización Tecnología asequible y hardware básico Social media Comunidades y dispositivos hiperconectados Cloud Computing
ejemplos de lo que un framework de gestión de Big Data
Estandarización sobre cómo se etiquetan los datos y sobre los metadata usados para el etiquetado Políticas que regulan el tipo de datos externos que se pueden adquirir Políticas para la protección de datos y conservar el anonimato de datos Políticas para el archivo de datos provenientes de fuentes de datos y resultados de análisis Políticas para la limpieza (cleansing) y filtrado (filtering) de datos
Tipos de datos en los entornos Big Data
datos estructurados datos sin estructurar datos semiestructurados
Algunas de las justificaciones comunes para incorporar un entorno basado en nube para respaldar una solución de Big Data son
existen recursos inadecuados de hardware interno no se dispone de inversión inicial de capital el proyecto debe estar aislado del resto de la empresa para no afectar los procesos empresariales existentes la iniciativa de Big Data es un prototipo los datasets que requieren ser procesados están hospedados en la nube se ha llegado a los límites de los recursos de informática y almacenamiento disponibles usados por una solución interna de Big Data
Los resultados del procesamiento de la solución de Big Data pueden generar una gran variedad de conocimientos y beneficios, por ejemplo:
optimización operativa inteligencia accionable identificación de nuevos mercados predicciones precisas detección de errores y fraudes registros más detallados mejor toma de decisiones descubrimientos importantes
el valor
se define como la utilidad que los datos tienen para una empresa
Aprendizaje supervisado Aprendizaje no supervisado
tipos de machine learning
En los entornos orientados a los negocios, los resultados de la analítica pueden disminuir los costos operativos y facilitar la toma estratégica de decisiones. En el ámbito científico, la analítica puede ayudar a identificar la causa de un fenómeno y mejorar la precisión de las predicciones. En los entornos basados en servicios —como en las organizaciones del sector público—, la analítica puede ayudar a mejorar el enfoque orientado en la prestación de servicios de alta calidad, disminuyendo los costos.
Distintas organizaciones utilizan técnicas y herramientas de analítica en formas diferentes; por ejemplo, estos tres sectores
ámbito científico
En el _____________________, la analítica puede ayudar a identificar la causa de un fenómeno y mejorar la precisión de las predicciones
entornos basados en servicios
En los _____________________________ -como en las organizaciones del sector público—, la analítica puede ayudar a mejorar el enfoque orientado en la prestación de servicios de alta calidad, disminuyendo los costos
entornos orientados a los negocios
En los _________________________________________, los resultados de la analítica pueden disminuir los costos operativos y facilitar la toma estratégica de decisiones
Metodología diferencial
Es necesaria para controlar cómo fluyen los datos hacia dentro y hacia afuera de las soluciones de Big Data y controlar cómo se pueden establecer los loop de retroalimentación, para facilitar que los datos procesados sean sometidos a mejoras constantes
reportes especializados tableros de control (Dashboards)
La Inteligencia de negocios (BI) realiza reportes sobre diferentes KPI por medio de
data marts
La Inteligencia de negocios (BI) tradicional no puede funcionar eficientemente sin los
datos internos y externos
La analítica prescriptiva incorpora___________
Data Analysis
La minería de datos (Data Mining), también conocida como exploración de datos, es una forma especializada de______________________
establecer patrones y relaciones entre los datos analizados
La realización de análisis de datos (Data Analysis) permite
limpios
La única base de datos centralizada de una bodega de datos digital (Data Warehouse) está basada en
identificar áreas problemáticas, con el fin de adoptar medidas correctivas lograr el cumplimiento normativo
Los KPI están estrechamente relacionados con los objetivos estratégicos de una empresa y generalmente son utilizados para
dataset
Los metadata proporcionan información sobre las características y la estructura de un____________________
frameworks de gestión de datos y gestión de Big Data
Para que el análisis de datos (Data Analysis) y analítica tengan éxito y ofrezcan valor, las empresas necesitan tener
filtrar grandes cantidades de datos sin procesar ni estructurar
Por lo general, el proceso de analítica implica?
Datos estructurados
Por lo general, estos datos son almacenados en bases de datos relacionales, y con frecuencia son generados por aplicaciones empresariales personalizadas, los sistemas de Planificación de Recursos Empresariales (ERP) y los sistemas de Relación con los Clientes (CRM). Estos datos normalmente no tienen ningún requisito especial de preprocesamiento o almacenamiento. Algunos ejemplos son las transacciones bancarias, los registros de los sistemas de OLTP y los registros de clientes
Hadoop
Puede ser utilizado como un motor de ETL o analítico para procesar grandes cantidades de datos estructurados, semiestructurados y sin estructurar
violaciones intencionales o accidentales de la privacidad.
Realizar procesos de analítica sobre los datasets puede revelar información confidencial sobre las organizaciones o las personas naturales. Incluso el análisis de datasets separados que contienen datos aparentemente inofensivos puede revelar información privada si llegan a ser analizados conjuntamente. Esto puede generar
aprendizaje automático-Machine Learning
___________________ es el proceso de enseñar a las computadoras a aprender a partir de datos existentes
que es un dataset
a los conjuntos o grupos de datos relacionados se les conoce comúnmente como datasets. Cada grupo o miembro de un dataset (dato) comparte los mismos atributos con otros dentro de un dataset.
Roll-Up
agrupan datos en todas las múltiples categorías, para mostrar totales y subtotales
es usada en la Inteligencia de negocios (BI) tradicional
analítica descriptiva y diagnóstica
ruido
datos que no tienen valor alguno
señal
datos que tienen valor que conduce a información importante
minería de datos
encuentra patrones ocultos y relaciones basadas en atributos de datos antes desconocidos
que es big data?
es el campo que se dedica al analisis procesamiento y almacenamiento de grandes cantidades de informacion partiendo de diferentes fuentes de datos
Inteligencia de negocios (BI)
es el proceso de comprender el funcionamiento de una empresa —para mejorar la toma de decisiones— al analizar los datos externos y los datos generados por sus procesos empresariales
Análisis de datos (Data Analysis)
es el proceso de examinación de los datos con el fin de hallar hechos, relaciones, patrones, explicaciones y/o tendencias. El objetivo final del análisis de datos (Data Analysis) es respaldar la toma de decisiones
analitica
es la disciplina encargada comprender los datos, analizándolos mediante una variedad de técnicas científicas y herramientas automatizadas, enfocada en el descubrimiento de patrones y correlaciones ocultos
Extraer - transformar - cargar (ETL)
es un proceso mediante el cual los datos son cargados desde un sistema origen hacia un sistema destino. El sistema origen puede ser una base de datos, un archivo plano o una aplicación. De igual forma, el sistema destino puede ser una base de datos o cualquier otro sistema de información.
bodega de datos digital (Data Warehouse)
es un repositorio central a nivel empresarial que contiene datos históricos y actuales
Procesamiento de Transacciones en Línea (OLTP)
es un sistema de software que procesa los datos orientados a las transacciones. El término "transacción online" se refiere a la finalización de una actividad en tiempo real y no mediante el procesamiento por lotes (Batch Processing)
Procesamiento Analítico en Línea (OLAP)
es un sistema utilizado para el procesamiento de consultas de análisis de datos (Data Analysis). es una parte esencial de los procesos de Inteligencia de negocios (BI), minería de datos (Data Mining) y aprendizaje automático (Machine Learning). Estos procesos son relevantes para Big Data ya que actúan como una fuente de datos y un sink con la capacidad de recibir datos. Son utilizados en las analíticas diagnóstica, predictiva y prescriptiva, las cuales son presentadas más adelante en este curso
DATA MART
es un subconjunto de datos almacenados en una bodega de datos digital (Data Warehouse) que, por lo general, pertenece a un departamento, división o línea de negocio específica
Indicadores Clave de Desempeño (KPI)
es una forma de medir el éxito dentro de un contexto particular.están estrechamente relacionados con los objetivos estratégicos de una empresa
Minería de datos (Data Mining)
es una forma especializada de análisis de datos (Data Analysis) dedicada a los datasets grandes
La visualización de datos
es una técnica a través de la cual los resultados de analítica son comunicados gráficamente utilizando gráficos, mapas, grilla de datos, infografías y alertas
análisis cuantitativo
es una técnica de análisis de datos (Data Analysis) orientada a cuantificar patrones y correlaciones hallados en los datos
Análisis cualitativo
es una técnica de análisis de datos (Data Analysis) orientada a describir cualidades de varios datos por medio de palabras
OLAP
es usado para el almacenamiento de datos historicos que son agregados y desnormalizados para hacer que los reportes sean mas rapidos
analítica descriptiva
este tipo de analitica se ejecuta mediante reportes o tableros de control (Dashboards) especializados
Analítica diagnóstica
este tipo de analitica usa preguntas que se enfocan en la razón del evento
La analítica descriptiva
este tipo de analítica se ejecuta para responder preguntas sobre eventos que ocurrieron
Datos sin estructurar
estos datos No pueden ser procesados ni consultados intrínsecamente por medio de SQL ni de otras características tradicionales de programación, y usualmente no se corresponden bien con las bases de datos relacionales
Procesamiento de Transacciones en Línea (OLTP)
estos tipos de sistemas almacenan datos operacionales que están completamente normalizados, y que en el ámbito de Big Data, son importantes para representar una fuente común de datos analíticos de entrada.
Análisis "qué-tal-si":
facilitan la visualización de múltiples resultados al permitir el cambio dinámico de factores relacionados
aprendizaje automático
hace predicciones categorizando datos basados en patrones conocidos
comprensión, a nivel empresarial
la Inteligencia de negocios (BI) de Big Data Comprende tanto la analítica predictiva como la prescriptiva para facilitar la ____________________
Analitica
por lo general es aplicada usando tecnologías y frameworks distribuidos y altamente escalables para analizar grandes volúmenes de datos provenientes de distintas fuentes
Metadata
proporcionan información sobre las características y la estructura de un dataset
Drill-Down
proporcionan una vista detallada de los datos de interés al enfocarse en un subgrupo de datos de la vista resumida
Agregación
proporcionan una vista holística y resumida de los datos a través de múltiples contextos
minería de datos
puede emplear algoritmos de aprendizaje automático
Inteligencia de negocios (BI)
puede utilizar los datos consolidados que se encuentran almacenados en la bodega de datos digital (Data Warehouse) para ejecutar consultas analíticas
Filtrado (filtering)
se enfocan en un conjunto particular de datos al filtrar los datos que no son de interés inmediato
veracidad
se refiere a la calidad o fidelidad de los datos
Procedencia
se refiere a la información sobre el origen de los datos que ayuda a determinar su autenticidad y calidad.
Variedad
se refiere a los múltiples formatos y tipos de datos que deben ser compatibles con las soluciones de Big Data
Los sistemas de OLTP
son compatibles con consultas compuestas por operaciones simples de inserción, eliminación y actualización, con tiempos de respuesta menores a un segundo
datos generados por máquinas
son el resultado de la generación de datos automatizada y determinada por eventos, ejecutada por programas de software o dispositivos de hardware. La Figura 1.2 ofrece una representación visual de ejemplos de datos generados por máquinas de servidores web, medidores inteligentes y dispositivos GPS
datos generados por humanos
son el resultado de la interacción entre las personas y los sistemas; por ejemplo, servicios online y dispositivos digitales. La Figura 1.1 ilustra ejemplos de datos generados por humanos, los cuales pueden ser datos estructurados, video y datos de texto
Las herramientas de visualización de datos para las soluciones de Big Data generalmente utilizan
tecnologías analíticas en memoria
Datos semiestructurados
tienen un nivel definido de estructura y consistencia, pero no son relacionales
cuales son las 5v que distinguen a big data
velocidad,variedad,veracidad,volumen,valor