ESTADISTICA TEMA 2
26) Desventajas de las medidas de posición robustas
.........
¿Por qué surge la necesidad de hacer análisis exploratorio univariante en una muestra?
El análisis exploratorio tiene como objetivo identificar el modelo eórico más adecuado para representar la población de la cual proceden los datos muestrales. Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución identificando características tales como: valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma de la distribución, etc.
36) Concepto y uso del coeficiente de asimetría
El coeficiente de asimetría (CA) es una medida adimensional que nos permitirá analizar la simetría entre diferentes distribuciones. Si CA = 0En este caso la distribución es simétrica o insesgada. Si CA > 0En este caso la distribución se alarga para valores superiores a la media de la distribución(a la derecha).Si CA <0En este caso la distribución se alarga para valores inferiores a la media de la distribución(izquierda).
¿Qué problema presenta el cálculo del coeficiente de variación?
El inconveniente fundamental del coeficiente de variación es que cuando la media aritmética vale cero, no está definido (porque el cociente de cualquier número entre cero es igual a infinito). Asimismo el coeficiente de variación se ve afectado por cambios de origen (como la media aritmética).
Concepto y uso del recorrido intercuartílico
El rango intercuartílico es un medida de dispersión de un conjunto de datos que expresa la diferencia o la distancia entre el primer y el tercer cuartil. En otras palabras, el rango intercuartílico es la diferencia entre el penúltimo y el primer cuartil de una distribución utilizado en el diagrama de caja.
¿Cuál es la relación entre la media aritmética y la media ponderada?
En la media aritmética todos los datos son igual de importantes. Así es simplemente el promedio.En la ponderada cada dato tiene una importancia diferente, antes de promediar, cada dato se multiplica por una constante llamada "peso del dato" antes de promediar.
En qué consiste la Regla de detección basada en la relación entre la media aritmética y la desviación típica dada por la desigualdad de Tchebychev?
La desigualdad de Tchebychev es un importante resultado matemático que permite conocer el número mínimo de frecuencias contenidas en un intervalo simétrico respecto de la media, a partir de la media y la desviación típica cuando no se dispone de la distribución de frecuencias completa.
¿Cuál es la relación entre los denominados errores ajenos al muestreo y la presencia de outliers en una muestra?
La relacion es que tanto como los errores y presencia de outliers pueden alterar la muestra entera y sus valores asi como la media, desviacion tipica, varianza, etc
¿En qué consiste la estandarización o tipificación de una variable?
La tipificación de variables es una transformación lineal que aplicamos sobre una variable cuantitativa y que resulta muy util para eliminar su dependencia respecto a las unidades de medida empleadas. implica que las variables tipificadas sean comparables entre si
44)¿Qué ventaja presenta la regla de detección de outliers basada en la robustez en los cuartiles (Qi) y el recorrido intercuartílico (RI), frente a la regla de detección 3 de basada en la relación entre la media aritmética y la desviación típica dada por la desigualdad de Tchebychev?
Con la de tchebychev se utiliza la desviacion tipica y la media y esos son datos estan afectados por valores extremos. El RI no esta afectado por valores extremos pero solo nos da valores que estan dentro del 50%.
¿cuáles son las trasformaciones no lineales más frecuentes para corregir la asimetría y la dispersión en una distribución de frecuencias?
Cuando se tienen distribuciones de frecuencias con asimetría negativa (frecuencias altas hacia el lado derecho de la distribución), es habitual aplicar la transformación y = x2. Mediante esta trasformación comprimimos la escala de la variable para valores pequeños y la expandimos para valores altos. variable original Cuando se tienen distribuciones de frecuencias con asimetría positiva (frecuencias altas hacia el lado izquierdo de la distribución), es habitual aplicar va1rios tipos de transformaciones que comprimen los valores altos y expanden los pequeños. Las transformaciones más habituales ordenadas en orden creciente son: 1 ) √ 𝑥𝑥 , 2 ) ln ( 𝑥𝑥 ) 𝑦 3 ) 1/𝑥
Concepto y utilidad de los gráficos de caja y bigotes
Los gráficos de caja, son representaciones semigráficas que permiten determinar fácilmente de forma visual la tendencia central, la variabilidad, la forma y la existencia de posibles valores atípicos en una distribución de frecuencias. De hecho se diferencian de las otras herramientas gráficas, histogramas y gráficos de barras, en que están especialmente diseñadas para identificar outliers que puedan distorsionar todo el análisis estadístico posterior.
¿cuándo se utilizan las medidas de posición robustas?
Se pueden usar medidas de escala robustas como estimador de propiedades de la población, ya sea para ajustar sus parámetros o como estimadores
Según la praxis estadística, ¿qué porcentaje de outliers suele aparecer en una muestra
si este es mayor que 1.5 veces el valor del rango intercuartil más alla de los cuartiles
Propiedades de la desviación típica
siempre da positiva medida de dispersión optima en tornno a la media no varia con cambios de origen le afectan los cambios de escala
Concepto y uso de las medidas de síntesis o estadísticos- resumen de una distribución de frecuencias
son expresiones sinteticas calculadas a partir de datos individuales que son especialmente relevantes cuando disponemos de datos homogeneos
Cuál es el criterio para identificar outliers utilizando el Box and whisker plot?
son los puntos que se alejan 3 o más veces el recorrido intercuartílico de ambos lados de la caja (es decir, de Q1 y Q3). En la representación vertical del gráfico que tenemos de muestra se señalan con asterisco (*)
¿Qué es la marca de clase de un intervalo?
valor que representa el intervalo
¿Por qué son adimensionales el coeficiente de variación y el coeficiente de asimetría?
porq permite hacer comparaciones entre medias de variables medidas en diferentes unidades
Concepto y uso de la distribución de frecuencias
representación tabular ordenada de los diferentes valores que puede tomar una variable con sus frecuencias correspondientes y que denotaremos por (xi, ni)
¿Qué utilidad tiene la desigualdad de Tchebychev estudiada en el curso?
Una medida para deteccion de outlier
¿en qué consiste hacer un cambio de origen en una variable estadística?
cuando a los valores de una variable les sumamos una constante k, la media aritmetica queda aumentad en esa constante
¿A qué se denomina análisis univariante o unidimensional?
cuando analizamos una variable en cada tabla
¿Qué es una distribución multimodal?
cuando hay mas de una moda
¿Cuándo se utiliza la distribución de frecuencias agrupada en intervalos?
cuando los datos son continuos o hay presencia de un elevado numero de valores
¿cómo se identifican los outliers en un histograma o en un diagrama de barras?
cuando una barra esta lejos del grupo entero de barras. (cuando es eencuentra separado del grupo)
Propiedades de la media aritmética
es el centro de gravedad de la distribución es afectada por los cambio de origen es afectada por los cambios de escala
¿Qué es un histograma?
es un grafico para representar distribuciones de frecuencias agrupadas en intervalos,
A qué llamamos datos anómalos, atípicos o outliers?
es una observación que es numéricamente distante del resto de los datos
Diferencia entre frecuencia absoluta y frecuencia relativa
frec absoluta, numero de ves que se repite cada valor de la variable/ frec relativa indica la frec absoluta en porcentaje respecto del total de observaciones
¿Cuándo se utiliza el diagrama de barras?
gráfico para representar distribuciones de frecuencias sin agrupar
¿Qué medidas de posición y de desviación se ven afectadas por cambios de escala?
media aritmetica, desviacion tipica, varianza,
¿Qué media se utiliza para calcular un promedio de porcentajes?
media geométrica
¿Para qué sirven las medidas de dispersión relativas?
para poder comparar y analizar dos escenarios destinos(que tengan diferentes unidades)
¿Para qué sirven las frecuencias acumuladas?
permite anaizar cada valor puesto en relación con los demas