Tema 2: Descripción numérica de una variable
2. Otros tipos de media: La media cuadrática.
Consiste en la raíz cuadrada de la media aritmética de los cuadrados de los valores que tomen todas y cada una de las observaciones. Se utiliza cuando se necesita obtener un promedio que no tenga en cuenta el signo de los valores.
2. La Mediana: Cálculo con datos unitarios.
-Cuando el número de datos (N) es impar, la mediana es igual al valor central, es decir, el caso que se encuentra en el punto (N+1)/2. -Cuando N es par, la mediana es la media aritmética de los valores de los dos mas centrales, es decir, los que toman los casos que ocupan las posiciones (N/2) y (N/2+1)
3. La mediana: Cálculo a partir de una distribución de frecuencia.
Calculamos la frecuencia absoluta acumulada ascendente que supere a N/2 (Frecuencia absoluta entre dos), distinguiendo dos situaciones. -Si es igual a N/2 coincidirá con la media aritmética. -Si supera a N/2 será el valor correpondiente.
Relaciones entre la media, mediana y moda.
En distribuciones unimodales simétricas, (como la distribución normal) los valores de la media, la mediana y la moda coinciden. En distribuciones unimodales asimétricas, la mediana suele estar situada entre la moda y la media, más próxima a esta última. Concretamente: -Asimetría positiva (alargamiento de la cola derecha de la distribución), será media > mediana > moda. -Asimetría es negativa (alagramiento a la izquierda de la cola de la distribución), será media < mediana < moda. -Con niveles moderados de asimetría se da la siguiente relación empírica: Media - Moda = 3 (Media - Mediana).
2. La Moda: Cálculo con datos agrupados.
En los datos agrupados la Moda se encuentra en el intervalo modal, esto es, el que tiene mayor frecuencia absoluta (o, si se trata de intervalos desiguales, el que tiene mayor cociente de frecuencia ansoluta dividida por su amplitud). Procedimiento: Marca de clase del intervalo modal (valor grande más valor pequeño entre dos).
1. La Moda (Mo)
Es el valor (clase o categoría) con más alta frecuencia absoluta (es decir, el valor más común de una distribución). La moda puede no existir o no ser única. -Unimodal: Distribución con una moda. -Bimodal: Distribución con dos modas. -Multimodal: Distribución con varias modas. -Amodal o uniforme: Distribución sin moda, por que la frecuencia de todos los valores es constante o igual. Aunque se considera una medida de centralización, algunas veces no esta en la zona central. Es la medida apropiada para las variables de nivel nominal.
2. La Media Aritmética
Es la medida de tendencia central más utilizada. En rigor, solo se puede calcular para variables cuantitativas, no con datos cualitativos. Sin embargo, a menudo se calcula para variables ordinales (semicuantitativas), que, en ese caso, son tratadas como si fuesen medidas a nivel de intervalo. La suma (y, por tanto, la media) de las desviaciones de un conjunto de números con respecto a su media es cero. Es decir, las sumas de los valores absolutos de las desviaciones positivas y negativas son iguales. La media es el valor que hace que la suma de los cuadrados de las desviaciones con respecto a ese número sea el mínimo posible.
1. La Media: Fórmulas.
Es la suma de los valores que toman todos y cada uno de los casos de la distribución dividida por su número total. Fórmulas (en tema) -Con datos unitarios o suelos: Suma de los supuestos entre N. -A partir de la distribución de frecuencias: La suma de las frecuencias absolutas por supuestos entre N. -Con datos agrupados en intervalos: Lo mismo pero con Marca de clase.
La media aritmética ponderada
Es un caso particular de la media, que se usa cuando se pretende calcular la media de una distribución cuyos valores tienen diferente importancia relativa (o peso) de cara al resultado final. Fórmula en apuntes.
3. La media aritmética
La media se basa en información sobre (la suma de) todos los valores de la distribución, tanto los próximos a su "centro" como los alejados de el. De ahí que sea un estadístico muy informativo. Pero por ello mismo, la presencia de valores atípicos y extremos produce una distorsión del valor de la media, esta no es un estadístico robusto (sobre todo en muestras pequeñas).
4. La Mediana: Inconvenientes.
La mediana depende del orden de los datos y del valor del que se encuentra en el centro, no del valor de todos y cada uno de ellos. Por tanto, prescinde de la información sobre las zonas de la distribución apartadas del centro. Esto supone un inconveniente porque limita su valor informativo sobre la distribución en su conjunto. Pero también es en otras ocasiones una ventaja, pues, al atender unicamente a la posición central en la distribución, en sentido estricto, es un estadístico robusto, no le influyen los valores atípicos o extremos. Pero sí le afectan los cambios en el tamaño de la muestra (adición o eliminación de casos).
1. La mediana (Me)
La mediana es el valor central o punto medio de la distribución cuando los datos están ordenados de forma ascendente. Es decir, es un valor que divide por la mitad la distribución ordenada de las observaciones. Es la medida de centralización más adecuada para las variables de nivel ordinal. El 50% de los datos son menores o iguales a la mediana y el 50% restante son mayores o iguales.
1. Medidas de posición: Los cuantiles.
La mediana es un caso particular de las medidas de posición conocidas como cuantiles. Si se disponen los datos en orden ascendente, la mediana es el valor que los divide en dos partes iguales. La noción de cuantil generaliza esta idea: Los cuantiles son valores que dividen la distribución de una variable en un númeo cierto de partes iguales.
5. Medidas de posición: Cálculo de la mediana con datos agrupados en intervalos de clase.
Le mediana es un cuantil. Su cálculo con datos agrupados se hace siguiemdo el mismo procedimiento. En este caso, k*N/q = N/2.
2. Medidas de posición: Tipos de cuantiles.
Los percentiles (P) (o centiles) dividen una distribución de datos en 100 partes iguales. Hay por tanto 99 percentiles: P_1, P_2...P_99. El percentil de orden k se puede definir como el valor P_k que deja por debajo el k% de las observaciones. Los cuartriles (Q) dividen la distribución en cuatro partes iguales. Hay 3 cuartiles: Q_1, Q_2, Q_3 que dejan por debajo el 25%, el 50% y el 75% de los casos. Q_2 coincide con la mediana. Los quintiles (K) dividen la distribución en 5 partes iguales. Hay 4 quintiles: K_1, K_2, K_3, K_4. Los deciles (D) dividen la distribución en 10 partes iguales. Hay 9 deciles: D_1, D_2...D_9.
Esquema Tema
Medidas de tendencia central -Moda -Mediana -Media aritmética -Medias aritmética recortada y ponderada -Media geométrica y cuadrática Medidas de posición: los cuantiles
Medidas de tendencia central (o de centralización)
Medidas estadísticas que reducen el conjunto de datos sobre una variable a un valor "central" considereado típico (o promedio, en un sentido genérico) que se usa como representación y resumen de toda la distribución. Esta reducción es útil por razones operativas, expositivas, de síntesis y comparativas. Pero por definición estas medidas implican pérdida de información acerca de algunos aspectos de la distribución y son, por lo tanto imperfectas. De ahí la necesidad de acompañarlas con medidas de dispersión o medidas de error.
1. La media aritmética recortada.
Para eliminar la influencia de los valores atípicos y extremos, se puede recurrir a una media aritmética recortada, acotada o truncada, que es una media calculada prescindiendo de los valores situados en las colas de la distribución. La media recortada al α por ciento es la media de los datos que quedan despues de suprimir el α por ciento de los datos más grandes y el α por ciento de los más pequeños. (En excel es distinto). Las medias recortadas tambien se usan recortando sólo por el lado inferior o solo por el lado superior de la distribución. Se hace así cuando la distribución es asimétrica y los valores atípicos aparecen en una cola. También se puede aplicar recortes desiguales en cada lado de la distribución.
3. La Moda: Desventajas
Por definición la moda ofrece poca información, porque se basa en un único valor, el más frecuente. No es sensible a variaciones en los demás valores de la distribucion ni el tamaño de la muestra. De ahí que su utilidad sea muy limitada, salvo: -Distribuicones unimodales o bimodales con gran concentración de las observaciones en las(s) moda(s). -Cuando se utiliza la moda como complemento de la información proporcionada por la media y/o mediana.
1. Otros tipos de medias: La media geométrica.
Raíz N-ésima del producto de los N valores de la distribución. Sólo se define para valores numéricos positivos. Se usa sobre todo para calcular promedios de porcentaje, razones, índices o tasas de crecimiento o variación. También para mostrar los efectos multiplicativos en el tiempo de los cálculos del interés compuesto, la inflación y el crecimiento poblacional. Es la medida recomendada para cálcular el cambio porcentual medio a lo largo del tiempo de muchas variables.
4. Medidas de posición: Cálculo de cuantiles a partir de datos agrupados en intervalos.
Se identifica el intervalo en el que se encuentra el cuantil, que es aquel cuya frecuencia absoluta acumulada es mayor o igual a k*N/q magnitud que se calcula igual que para los datos unitarios. Si N_i es igual a k*N/q, el cuantil buscado es el límite superior del intervalo. Si N_i es mayor que k*N/q, el cuantil se calcula con otra fórmula (ver).
3. Medidas de posición: Cálculo de cuantiles a partir de datos unitarios o de distribuciones de frecuencias completas.
Se identifica la frecuancia absoluta acumulada mayor o igual a k*N/q, siendo k el orden del cuantil (por ejemplo, el percentil 80), q el número de intervalos (en el caso de los percentiles, 100) y N la frecuencia total. El cuantil es el valor de la variable pra que se encuentra una frecencia acumulada absoluta igual o mayor que N_i.