MEDIDAS DE
ASIMETRIA Y CURTOSIS.
ASIMETRÍAEs una medida de forma de una distribución que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el gráfico.
MEDIDAS
DE ASIMETRÍA
Coeficiente
de Karl Pearson
Donde:
= media aritmética.
Md =
Mediana.
s =
desviación típica o estándar.
Nota:
El
Coeficiente de Pearson varía entre -3 y 3
Si As
< 0? la distribución será asimétrica negativa.
Si As = 0?
la distribución será simétrica.
Si As
> 0? la distribución será asimétrica positiva.
Medida de
Yule Bowley o Medida Cuartílica
Donde:
= Cuartil uno;
= Cuartil dos = Mediana;
= Cuartil tres.
Nota:
La Medida
de Bowley varía entre -1 y 1
Si As
< 0? la distribución será asimétrica negativa.
Si As = 0?
la distribución será simétrica.
Si As
> 0? la distribución será asimétrica positiva.
Medida de
Fisher
Para datos sin agrupar se emplea la siguiente
fórmula:
Donde:
= cada uno de los valores; n =
número de datos; = media aritmética; f = frecuencia absoluta
Nota:
Si As
< 0 ?Indica que existe presencia de la minoría de datos en la parte
izquierda de la media, aunque en algunos casos no necesariamente indicará que
la distribución sea asimétrica negativa
Si As = 0?
la distribución será simétrica
Si As
> 0? Indica que existe presencia de la minoría de datos en la parte derecha
de la media, aunque en algunos casos no necesariamente indicará que la
distribución sea asimétrica positiva.
CURTOSIS
La
curtosis mide el grado de agudeza o achatamiento de una distribución con
relación a la distribución normal, es decir, mide cuán puntiaguda es una
distribución.
TIPOS DE CURTOSIS
La
curtosis determina el grado de concentración que presentan los valores en la región central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
MEDIDAS DE CURTOSIS
Medida de
Fisher
Para
datos sin agrupar se emplea la siguiente fórmula:
Donde:
= cada uno de los valores;
n = número de datos; = media aritmética;
= Cuádruplo de la desviación estándar poblacional;
f =
frecuencia absoluta;
xm =
marca de clase
Nota:
Si a <
3 ? la distribución es platicútica
Si a = 3
? la distribución es normal o mesocúrtica
Si a >
3 ? la distribución es leptocúrtica
Medida
basada en Cuartiles y Percentiles
(Letra griega minúscula kappa) = Coeficiente percentil de curtosis
Nota:
Si < 0,263? la distribución es platicúrtica
Si =0,263? la distribución es normal o mesocúrtica
Si > 0,263? la distribución es leptocúrtica
Esta
medida no es muy utilizada.
REPRESENTACIONES
GRAFICAS.
En los análisis estadísticos, es frecuente utilizar representaciones
visuales complementarias de las tablas que resumen los datos de estudio. Con
estas representaciones, adaptadas en cada caso a la finalidad informativa que
se persigue, se transmiten los resultados de los análisis de forma rápida,
directa y comprensible para un conjunto amplio de personas.
DIAGRAMA DE
DISPERCION.
La representación gráfica más
útil para describir el comportamiento conjunto de dos variables es el diagrama
de dispersión o nube de puntos, donde cada caso aparece representado como un
punto en el plano definido por las variables
y
El cuadro de diálogo siguiente
recoge diferentes tipos de diagramas de dispersión.
Éstos pueden ser:
Simple: si el diagrama sólo
recoge el comportamiento simultáneo de dos variables, una definida en el eje X
(abscisas) y la otra en el eje Y (ordenadas). Con el botón Definir se
abre el siguiente cuadro:
En Eje X se
selecciona la variable que se considera independiente y en Eje Y la
dependiente.
En Establecer marcas por puede
indicarse alguna variable de control cuyas categorías o valores se representan
con un símbolo o color distintivo. Esto permite identificar los puntos
pertenecientes a cada categoría y poner de manifiesto si existen
comportamientos diferenciados.
En Etiquetar los casos
mediante se puede indicar alguna variable cuyos valores se tomarán
como etiquetas de los casos. Para visualizar las etiquetas es preciso activar
la opción Mostrar el gráfico con las etiquetas de caso del
cuadro de diálogo Opciones.
El botón Títulos ofrece
la posibilidad de definir dos líneas de título y un subtítulo, y dos líneas de
nota al pie del gráfico.
Superpuestos: presenta dos o más parejas de variables en un
mismo gráfico.
En Pares Y-X se
indican las parejas de variables a representar seleccionándolas de dos en dos
en la lista de variables. Si se quiere intercambiar X por Y se utiliza el
botón Intercambiar par.
Etiquetar los casos mediante tiene la misma función que en el diagrama
simple.
Los botones Titulos y
Opciones ofrecen las mismas posibilidades ya vistas para el diagrama
de dispersión simple.
Matricial: ofrece una matriz de diagramas de dispersión
simples de todos los pares y todas las ordenaciones posibles que se pueden
formar con las variables seleccionadas. En el cuadro de diálogo que aparece con
el botón Definir se deben seleccionar las variables cuyos
diagramas de dispersión simples aparecerán en la matriz.
3-D: proporciona en tres dimensiones el diagrama de
dispersión de tres variables.
Si el diagrama de dispersión
es Simple o Superpuesto se puede visualizar con la recta que
mejor se ajusta a la nube de puntos. Para ello se edita el gráfico en el visor
de resultados haciendo doble clic sobre el mismo.
En la barra de menú del editor de
gráficos se activa Diseño > Opciones y se abre el cuadro de
diálogo:
Se selecciona Ajustar
línea > Total. En Opciones de ajuste se puede elegir el
método de ajuste deseado entre: Regresión lineal (activado por
defecto), Regresión cuadrática, Regresión cúbica y Minsce. También
es posible incluir en el diagrama de dispersión una línea paralela al eje de
abscisas que pasa por la media de la variable Y con la opción Línea de
referenciapara la media en Y > Total.
Cuando el diagrama recoge un gran
número de observaciones algunos puntos representan a más de un caso ya que
estos se superponen . Con la opción Girasoles > Mostrar
girasoles cada punto aparece con tantas rayas o 'pétalos' como casos
representa. Ésta es una forma gráfica de indicar cuantos casos están
representados por un punto.
DIAGRAMA DE
TALLO Y HOJAS.
El diagrama "tallo y hojas" (Stem-and-Leaf
Diagram) permite obtener simultáneamente una distribución de
frecuencias de la variable y su representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la derecha (que constituye la hoja)
del bloque de cifras restantes (que formará el tallo). Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
Edad de 20 personas (ejemplo)
Supongamos la siguiente distribución de frecuencias 36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Que
representan la edad de un colectivo de N = 20 personas y que vamos a
representar mediante un diagrama de Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo
Por último
reordenamos las hojas y hemos terminado el diagrama
HISTOGRAMA.
En
estadística, un histograma es una representación gráfica de una variable
en forma de barras, donde la superficie de cada barra es proporcional a la
frecuencia de los valores representados. En el eje vertical se representan las
frecuencias, y en el eje horizontal los valores de las variables, normalmente
señalando las marcas de clase, es decir, la mitad del intervalo en el que están
agrupados los datos.
Se
utilizan para variables continuas o para variables discretas, con un gran
número de datos, y que se han agrupado en clases.
Se
utiliza cuando se estudia una variable continua, como franjas de edades o
altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es
decir, valores continuos. En los casos en los que los datos son cualitativos
(no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible
un diagrama de sectores.
Tipos de histograma
- Diagramas de barras simples
Representa la frecuencia simple (absoluta o
relativa) mediante la altura de la barra la cual es proporcional a la
frecuencia simple de la categoría que representa.
- Diagramas de barras compuesta
Se usa para representar la información de una tabla
de doble entrada o sea a partir de dos variables, las cuales se representan
así; la altura de la barra representa la frecuencia simple de las modalidades o
categorías de la variable y esta altura es proporcional a la frecuencia simple
de cada modalidad.
- Diagramas de barras agrupadas
Se usa para representar la información de una tabla
de doble entrada o sea a partir de dos variables, el cual es representado
mediante un conjunto de barras como se clasifican respecto a las diferentes
modalidades.
- Polígono de frecuencias
Es un gráfico de líneas que de las frecuencias
absolutas de los valores de una distribución en el cual la altura del punto
asociado a un valor de las variables es proporcional a la frecuencia de dicho
valor.
- Ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil
cuando se quiere representar el rango porcentual de cada valor en una
distribución de frecuencias.
Una distribución de frecuencia acumulativa nos permite ver cuantas
observaciones se hallan por arriba o por debajo de ciertos valores, en lugar de
limitarnos a anotar los números de elementos dentro de los intervalos. Por
ejemplo, si queremos saber cuantos galones contienen menos de 17.0 ppm, podemos
servirnos de una tabla que incluya frecuencias acumulativas “menores que” en
nuestra muestra.
Distribución de frecuencia acumulativa “menor que”
de las concentraciones de cloro en ppm
Se llama ojiva a la gráfica de una distribución de frecuencia acumulativa. La ojiva de una distribución de este tipo se muestra en la figura. Los puntos graficados representan la cantidad de galones que tienen menos cloro que las partes por millón indicadas sobre el eje horizontal.
Ojiva “menor que” de la distribución de las concentraciones de cloro en ppm para 30 galones de agua tratada.
También es posible construir una ojiva de una distribución de frecuencia relativa, de la misma manera que una absoluta.
POLIGONO DE FRECUENCIA.
Es el nombre que recibe una clase de gráfico que se crea a
partir de un histograma de frecuencia. Estos histogramas emplean
columnas verticales para reflejar frecuencias): el polígono de frecuencia es realizado uniendo los puntos de mayor
altura de estas columnas.
Es decir, por tanto, podríamos establecer que un polígono de frecuencia
es aquel que se forma a partir de la unión de los distintos puntos medios de
las cimas de las columnas que configuran lo que es un histograma de frecuencia.
Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical
y porque nunca debe haber espacios entre lo que son unas y otras.
Se conoce como polígonos de frecuencia para datos agrupados a aquellos
que se desarrollan mediante la marca de clase que tiene coincidencia con el
punto medio de las distintas columnas del histograma. En el momento de la
representación de todas las frecuencias que forman parte de una tabla de datos
agrupados, se genera el histograma de frecuencias acumuladas que posibilita la
diagramación del polígono correspondiente.
El punto de más altura de un polígono de frecuencia equivale a la mayor frecuencia,
mientras que el área que se sitúa debajo de la curva incluye todos los datos
que existen. Cabe recordar que la frecuencia es la repetición
mayor o menor de un evento, o el número de veces que un
acontecimiento periódico se reitera en una unidad temporal.
DIAGRAMA DE
CAJA Y EJES.
Una gráfica de este tipo
consiste en una caja rectangular, donde los lados
más largos muestran el recorrido intercuartílico. Este
rectángulo está dividido por un segmento vertical que indica donde se posiciona
la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos
que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
Ejemplo distribución de edades
Utilizamos la ya usada distribución de frecuencias
(en tallos y hojas), que representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Ordenar los datos
Para calcular los parámetros estadístico, lo primero es ordenar la distribución20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Calculo de Cuartiles
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q1= (24 + 25) / 2 =
24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es
el valor de la variable que ocupa el lugar central en un conjunto de datos
ordenados. Como N/2 =10; la mediana es la media aritmética de dicho valor y el
siguiente:
me= Q2 =
(33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la
distribución. En nuestro caso, como 3N / 4 = 15, resulta
Q2= (39 + 39) / 2 = 39
Dibujar la Caja y los Bigotes
El bigote de la izquierda representa al colectivo de edades (Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
Información del diagrama
Podemos obtener abundante información de una distribución a partir de
estas representaciones. Veamos alguna:
- La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.
- El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores.
- El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años.
DIAGRAMA DE
SECTORES.
Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.
Los datos se representan en un círculo, de modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente.
El
diagrama circular se construye con la ayuda de un transportador de ángulos.
Ejemplo
En una
clase de 30 alumnos, 12 juegan a baloncesto, 3 practican la natación, 9 juegan
al fútbol y el resto no practica ningún deporte.
|
Alumnos
|
Ángulo
|
Baloncesto
|
12
|
144°
|
Natación
|
3
|
36°
|
Fútbol
|
9
|
108°
|
Sin deporte
|
6
|
72°
|
Total
|
30
|
360°
|
BIBLIOGRAFIA