ESTADÍSTICA
Es la rama de las Matemáticas que estudia el conjunto de métodos para: recoger, organizar, presentar, analizar datos acerca de un tema con el fín de obtener información sobre él.
7. Medidas de Dispersión
|
Estudio Estadístico: Es la recopilación de datos relacionados con un problema para que, mediante su organización, presentación y análisis, se logre comprender mejor y se puedan tomar decisiones más acertadas pára su solución.
Población: Todos los elementos sometidos a un Estudio Estadístico.
Individuo: Cada uno de los elementos de la población.
Muestra: Conjunto representativo de la población.
Muestreo: Actividades conducentes a la obtención de una muestra.
Valor: Cada posible resultado de un dato. No siempre es posible conocerlo de antemano.
Dato: Cada resultado obtenido durante el muestreo. También puede definirse como una representación de un atributo o variable acerca de un sujeto. Los datos, como tales, carecen de significado; para que sean de utilidad deben convertirse en información que le sirva a alguien para tomar decisiones.
Población: Todos los elementos sometidos a un Estudio Estadístico.
Individuo: Cada uno de los elementos de la población.
Muestra: Conjunto representativo de la población.
Muestreo: Actividades conducentes a la obtención de una muestra.
Valor: Cada posible resultado de un dato. No siempre es posible conocerlo de antemano.
Dato: Cada resultado obtenido durante el muestreo. También puede definirse como una representación de un atributo o variable acerca de un sujeto. Los datos, como tales, carecen de significado; para que sean de utilidad deben convertirse en información que le sirva a alguien para tomar decisiones.
Click sobre las imágenes para ver videos útiles de YouTube
Los datos pueden ser:
Cualitativos si se refieren a un atributo o cualidad del sujeto que no puede representarse por una cantidad. Ejemplo el sexo de una persona, la preferencia por una comida dentro de un conjunto de ellas.
Cuantitativos si se refieren a un atributo o cualidad del sujeto que puede representarse por una cantidad. Ejemplo la edad de una persona, la longitud de un tornillo.
Los datos cuantitativos se dividen a su vez en discretos o continuos. La edad de una persona es un dato cuantitativo discreto (números enteros) mientras que la longitud de un tornillo es un dato cuantitativo continuo (números decimales cuya expansión decimal sólo depende del aparato de medida)
Cualitativos si se refieren a un atributo o cualidad del sujeto que no puede representarse por una cantidad. Ejemplo el sexo de una persona, la preferencia por una comida dentro de un conjunto de ellas.
Cuantitativos si se refieren a un atributo o cualidad del sujeto que puede representarse por una cantidad. Ejemplo la edad de una persona, la longitud de un tornillo.
Los datos cuantitativos se dividen a su vez en discretos o continuos. La edad de una persona es un dato cuantitativo discreto (números enteros) mientras que la longitud de un tornillo es un dato cuantitativo continuo (números decimales cuya expansión decimal sólo depende del aparato de medida)
Puede hacerse mediante entrevistas, cuestionarios, inspección de registros (revisión en el sitio) u observación.
▲ Ejemplo de una encuesta
▲ Conteo (datos cualitativos)
Es el procedimiento mediante el cual se cuentan los datos de coinciden con cada una de los valores que haya tomado la variable estadística.
Por ejemplo, si se trata de contar las diferentes respuestas (datos) a la pregunta "rol en la institución", se cuenta la cantidad de respuestas (datos) que coinciden con cada una de las dos posibles, (E)studiante, (P)rofesor.
Si la variable estadística es "color preferido", se contará la cantidad de datos que corresponden a cada color.
Por ejemplo, si se trata de contar las diferentes respuestas (datos) a la pregunta "rol en la institución", se cuenta la cantidad de respuestas (datos) que coinciden con cada una de las dos posibles, (E)studiante, (P)rofesor.
Si la variable estadística es "color preferido", se contará la cantidad de datos que corresponden a cada color.
▲ Tabulación (datos cualitativos)
Consiste en llevar a una tabla que se denomina Tabla de Frecuencias, los resultados del conteo. La tabla básica consta de dos columnas: Nombre de la Variable y Frecuencia Absoluta siendo ésta la cantidad de datos de cada uno de sus posibles resultados.
Muchas veces conviene ordenar los posibles resultados según la cantidad de datos en cada categoría
La tabla se complementa con otras tres columnas:
Muchas veces conviene ordenar los posibles resultados según la cantidad de datos en cada categoría
La tabla se complementa con otras tres columnas:
- Frecuencia Absoluta Acumulada (Fi)
- Frecuencia Relativa (hi)
- Frecuencia Relativa Acumuldada (Hi)
▲ Ejemplo 1 (Tratamiento de los datos sobre el sexo de los encuestados)
Tabulación
En la columna denominada "Categoría" se escriben las categorías que las respuestas a la encuesta arrojen, en este caso Mujer y Hombre.
Una vez hecho esto, se escriben los resultados de cada categoría en la columna "Frecuencia Absoluta" y luego, en ta columna "Frecuencia Relativa", se representan estos números como un porcentaje del total de datos. |
Representaciones Gráficas
▲ Ejemplo 2 (Tratamiento de los datos sobre el color preferido de los encuestados)
Tabulación
Si dás click en la imágen accederás a un video del canal math2me de Youtube en el que se explica cómo tabular una encuesta de este tipo de datos.
En el video sólo se muestra la columna de la Frecuencia Absoluta (allí denominada fi). En la siguiente tabla se muestran otras tres columnas: Frecuencia Absoluta Acumulada, Frecuencia Relativa y Frecuencia Relativa Acumulada |
Representaciones Gráficas
▲ Datos cuantitativos discretos
Tabulación
Se encuestaron 14 personas a quienes se les preguntó el número de hijos en su familia, siendo los resultados los que se muestran en la tabla adjunta.
|
1, 0, 2, 1, 3, 1, 0
1, 2, 3, 1, 1, 0, 1 |
La variable estadística es, en este caso, número de hijos y claramente es discreta puesto que sólo puede tomar valores enteros. Por eso se denomina Variable Cuantitativa Discreta
Se ordenan los datos ascendentemente, se eliminan los repetidos y al lado de cada una de estos números se escribe la cantidad de datos correspondientes a dicha número.
n (Cantidad de datos): Número de hijos Fa (Frecuencia absoluta): Cantidad de familias con dicho número de hijos Fr (Frecuencia relativa): La Frecuencia absoluta expresada como porcentaje del total de datos. |
n Fa Fr
0 3 21,4% 1 7 50,0% 2 2 14,3% 3 2 14,3% 14 100% |
Representaciones Gráficas
▲ Datos cuantitativos continuos
En la siguiente tabla se muestra el resultado de la medición del diámetro interno de 200 arandelas metálicas.
TABLA 1
Diámetro interno en milímetros de 200 arandelas metálicas
Diámetro interno en milímetros de 200 arandelas metálicas
La variable estadística es, en este caso, diámetro interno y claramente es continua puesto que entre dos valores "podría" haber más valores. Por eso se denomina Variable Cuantitativa Continua.
Se hace dificil sacar conclusiones de los datos así dispuestos. Una primera idea sería ordenar los valores en forma creciente, por ejemplo, anotando los que se repiten con barras o palotes al lado de dichos valores. De esta manera se podrían apreciar la tendencia de las mediciones y su dispersión, pero es una tarea bastante engorrosa y la tabla resulta demasiado extensa. Otra idea sería disponer los valores en celdas o clases.
Se recomienda que el número de clases sea aproximadamente igual a la raiz cuadrada del número de las observaciones que se quieren representar. |
Una manera más avanzada para determinar el número de clases es aplicar la Regla de Sturges que dice que el rango de datos (n datos) se debe dividir en k clases igualmente espaciadas donde:
De esta manera realizariamos una tabla de frecuencias, entendiendo por frecuencia la cantidad de valores que corresponden a una clase. Es claro qe la frecuencia de clase se puede expresar en forma absoluta o en forma relativa. La frecuencia absoluta es, diréctamente, la cantidad de valores correspondientes a una clase y la frecuencia relativa es la frecuencia absoluta dividida por el número de datos, es decir Fr = Fa / n
|
Para realizar una tabla de frecuencias en forma apropiada, es decir, lo suficientemente compacta para que resulte de fácil entendimiento, pero sin que se pierdan detalles debido al excesivo redondeo, seguiremos el método que se dá a continuación.
▲ Método para hallar la tabla de frecuencia (tabulación de los datos)
Al mismo tiempo que se da el método se aplicará a los valores de la tabla 1.
xmax=9.47 ; xmin=8.51
El Rango o intervalo es la diferencia entre el valor máximo y el valor mínimo de los datos.
R=xmax-xmin=9.47-8.51=0.96
Según se explicó anteriormente, el número de clases lo obtendremos como un número que sea aproximadamente igual a la raiz cuadrada del número de datos.
El ancho de clases (Ac) es el cociente entre el rango de la muestra (R) y el número de clases (Nc). El resultado se aproxima a un número del mismo orden de cifras significativas que las de los datos. En nuestro ejemplo resulta: y como las determinaciones están dadas con cifras significativas del orden del centésimo de milímetro, redondeamos
Ac=0.07 mm
Se hallan a partir del menor de los datos (Xmin), sumando sucesívamente el ancho de clase. En nuestro caso serián: Lic
8,51............. (Xmin) 8,58 ............ (8,51+0,07) 8,65 ............ (8,58+0,07) 8,72 ............ (8,65+0,07) 8,79 ............ (8,72+0,07) y así sucesívamente... Estos son los límites inferiores de las clases. Parecería claro hacer que el límite superior de la primera clase coincida con el inferior de la segunda, el superior de la segunda con el inferior de la tercera y así sucesívamente, pero observemos que de esta manera las clases serían:
Lic Lsc
8,51 - 8,58 8,58 - 8,65 8,65 - 8,72 etc, etc, etc ... y resulta que si debemos clasificar el valor, por ejemplo, 8.65 no sabríamos a cuál clase debemos asignarlo (si a la segunda o a la tercera). Para evitar esta indeterminación, los límites superiores de las clases (Lsc) se determinan de la siguiente manera:
|
Se hallan restando al límite inferior de la clase siguiente, la menor diferencia posible entre dos datos cualesquiera. En nuestro caso, la menor diferencia posible entre dos datos es un centésimo de milímetro, con lo que resulta: Lic Lsc
8,51 - 8,57 8,58 - 8,64 8,65 - 8,71 etc, etc, ... Nota Importante:
Si al determinar el límite superior de la última clase nos damos cuenta que algún(os) datos quedan por fuera, añádase una clase más.
El resultado se muestra en la Tabla de frecuencias a la cual se han agregado: Mediatriz de Clase: Es el promedio aritmético entre los límites inferior y superior. Este valor es el que pondera la clase.
Si observamos la tabla de frecuencias, cada dato ha perdido su valor y solo se sabe de él a cuál clase corresponde. La mediatriz de clase; es el valor redondeado de los datos correspondientes a esa clase.
Frecuencia absoluta: La cantidad de datos en cada clase Frecuencia relativa: La cantidad de datos en cada clase dividida por el total de datos. L a frecuencia relativa de una clase dá la probabilidad de que un dato, extraido al azar, pertenezca a la clase en cuestión. |
▲ Representaciones gráficas
Hay tres formas comunes de representación gráfica de las distribuciones de frecuencia. Estas se muestran en la figura adjunta y corresponden a los datos de la tabla 1
El Histograma de frecuencias es la que más se utiliza en la práctica.
Esta representación gráfica consiste en una serie de rectángulos cuya base es igual ancho de clase (Ac) y cuya altura es proporcional a la frecuencia relatica. Los números en el eje X, corresponden a los límites inferiores de clase. En este enlace HistogramaExcel podrá descargar una hoja de cálculo Excel que le permitirá organizar y representar un conjunto de hasta 200 datos de variable continua.
|
▲ Media, mediana y moda
La media , la mediana y la moda son tres valores que se obtienen a partir de un conjunto de datos y que dan una idea de la tendencia del valor central de dicho conjunto. Por ello se denominan
La media
se obtiene sumando el valor numérico de cada dato y dividiendo dicha suma por la cantidad de datos.
La mediana
es el valor que ocupa la posición central de la lista de datos una vez esta se ha ordenado ascendentemente.
La moda
es el dato que ocurre con más frecuencia.
- Media, mediana y moda para el ejemplo visto en 6.1
La media se obtendría sumando: 1+0+2+1+3+1+0+1+2+3+1+1+0+1=17 y luego dividiendo este resultado por la cantidad de datos, la cual es 14. media=17/14=1,2 hijos. Para este ejemplo, obtener la media no es muy significativo pues nos dá partes de un hijo, lo cual es absurdo.
La mediana se obtendría buscando el dato que está en la mitad de la lista de datos una vez esta se ha ordenado. Ordenemos primero los datos: 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3
La mediana se obtendría buscando el dato que está en la mitad de la lista de datos una vez esta se ha ordenado. Ordenemos primero los datos: 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3