Estadistica

ESTADÍSTICA

Es la rama de las Matemáticas que estudia el conjunto de métodos para: recoger, organizar, presentar, analizar datos acerca de un tema con el fín de obtener información sobre él.

1. Conceptos
2. Datos
3. Recolección de Datos
    Ejemplo de encuesta
4. Datos Cualitativos
Conteo
  Tabulación
  Ejemplo 1
  Ejemplo 2
5. Datos Cuantitativos
Discretos
    Continuos
6. Medidas de Tendencia Central

7. Medidas de Dispersión

☝ 1. Conceptos

Historia de la Estadística: click sobre imágen

Estudio Estadístico: Es la recopilación de datos relacionados con un problema para que, mediante su organización, presentación y análisis, se logre comprender mejor y se puedan tomar decisiones más acertadas pára su solución.
Población: Todos los elementos sometidos a un Estudio Estadístico.
Individuo: Cada uno de los elementos de la población.
Muestra: Conjunto representativo de la población.
Muestreo: Actividades conducentes a la obtención de una muestra.
Valor: Cada posible resultado de un dato. No siempre es posible conocerlo de antemano.
Dato: Cada resultado obtenido durante el muestreo. También puede definirse como una representación de un atributo o variable acerca de un sujeto. Los datos, como tales, carecen de significado; para que sean de utilidad deben convertirse en información que le sirva a alguien para tomar decisiones.

Click sobre las imágenes para ver videos útiles de YouTube

☝ 2. Datos

Los datos pueden ser:

Cualitativos si se refieren a un atributo o cualidad del sujeto que no puede representarse por una cantidad. Ejemplo el sexo de una persona, la preferencia por una comida dentro de un conjunto de ellas.

Cuantitativos si se refieren a un atributo o cualidad del sujeto que puede representarse por una cantidad. Ejemplo la edad de una persona, la longitud de un tornillo.

Los datos cuantitativos se dividen a su vez en discretos o continuos. La edad de una persona es un dato cuantitativo discreto (números enteros) mientras que la longitud de un tornillo es un dato cuantitativo continuo (números decimales cuya expansión decimal sólo depende del aparato de medida)

☝ 3. Recolección de datos

Puede hacerse mediante entrevistas, cuestionarios, inspección de registros (revisión en el sitio) u observación.

▲ Ejemplo de una encuesta

☝ 4. Datos Cualitativos

▲ Conteo (datos cualitativos)

Es el procedimiento mediante el cual se cuentan los datos de coinciden con cada una de los valores que haya tomado la variable estadística.

Por ejemplo, si se trata de contar las diferentes respuestas (datos) a la pregunta "rol en la institución", se cuenta la cantidad de respuestas (datos) que coinciden con cada una de las dos posibles, (E)studiante, (P)rofesor.

Si la variable estadística es "color preferido", se contará la cantidad de datos que corresponden a cada color.

▲ Tabulación (datos cualitativos)

Consiste en llevar a una tabla que se denomina Tabla de Frecuencias, los resultados del conteo. La tabla básica consta de dos columnas: Nombre de la Variable y Frecuencia Absoluta siendo ésta la cantidad de datos de cada uno de sus posibles resultados.

Muchas veces conviene ordenar los posibles resultados según la cantidad de datos en cada categoría

La tabla se complementa con otras tres columnas:

Frecuencia Absoluta Acumulada (Fi)
Frecuencia Relativa (hi)
Frecuencia Relativa Acumuldada (Hi)

▲ Ejemplo 1 (Tratamiento de los datos sobre el sexo de los encuestados)

Tabulación

En la columna denominada "Categoría" se escriben las categorías que las respuestas a la encuesta arrojen, en este caso Mujer y Hombre.

Una vez hecho esto, se escriben los resultados de cada categoría en la columna "Frecuencia Absoluta" y luego, en ta columna "Frecuencia Relativa", se representan estos números como un porcentaje del total de datos.

Representaciones Gráficas

Gráficos de Barras

Gráficos Circulares

▲ Ejemplo 2 (Tratamiento de los datos sobre el color preferido de los encuestados)

Tabulación

Si dás click en la imágen accederás a un video del canal math2me de Youtube en el que se explica cómo tabular una encuesta de este tipo de datos.

En el video sólo se muestra la columna de la Frecuencia Absoluta (allí denominada fi).

En la siguiente tabla se muestran otras tres columnas: Frecuencia Absoluta Acumulada, Frecuencia Relativa y Frecuencia Relativa Acumulada

Para una mejor comprensión de cómo se obtienen las Frecuencias Acumuladas dá click en la imágen y accederás a un video del canal ING.JorgePertuz de Youtube.

Representaciones Gráficas

☝ 5. Datos Cuantitativos

▲ Datos cuantitativos discretos

Tabulación

Se encuestaron 14 personas a quienes se les preguntó el número de hijos en su familia, siendo los resultados los que se muestran en la tabla adjunta.

1, 0, 2, 1, 3, 1, 0
1, 2, 3, 1, 1, 0, 1

La variable estadística es, en este caso, número de hijos y claramente es discreta puesto que sólo puede tomar valores enteros. Por eso se denomina Variable Cuantitativa Discreta

Se ordenan los datos ascendentemente, se eliminan los repetidos y al lado de cada una de estos números se escribe la cantidad de datos correspondientes a dicha número.

n (Cantidad de datos): Número de hijos
Fa (Frecuencia absoluta): Cantidad de familias con dicho número de hijos
Fr (Frecuencia relativa): La Frecuencia absoluta expresada como porcentaje del total de datos.

n   Fa       Fr
0    3 21,4%
1    7     50,0%
2 2   14,3%
3    2     14,3%
     14     100%

Representaciones Gráficas

▲ Datos cuantitativos continuos

En la siguiente tabla se muestra el resultado de la medición del diámetro interno de 200 arandelas metálicas.

TABLA 1
Diámetro interno en milímetros de 200 arandelas metálicas

La variable estadística es, en este caso, diámetro interno y claramente es continua puesto que entre dos valores "podría" haber más valores. Por eso se denomina Variable Cuantitativa Continua.

Se hace dificil sacar conclusiones de los datos así dispuestos. Una primera idea sería ordenar los valores en forma creciente, por ejemplo, anotando los que se repiten con barras o palotes al lado de dichos valores. De esta manera se podrían apreciar la tendencia de las mediciones y su dispersión, pero es una tarea bastante engorrosa y la tabla resulta demasiado extensa. Otra idea sería disponer los valores en celdas o clases.

Se recomienda que el número de clases sea aproximadamente igual a la raiz cuadrada del número de las observaciones que se quieren representar.

Una manera más avanzada para determinar el número de clases es aplicar la Regla de Sturges que dice que el rango de datos (n datos) se debe dividir en k clases igualmente espaciadas donde:

De esta manera realizariamos una tabla de frecuencias, entendiendo por frecuencia la cantidad de valores que corresponden a una clase. Es claro qe la frecuencia de clase se puede expresar en forma absoluta o en forma relativa. La frecuencia absoluta es, diréctamente, la cantidad de valores correspondientes a una clase y la frecuencia relativa es la frecuencia absoluta dividida por el número de datos, es decir Fr = Fa / n

Para realizar una tabla de frecuencias en forma apropiada, es decir, lo suficientemente compacta para que resulte de fácil entendimiento, pero sin que se pierdan detalles debido al excesivo redondeo, seguiremos el método que se dá a continuación.

▲ Método para hallar la tabla de frecuencia (tabulación de los datos)

Al mismo tiempo que se da el método se aplicará a los valores de la tabla 1.

Buscar los valores máximo y mínimo de los datos

xmax=9.47 ; xmin=8.51

Calcular el rango (R)

El Rango o intervalo es la diferencia entre el valor máximo y el valor mínimo de los datos.

R=xmax-xmin=9.47-8.51=0.96

Determinar número de clases (Nc)

Según se explicó anteriormente, el número de clases lo obtendremos como un número que sea aproximadamente igual a la raiz cuadrada del número de datos.

Calcular el ancho de clases (Ac)

El ancho de clases (Ac) es el cociente entre el rango de la muestra (R) y el número de clases (Nc). El resultado se aproxima a un número del mismo orden de cifras significativas que las de los datos. En nuestro ejemplo resulta:

y como las determinaciones están dadas con cifras significativas del orden del centésimo de milímetro, redondeamos

Ac=0.07 mm

Hallar los límites inferiores de las clases (Lic)

Se hallan a partir del menor de los datos (Xmin), sumando sucesívamente el ancho de clase. En nuestro caso serián:

Lic
8,51............. (Xmin)
8,58 ............ (8,51+0,07)
8,65 ............ (8,58+0,07)
8,72 ............ (8,65+0,07)
8,79 ............ (8,72+0,07)
y así sucesívamente...

Estos son los límites inferiores de las clases. Parecería claro hacer que el límite superior de la primera clase coincida con el inferior de la segunda, el superior de la segunda con el inferior de la tercera y así sucesívamente, pero observemos que de esta manera las clases serían:

Lic        Lsc
8,51   - 8,58
8,58 -   8,65
8,65 -   8,72    etc, etc, etc ...

y resulta que si debemos clasificar el valor, por ejemplo, 8.65 no sabríamos a cuál clase debemos asignarlo (si a la segunda o a la tercera). Para evitar esta indeterminación, los límites superiores de las clases (Lsc) se determinan de la siguiente manera:

Hallar los límites superiores de las clases (Lic)

Se hallan restando al límite inferior de la clase siguiente, la menor diferencia posible entre dos datos cualesquiera. En nuestro caso, la menor diferencia posible entre dos datos es un centésimo de milímetro, con lo que resulta:

Lic        Lsc
8,51   - 8,57
8,58 -   8,64
8,65 -   8,71

etc, etc, ...

Nota Importante:

Si al determinar el límite superior de la última clase nos damos cuenta que algún(os) datos quedan por fuera, añádase una clase más.

Ubicar los datos en cada una de las clases

El resultado se muestra en la Tabla de frecuencias a la cual se han agregado:

Tabla de Frecuencias

Mediatriz de Clase: Es el promedio aritmético entre los límites inferior y superior. Este valor es el que pondera la clase.

Si observamos la tabla de frecuencias, cada dato ha perdido su valor y solo se sabe de él a cuál clase corresponde. La mediatriz de clase; es el valor redondeado de los datos correspondientes a esa clase.

Frecuencia absoluta: La cantidad de datos en cada clase

Frecuencia relativa: La cantidad de datos en cada clase dividida por el total de datos. L a frecuencia relativa de una clase dá la probabilidad de que un dato, extraido al azar, pertenezca a la clase en cuestión.

▲ Representaciones gráficas

Hay tres formas comunes de representación gráfica de las distribuciones de frecuencia. Estas se muestran en la figura adjunta y corresponden a los datos de la tabla 1

El Histograma de frecuencias es la que más se utiliza en la práctica.

Esta representación gráfica consiste en una serie de rectángulos cuya base es igual ancho de clase (Ac) y cuya altura es proporcional a la frecuencia relatica. Los números en el eje X, corresponden a los límites inferiores de clase.

En este enlace HistogramaExcel podrá descargar una hoja de cálculo Excel que le permitirá organizar y representar un conjunto de hasta 200 datos de variable continua.

En el Diagrama de barras se levantan lineas de altura proporcional a la frecuencia relativa en correspondencia con la mediatriz de la clase

En el Polígono de frecuencias, se unen con segmentos de recta los puntos del plano, definidos por la mediatriz de la clase (sobre el eje X) y la frecuencia relativa de dicha clase (sobre el eje Y)

☝ 6. Medidas de tendencia central

▲ Media, mediana y moda

La media , la mediana y la moda son tres valores que se obtienen a partir de un conjunto de datos y que dan una idea de la tendencia del valor central de dicho conjunto. Por ello se denominan

La media

se obtiene sumando el valor numérico de cada dato y dividiendo dicha suma por la cantidad de datos.

La mediana

es el valor que ocupa la posición central de la lista de datos una vez esta se ha ordenado ascendentemente.

La moda

es el dato que ocurre con más frecuencia.

Media, mediana y moda para el ejemplo visto en 6.1

La media se obtendría sumando: 1+0+2+1+3+1+0+1+2+3+1+1+0+1=17 y luego dividiendo este resultado por la cantidad de datos, la cual es 14. media=17/14=1,2 hijos. Para este ejemplo, obtener la media no es muy significativo pues nos dá partes de un hijo, lo cual es absurdo.

La mediana se obtendría buscando el dato que está en la mitad de la lista de datos una vez esta se ha ordenado. Ordenemos primero los datos: 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3