Tema 1: ESTADISTICA DESCRIPTIVA
Ejemplo 1: Las edades de los alumnos presentes en una clase de CC.
Ambientales fueron:
17 18 19 18 22 18 18 19 21 17
18 19 18 18 19 21 18 18 21 18
Ejemplo 2: Mucha gente manifiesta reacciones de alergia sistémica a
las picaduras de insectos. Estas reacciones varían de paciente a
paciente, no sólo en cuanto a gravedad, sino también en el tiempo
transcurrido hasta que se inicia la reacción. Los datos siguientes (en
minutos) representan este “tiempo de inicio hasta la reacción” en 40
pacientes que experimentaron una reacción sistémica a la picadura de
abeja:
10.5 11.2 9.9 15.0 11.4 12.7 16.5 10.1
12.7 11.4 11.6 6.2 7.9 8.3 10.9 8.1
3.8 10.5 11.7 8.4 12.5 11.2 9.1 10.4
9.1 13.4 12.3 5.9 11.4 8.8 7.4 8.6
13.6 14.7 11.5 11.5 10.9 9.8 12.9 9.9
Ejemplo 3: Considere las siguientes observaciones, correspondientes a
las magnitudes de distintos seismos en California según su medición en
la escala de Richter:
1.0 8.3 3.1 1.1 5.1 1.2 1.0 4.1 1.1 4.0 2.0 1.9
6.3 1.4 1.3 3.3 2.2 2.3 2.1 2.1 1.4 2.7 2.4 3.0
4.1 5.0 2.2 1.2 7.7 1.5
Ejemplo 4: Los incendios de vegetación en pradera, matorral y bosque
son un fenómeno común. Algunos son accidentales, pero otros son
provocados con el fin de crear hábitats postfuego que beneficien a
plantas y animales. No obstante, el suelo que ha sido expuesto a un
alto calentamiento puede esterilizarse. Se realizó un estudio para
determinar el efecto de esta esterilización en el crecimiento de
plantas, en concreto rábanos. La variable medida fue el peso seco de
la planta al cabo de 4 semanas (basado en un estudio de Joy Burcham,
Departamento de Biología, Universidad de Radford, otoño de 1996).
Suelo estéril (peso seco en gramos): Suelo no estéril
9 28 26 10 18 16 19 13 15 14
17 10 28 10 30 2 7 11 6 9
30 11 25 35 34 6 3 18 14 11
9 15 20
Ejemplo 5: En una investigación sobre deficiencias medioambientales
encontradas en plantas industriales, se seleccionaron aleatoriamente
25 plantas de dos comunidades diferentes. Se obtuvieron los siguientes
datos sobre el número de deficiencias encontradas:
Algunas observaciones teóricas:
1. Número de clases sugerido para subdividir datos numéricos en
función del tamaño de la muestra (“Estadística para Biología y
Ciencias de la Salud”, Susan Milton, pág. 22)
Tamaño de la muestra
Número de clases
Menos de 16
1631
3263
64127
128255
256511
5121023
10242047
20484095
40968190
Datos insuficientes
5
6
7
8
9
10
11
12
13
2. Procedimientos habituales para agrupar datos en clases.
1. El nº de clases se puede aproximar como , donde n es el
tamaño de la muestra; k se redondea hacia abajo, p. ej. 6.82 a 6.
2. Localizamos el mayor y menor dato, respectivamente. Diferencia
entre ambos: RANGO de los datos.
3. Amplitud mínima de clase: cociente entre el rango y el nº de
clases.
Redondeamos por arriba el nº obtenido hasta la precisión de los
datos; si el cociente tiene ya esa precisión, la incrementamos en una
unidad.
El extremo inferior de la primera clase es el menor de los datos,
disminuido en
0.5 si los datos son enteros, en 0.05 si tienen 1 decimal, en 0.005 si
tienen 2
decimales…
(Así ningún dato coincide con un extremo de un intervalo)
4. Si hay datos atípicos (outliers), la técnica se modifica (S.
Milton, p. 25)
3. Construcción de un diagrama de tallo y hojas simple (“Estadística
para Biología y Ciencias de la Salud”, Susan Milton, pág. 14)
a. Elija algunos números oportunos que puedan servir de tallos. Se
necesitan al menos 5 tallos. Los tallos elegidos generalmente son el
primero o los dos primeros dígitos de los números del conjunto de
datos.
b. Etiquete las filas con los tallos elegidos.
c. Reproduzca gráficamente los datos anotando el dígito que sigue al
tallo, como hoja del tallo adecuado.
d. Si los datos son muy similares, de modo que resulta difícil elegir
5 tallos distintos, se pueden utilizar tallos “dobles” (por ejemplo,
33 y 33, de modo que en el primero se consignen desde 33.0 hasta 33.4,
y en el segundo desde 33.5 hasta 33.9), “triples”, etc.
e. Para comparar grupos de datos, se pueden utilizar diagramas de
tallo y hojas “dobles” (un mismo tallo, distintas hojas).
(Ampliar en páginas 15, 16, 17 de S. Milton)
EJEMPLO FINAL: Se midieron los niveles de ozono en una zona boscosa
cerca de Seattle, Washington. Los datos recogidos fueron los
siguientes:
160 176 160 180 167 164
165 163 162 168 173 179
170 196 185 163 162 163
172 162 167 161 169 178
161
a.
Calcula la media, la mediana, la desviación típica, y los
cuartiles.
b.
Dibuja el diagrama de caja.
c.
En otra zona, la media es de 169’12 y la desviación típica de
19’05. ¿En cuál de las dos zonas es mayor la variabilidad?
¿Resulta fiable en esta segunda zona una previsión de nivel de
ozono en torno a 169?
d.
En una ciudad próxima a la zona de estudio, el nivel de ozono
medio registrado fue de 220, con una desviación típica de 12’32.
¿Podemos decir que en la ciudad la variabilidad es mayor que en la
zona boscosa de estudio?
e.
¿Hay algún dato atípico? ¿Qué deberíamos hacer con él? ¿A qué
parámetro de centralización afecta más?