Cómo calcular la desviación estándar. Desviación estándar

Los valores obtenidos de la experiencia contienen inevitablemente errores por muy diversas razones. Entre ellos, cabe distinguir entre errores sistemáticos y aleatorios. Los errores sistemáticos son causados ​​por razones que actúan de una manera muy específica y siempre pueden eliminarse o tenerse en cuenta con bastante precisión. Los errores aleatorios son causados ​​por un gran número de causas individuales que no pueden explicarse con precisión y actúan de diferentes maneras en cada medición individual. Estos errores no pueden excluirse por completo; sólo pueden tomarse en cuenta en promedio, para lo cual es necesario conocer las leyes que rigen los errores aleatorios.

Denotaremos la cantidad medida por A y el error aleatorio en la medición por x. Dado que el error x puede tomar cualquier valor, es una variable aleatoria continua, que se caracteriza plenamente por su ley de distribución.

La realidad más simple y que refleja con mayor precisión (en la gran mayoría de los casos) es la llamada ley de distribución de error normal:

Esta ley de distribución se puede obtener a partir de varias premisas teóricas, en particular, del requisito de que el valor más probable de una cantidad desconocida para la cual se obtiene una serie de valores con el mismo grado de precisión mediante medición directa sea la media aritmética de estos valores. La cantidad 2 se llama dispersión de esta ley normal.

Media aritmética

Determinación de la dispersión a partir de datos experimentales. Si para cualquier valor A, n valores a i se obtienen mediante medición directa con el mismo grado de precisión y si los errores del valor A están sujetos a la ley de distribución normal, entonces el valor más probable de A será media aritmética:

a - media aritmética,

a i - valor medido en el i-ésimo paso.

Desviación del valor observado (para cada observación) a i del valor A de media aritmética: a i - a.

Para determinar la varianza de la ley de distribución del error normal en este caso, utilice la fórmula:

2 - dispersión,
a - media aritmética,
n - número de mediciones de parámetros,

Desviación estándar

Desviación estándar muestra la desviación absoluta de los valores medidos de media aritmética. De acuerdo con la fórmula para medir la precisión de una combinación lineal. error cuadrático medio La media aritmética está determinada por la fórmula:

, Dónde


a - media aritmética,
n - número de mediciones de parámetros,
a i - valor medido en el i-ésimo paso.

Coeficiente de variación

Coeficiente de variación caracteriza la medida relativa de desviación de los valores medidos de media aritmética:

, Dónde

V - coeficiente de variación,
- desviación estándar,
a - media aritmética.

Cuanto mayor sea el valor coeficiente de variación, relativamente mayor es la dispersión y menor uniformidad de los valores estudiados. Si coeficiente de variación menos del 10%, entonces la variabilidad de la serie de variación se considera insignificante, del 10% al 20% se considera media, más del 20% y menos del 33% se considera significativa y si coeficiente de variación supera el 33%, esto indica la heterogeneidad de la información y la necesidad de excluir los valores más grandes y más pequeños.

Desviación lineal promedio

Uno de los indicadores del alcance y la intensidad de la variación es desviación lineal promedio(módulo de desviación promedio) de la media aritmética. Desviación lineal promedio calculado por la fórmula:

, Dónde

_
a - desviación lineal promedio,
a - media aritmética,
n - número de mediciones de parámetros,
a i - valor medido en el i-ésimo paso.

Para comprobar la conformidad de los valores estudiados con la ley de distribución normal, se utiliza la relación indicador de asimetría a su error y actitud indicador de curtosis a su error.

Indicador de asimetría

Indicador de asimetría(A) y su error (m a) se calcula utilizando las siguientes fórmulas:

, Dónde

A - indicador de asimetría,
- desviación estándar,
a - media aritmética,
n - número de mediciones de parámetros,
a i - valor medido en el i-ésimo paso.

Indicador de curtosis

Indicador de curtosis(E) y su error (m e) se calcula utilizando las siguientes fórmulas:

, Dónde

X yo - variables aleatorias (actuales);

INCÓGNITA el valor promedio de las variables aleatorias para la muestra se calcula mediante la fórmula:

Entonces, la varianza es el cuadrado promedio de las desviaciones . Es decir, primero se calcula el valor promedio y luego se toma la diferencia entre cada valor original y promedio se eleva al cuadrado , se suma y luego se divide por el número de valores de la población.

La diferencia entre un valor individual y el promedio refleja la medida de la desviación. Se eleva al cuadrado para que todas las desviaciones se conviertan en números exclusivamente positivos y para evitar la destrucción mutua de las desviaciones positivas y negativas al sumarlas. Luego, dadas las desviaciones al cuadrado, simplemente calculamos la media aritmética.

La respuesta a la palabra mágica "dispersión" se encuentra en estas tres palabras: promedio - cuadrado - desviaciones.

Desviación estándar (MSD)

Tomando la raíz cuadrada de la varianza obtenemos el llamado “ desviación estándar". hay nombres "desviación estándar" o "sigma" (del nombre de la letra griega σ .). La fórmula para la desviación estándar es:

Entonces, la dispersión es sigma al cuadrado o es la desviación estándar al cuadrado.

La desviación estándar, obviamente, también caracteriza la medida de dispersión de datos, pero ahora (a diferencia de la dispersión) se puede comparar con los datos originales, ya que tienen las mismas unidades de medida (esto se desprende de la fórmula de cálculo). El rango de variación es la diferencia entre valores extremos. La desviación estándar, como medida de incertidumbre, también interviene en muchos cálculos estadísticos. Con su ayuda, se determina el grado de precisión de diversas estimaciones y pronósticos. Si la variación es muy grande, entonces la desviación estándar también será grande y, por tanto, el pronóstico será inexacto, lo que se expresará, por ejemplo, en intervalos de confianza muy amplios.

Por lo tanto, en los métodos de procesamiento de datos estadísticos en valoraciones inmobiliarias, dependiendo de la precisión requerida de la tarea, se utiliza la regla de dos o tres sigma.

Para comparar la regla de dos sigma y la regla de tres sigma, utilizamos la fórmula de Laplace:

F-F,

donde Ф(x) es la función de Laplace;



Valor mínimo

β = valor máximo

s = valor sigma (desviación estándar)

a = promedio

En este caso, se utiliza una forma particular de la fórmula de Laplace cuando los límites α y β de los valores de la variable aleatoria X están equidistantes del centro de la distribución a = M(X) por un cierto valor d: a = a-d, b = a+d. O (1) La fórmula (1) determina la probabilidad de una desviación dada d de una variable aleatoria X con una ley de distribución normal a partir de su expectativa matemática M(X) = a.

Si en la fórmula (1) tomamos secuencialmente d = 2s y d = 3s, obtenemos: (2), (3).

regla de dos sigma

Ilustremos geométricamente la regla de dos sigma. En la figura. La figura 6 muestra una curva gaussiana con el centro de distribución a. El área limitada por toda la curva y el eje Ox es igual a 1 (100%), y el área del trapezoide curvilíneo entre las abscisas a–2s y a+2s, según la regla de dos sigma, es igual a 0,954 (95,4% del área total). El área de las áreas sombreadas es 1-0,954 = 0,046 (»5% del área total). Estas áreas se denominan región crítica de la variable aleatoria. Los valores de una variable aleatoria que caen en la región crítica son poco probables y, en la práctica, se aceptan convencionalmente como imposibles.

La probabilidad de valores condicionalmente imposibles se denomina nivel de significancia de una variable aleatoria. El nivel de significancia está relacionado con la probabilidad de confianza mediante la fórmula:

donde q es el nivel de significancia expresado como porcentaje.

regla tres sigma

Al resolver problemas que requieren mayor confiabilidad, cuando la probabilidad de confianza (Pd) se toma igual a 0.997 (más precisamente, 0.9973), en lugar de la regla de dos sigma, de acuerdo con la fórmula (3), se usa la regla tres sigma



De acuerdo a regla tres sigma con una probabilidad de confianza de 0,9973, el área crítica será el área de valores de atributos fuera del intervalo (a-3s, a+3s). El nivel de significancia es del 0,27%.

En otras palabras, la probabilidad de que el valor absoluto de la desviación exceda tres veces la desviación estándar es muy pequeña, es decir, 0,0027 = 1-0,9973. Esto significa que sólo en el 0,27% de los casos esto sucederá. Tales eventos, basados ​​​​en el principio de imposibilidad de eventos improbables, pueden considerarse prácticamente imposibles. Aquellos. El muestreo es muy preciso.

Esta es la esencia de la regla tres sigma:

Si una variable aleatoria se distribuye normalmente, entonces el valor absoluto de su desviación de la expectativa matemática no excede tres veces la desviación estándar (MSD).

En la práctica, la regla de tres sigma se aplica de la siguiente manera: si se desconoce la distribución de la variable aleatoria en estudio, pero se cumple la condición especificada en la regla anterior, entonces hay motivos para suponer que la variable en estudio tiene una distribución normal. ; de lo contrario, no se distribuye normalmente.

El nivel de importancia se toma dependiendo del grado de riesgo permitido y de la tarea en cuestión. Para la valoración de inmuebles se suele adoptar una muestra menos precisa, siguiendo la regla de los dos sigma.

En este artículo hablaré de cómo encontrar la desviación estándar. Este material es extremadamente importante para una comprensión completa de las matemáticas, por lo que un tutor de matemáticas debe dedicar una lección separada o incluso varias a estudiarlo. En este artículo encontrará un enlace a un vídeo tutorial detallado y comprensible que explica qué es la desviación estándar y cómo encontrarla.

Desviación estándar permite evaluar la dispersión de los valores obtenidos como resultado de la medición de un determinado parámetro. Indicado por el símbolo (letra griega "sigma").

La fórmula de cálculo es bastante sencilla. Para encontrar la desviación estándar, debes sacar la raíz cuadrada de la varianza. Entonces ahora hay que preguntarse: “¿Qué es la varianza?”

¿Qué es la variación?

La definición de varianza es la siguiente. La dispersión es la media aritmética de las desviaciones al cuadrado de los valores de la media.

Para encontrar la varianza, realice los siguientes cálculos secuencialmente:

  • Determinar el promedio (promedio aritmético simple de una serie de valores).
  • Luego resta el promedio de cada valor y eleva al cuadrado la diferencia resultante (obtienes diferencia al cuadrado).
  • El siguiente paso es calcular la media aritmética de las diferencias al cuadrado resultantes (puedes descubrir por qué exactamente están los cuadrados a continuación).

Veamos un ejemplo. Digamos que tú y tus amigos deciden medir la altura de sus perros (en milímetros). Como resultado de las mediciones, obtuvo las siguientes medidas de altura (a la cruz): 600 mm, 470 mm, 170 mm, 430 mm y 300 mm.

Calculemos la media, la varianza y la desviación estándar.

Primero encontremos el valor promedio.. Como ya sabes, para hacer esto necesitas sumar todos los valores medidos y dividirlos por el número de mediciones. Progreso del cálculo:

Promedio mm.

Entonces, el promedio (media aritmética) es 394 mm.

Ahora necesitamos determinar desviación de la altura de cada perro de la media:

Finalmente, para calcular la varianza, elevamos al cuadrado cada una de las diferencias resultantes, y luego encontramos la media aritmética de los resultados obtenidos:

Dispersión mm2.

Por tanto, la dispersión es de 21704 mm 2.

Cómo encontrar la desviación estándar

Entonces, ¿cómo podemos calcular ahora la desviación estándar conociendo la varianza? Como recordamos, sácale la raíz cuadrada. Es decir, la desviación estándar es igual a:

Mm (redondeado al número entero más cercano en mm).

Usando este método, descubrimos que algunos perros (por ejemplo, los Rottweilers) son perros muy grandes. Pero también hay perros muy pequeños (por ejemplo, los perros salchicha, pero no debes decirles eso).

Lo más interesante es que la desviación estándar contiene información útil. Ahora podemos mostrar cuáles de los resultados de medición de altura obtenidos están dentro del intervalo que obtenemos si trazamos la desviación estándar del promedio (a ambos lados).

Es decir, utilizando la desviación estándar obtenemos un método “estándar” que nos permite saber cuál de los valores es normal (estadísticamente promedio) y cuál es extraordinariamente grande o, por el contrario, pequeño.

¿Qué es la desviación estándar?

Pero... todo será un poco diferente si analizamos muestra datos. En nuestro ejemplo consideramos población general. Es decir, nuestros 5 perros eran los únicos perros del mundo que nos interesaban.

Pero si los datos son una muestra (valores seleccionados de una población grande), entonces los cálculos deben realizarse de manera diferente.

Si hay valores, entonces:

Todos los demás cálculos se realizan de manera similar, incluida la determinación del promedio.

Por ejemplo, si nuestros cinco perros son sólo una muestra de la población de perros (todos los perros del planeta), debemos dividir por 4, no 5, a saber:

Varianza muestral = mm2.

En este caso, la desviación estándar de la muestra es igual a mm (redondeado al número entero más cercano).

Podemos decir que hemos hecho alguna “corrección” en el caso de que nuestros valores sean solo una pequeña muestra.

Nota. ¿Por qué diferencias exactamente al cuadrado?

Pero, ¿por qué tomamos exactamente las diferencias al cuadrado al calcular la varianza? Digamos que al medir algún parámetro, recibió el siguiente conjunto de valores: 4; 4; -4; -4. Si simplemente sumamos las desviaciones absolutas de la media (diferencias) juntas... los valores negativos se cancelan con los positivos:

.

Resulta que esta opción es inútil. Entonces, ¿quizás valga la pena probar los valores absolutos de las desviaciones (es decir, los módulos de estos valores)?

A primera vista, resulta bien (el valor resultante, por cierto, se llama desviación media absoluta), pero no en todos los casos. Probemos con otro ejemplo. Deje que la medición dé como resultado el siguiente conjunto de valores: 7; 1; -6; -2. Entonces la desviación absoluta promedio es:

¡Guau! De nuevo obtuvimos un resultado de 4, aunque las diferencias tienen una extensión mucho mayor.

Ahora veamos qué sucede si elevamos al cuadrado las diferencias (y luego sacamos la raíz cuadrada de su suma).

Para el primer ejemplo será:

.

Para el segundo ejemplo será:

¡Ahora es un asunto completamente diferente! Cuanto mayor es la dispersión de las diferencias, mayor es la desviación estándar... que es lo que buscábamos.

De hecho, este método utiliza la misma idea que cuando se calcula la distancia entre puntos, sólo que se aplica de forma diferente.

Y desde un punto de vista matemático, el uso de cuadrados y raíces cuadradas proporciona más beneficios que los que podríamos obtener de los valores de desviación absoluta, lo que hace que la desviación estándar sea aplicable a otros problemas matemáticos.

Sergey Valerievich te dijo cómo encontrar la desviación estándar

Un método aproximado para evaluar la variabilidad de una serie de variaciones es determinar el límite y la amplitud, pero no se tienen en cuenta los valores de la variante dentro de la serie. La principal medida generalmente aceptada de la variabilidad de una característica cuantitativa dentro de una serie de variación es desviación estándar (σ - sigma). Cuanto mayor sea la desviación estándar, mayor será el grado de fluctuación de esta serie.

El método para calcular la desviación estándar incluye los siguientes pasos:

1. Encuentra la media aritmética (M).

2. Determine las desviaciones de las opciones individuales de la media aritmética (d=V-M). En estadística médica, las desviaciones del promedio se designan como d (desviación). La suma de todas las desviaciones es cero.

3. Eleva al cuadrado cada desviación d 2.

4. Multiplica los cuadrados de las desviaciones por las frecuencias correspondientes d 2 *p.

5. Encuentra la suma de los productos å(d 2 *p)

6. Calcule la desviación estándar usando la fórmula:

Cuando n es mayor que 30, o cuando n es menor o igual a 30, donde n es el número de todas las opciones.

Valor de desviación estándar:

1. La desviación estándar caracteriza la dispersión de la variante en relación con el valor promedio (es decir, la variabilidad de la serie de variación). Cuanto mayor sea sigma, mayor será el grado de diversidad de esta serie.

2. La desviación estándar se utiliza para una evaluación comparativa del grado de correspondencia de la media aritmética con la serie de variación para la cual fue calculada.

Las variaciones de los fenómenos de masas obedecen a la ley de distribución normal. La curva que representa esta distribución parece una curva simétrica suave en forma de campana (curva gaussiana). Según la teoría de la probabilidad, en los fenómenos que obedecen a la ley de distribución normal, existe una estricta relación matemática entre los valores de la media aritmética y la desviación estándar. La distribución teórica de una variante en una serie de variación homogénea obedece a la regla de las tres sigma.

Si en un sistema de coordenadas rectangulares los valores de una característica cuantitativa (variantes) se trazan en el eje de abscisas y la frecuencia de aparición de una variante en una serie de variaciones se traza en el eje de ordenadas, entonces las variantes con mayor y menor los valores están ubicados uniformemente a los lados de la media aritmética.



Se ha establecido que con una distribución normal del rasgo:

El 68,3% de los valores de las variantes están dentro de M±1s.

El 95,5% de los valores de las variantes están dentro de M±2s.

El 99,7% de los valores de las variantes están dentro de M±3s.

3. La desviación estándar permite establecer valores normales de parámetros clínicos y biológicos. En medicina, el intervalo M±1s suele tomarse como el rango normal para el fenómeno en estudio. La desviación del valor estimado de la media aritmética en más de 1 segundo indica una desviación del parámetro estudiado de la norma.

4. En medicina, la regla de los tres sigma se utiliza en pediatría para la evaluación individual del nivel de desarrollo físico de los niños (método de desviación sigma), para el desarrollo de estándares para la ropa de los niños.

5. La desviación estándar es necesaria para caracterizar el grado de diversidad de la característica en estudio y calcular el error de la media aritmética.

El valor de la desviación estándar se suele utilizar para comparar la variabilidad de series del mismo tipo. Si se comparan dos series con características diferentes (altura y peso, duración media del tratamiento hospitalario y mortalidad hospitalaria, etc.), es imposible una comparación directa de los tamaños sigma. , porque La desviación estándar es un valor con nombre expresado en números absolutos. En estos casos, utilice coeficiente de variación (Cv), que es un valor relativo: la relación porcentual entre la desviación estándar y la media aritmética.

El coeficiente de variación se calcula mediante la fórmula:

Cuanto mayor sea el coeficiente de variación , cuanto mayor sea la variabilidad de esta serie. Se cree que un coeficiente de variación superior al 30% indica la heterogeneidad cualitativa de la población.

Vale la pena señalar que este cálculo de la varianza tiene un inconveniente: resulta sesgado, es decir, su expectativa matemática no es igual al valor real de la varianza. Lea más sobre esto. Al mismo tiempo, no todo es tan malo. A medida que aumenta el tamaño de la muestra, todavía se acerca a su análogo teórico, es decir. es asintóticamente insesgado. Por lo tanto, cuando trabaje con muestras de gran tamaño, puede utilizar la fórmula anterior.

Es útil traducir el lenguaje de signos al lenguaje de palabras. Resulta que la varianza es el cuadrado promedio de las desviaciones. Es decir, primero se calcula el valor promedio, luego se toma la diferencia entre cada valor original y promedio, se eleva al cuadrado, se suma y luego se divide por el número de valores de la población. La diferencia entre un valor individual y el promedio refleja la medida de la desviación. Se eleva al cuadrado para que todas las desviaciones se conviertan en números exclusivamente positivos y para evitar la destrucción mutua de las desviaciones positivas y negativas al sumarlas. Luego, dadas las desviaciones al cuadrado, simplemente calculamos la media aritmética. Promedio - cuadrado - desviaciones. Las desviaciones se elevan al cuadrado y se calcula el promedio. La solución está en sólo tres palabras.

Sin embargo, en su forma pura, como la media aritmética o índice, no se utiliza la dispersión. Es más bien un indicador auxiliar e intermedio necesario para otros tipos de análisis estadístico. Ni siquiera tiene una unidad de medida normal. A juzgar por la fórmula, este es el cuadrado de la unidad de medida de los datos originales. Sin botella, como dicen, no puedes entenderlo.

(módulo 111)

Para devolver la varianza a la realidad, es decir, utilizarla para fines más mundanos, se extrae de ella la raíz cuadrada. Resulta el llamado desviación estándar (RMS). Hay nombres de "desviación estándar" o "sigma" (del nombre de la letra griega). La fórmula de la desviación estándar es:

Para obtener este indicador para la muestra, utilice la fórmula:

Al igual que con la varianza, existe una opción de cálculo ligeramente diferente. Pero a medida que la muestra crece, la diferencia desaparece.

La desviación estándar, obviamente, también caracteriza la medida de dispersión de datos, pero ahora (a diferencia de la dispersión) se puede comparar con los datos originales, ya que tienen las mismas unidades de medida (esto se desprende de la fórmula de cálculo). Pero este indicador en su forma pura no es muy informativo, ya que contiene demasiados cálculos intermedios que resultan confusos (desviación, cuadrado, suma, promedio, raíz). Sin embargo, ya es posible trabajar directamente con la desviación estándar, porque las propiedades de este indicador están bien estudiadas y conocidas. Por ejemplo, existe este regla tres sigma, que establece que los datos tienen 997 valores de 1000 dentro de ±3 sigma de la media aritmética. La desviación estándar, como medida de incertidumbre, también interviene en muchos cálculos estadísticos. Con su ayuda, se determina el grado de precisión de diversas estimaciones y pronósticos. Si la variación es muy grande, entonces la desviación estándar también será grande y, por tanto, el pronóstico será inexacto, lo que se expresará, por ejemplo, en intervalos de confianza muy amplios.

Coeficiente de variación

La desviación estándar da una estimación absoluta de la medida de dispersión. Por lo tanto, para comprender qué tan grande es la dispersión en relación con los valores mismos (es decir, independientemente de su escala), se requiere un indicador relativo. Este indicador se llama coeficiente de variación y se calcula mediante la siguiente fórmula:

El coeficiente de variación se mide como porcentaje (si se multiplica por 100%). Con este indicador, puede comparar una variedad de fenómenos, independientemente de su escala y unidades de medida. Este hecho es lo que hace que el coeficiente de variación sea tan popular.

En estadística se acepta que si el valor del coeficiente de variación es inferior al 33%, entonces la población se considera homogénea; si es superior al 33%, entonces es heterogénea. Es difícil para mí comentar algo aquí. No sé quién definió esto y por qué, pero se considera un axioma.

Siento que me dejo llevar por la teoría seca y necesito aportar algo visual y figurativo. Por otro lado, todos los indicadores de variación describen aproximadamente lo mismo, sólo que se calculan de forma diferente. Por lo tanto, es difícil mostrar una variedad de ejemplos. Sólo los valores de los indicadores pueden diferir, pero no su esencia. Entonces, comparemos cómo difieren los valores de varios indicadores de variación para el mismo conjunto de datos. Tomemos el ejemplo del cálculo de la desviación lineal promedio (de ). Aquí están los datos de origen:

Y un horario para recordártelo.

Utilizando estos datos, calculamos varios indicadores de variación.

El valor medio es la media aritmética habitual.

El rango de variación es la diferencia entre el máximo y el mínimo:

La desviación lineal promedio se calcula mediante la fórmula:

Desviación estándar:

Resumamos el cálculo en una tabla.

Como puede verse, la media lineal y la desviación estándar dan valores similares para el grado de variación de los datos. La varianza es sigma al cuadrado, por lo que siempre será un número relativamente grande, lo que, de hecho, no significa nada. El rango de variación es la diferencia entre valores extremos y puede decir mucho.

Resumamos algunos resultados.

La variación de un indicador refleja la variabilidad de un proceso o fenómeno. Su grado se puede medir utilizando varios indicadores.

1. Rango de variación: la diferencia entre el máximo y el mínimo. Refleja el rango de valores posibles.
2. Desviación lineal promedio: refleja el promedio de las desviaciones absolutas (módulo) de todos los valores de la población analizada de su valor promedio.
3. Dispersión: el cuadrado medio de las desviaciones.
4. La desviación estándar es la raíz de la dispersión (el cuadrado medio de las desviaciones).
5. El coeficiente de variación es el indicador más universal y refleja el grado de dispersión de los valores, independientemente de su escala y unidades de medida. El coeficiente de variación se mide como porcentaje y se puede utilizar para comparar la variación de diferentes procesos y fenómenos.

Así, en el análisis estadístico existe un sistema de indicadores que reflejan la homogeneidad de los fenómenos y la estabilidad de los procesos. A menudo, los indicadores de variación no tienen un significado independiente y se utilizan para análisis de datos adicionales (cálculo de intervalos de confianza



¿Te gustó el artículo? ¡Comparte con tus amigos!