Probabilité de confiance et intervalle de confiance. Intervalle de confiance

Exactitude de l’estimation, niveau de confiance (fiabilité)

Intervalle de confiance

Lors de l'échantillonnage d'un petit volume, des estimations par intervalles doivent être utilisées car cela évite les erreurs grossières, contrairement aux estimations ponctuelles.

L'intervalle est une estimation déterminée par deux nombres : les extrémités de l'intervalle couvrant le paramètre estimé. Les estimations par intervalles nous permettent d'établir l'exactitude et la fiabilité des estimations.

Laissez la caractéristique statistique * trouvée à partir des données d'échantillonnage servir d'estimation du paramètre inconnu. Nous le considérerons comme un nombre constant (peut-être une variable aléatoire). Il est clair que * plus le paramètre β est déterminé avec précision, plus la valeur absolue de la différence | - * |. En d’autres termes, si >0 et | - * |< , то чем меньше, тем оценка точнее. Таким образом, положительное число характеризует точность оценки.

Cependant, les méthodes statistiques ne permettent pas d'affirmer catégoriquement que l'estimation * satisfait l'inégalité | - *|<, можно лишь говорить о вероятности, с которой это неравенство осуществляется.

La fiabilité (probabilité de confiance) d'une estimation par * est la probabilité avec laquelle l'inégalité se réalise | - *|<. Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Soit la probabilité que | - *|<, равна т.е.

Remplacer les inégalités | - *|< равносильным ему двойным неравенством -<| - *|<, или *- <<*+, имеем

P(*-< <*+)=.

Un intervalle de confiance (*-, *+) est appelé intervalle de confiance qui couvre un paramètre inconnu avec une fiabilité donnée.

Intervalles de confiance pour estimer l'espérance mathématique d'une distribution normale étant donné une distribution connue.

Une estimation d'intervalle avec la fiabilité de l'espérance mathématique a d'une caractéristique quantitative X normalement distribuée basée sur la moyenne de l'échantillon x avec un écart type connu de la population est un intervalle de confiance

x - t(/n^?)< a < х + t(/n^?),

où t(/n^?)= est la précision de l'estimation, n est la taille de l'échantillon, t est la valeur de l'argument de la fonction de Laplace Ф(t), à laquelle Ф(t)=/2.

De l'égalité t(/n^?)=, les conclusions suivantes peuvent être tirées :

1. à mesure que la taille de l’échantillon n augmente, le nombre diminue et, par conséquent, la précision de l’estimation augmente ;

2. une augmentation de la fiabilité de l'estimation = 2Ф(t) entraîne une augmentation de t (Ф(t) est une fonction croissante), et donc une augmentation ; en d’autres termes, une augmentation de la fiabilité d’une estimation classique entraîne une diminution de sa précision.

Exemple. La variable aléatoire X a une distribution normale avec un écart type connu =3. Trouvez des intervalles de confiance pour estimer l'espérance mathématique inconnue a en utilisant les moyennes d'échantillon x, si la taille de l'échantillon est n = 36 et que la fiabilité de l'estimation est donnée = 0,95.

Solution. Trouvons t. De la relation 2Ф(t) = 0,95 on obtient Ф(t) = 0,475. D'après le tableau, nous trouvons t=1,96.

Trouvons l'exactitude de l'estimation :

mesure de l'intervalle de confiance de précision

T(/n^?)= (1,96.3)/ /36 = 0,98.

L'intervalle de confiance est : (x - 0,98 ; x + 0,98). Par exemple, si x = 4,1, alors l'intervalle de confiance a les limites de confiance suivantes :

x - 0,98 = 4,1 - 0,98 = 3,12 ; x + 0,98 = 4,1 + 0,98 = 5,08.

Ainsi, les valeurs du paramètre inconnu a, cohérentes avec les données de l'échantillon, satisfont à l'inégalité 3.12< а < 5,08. Подчеркнем, что было бы ошибочным написать Р (3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

Expliquons la signification d'une fiabilité donnée. Fiabilité = 0,95 indique que si un nombre suffisamment grand d'échantillons est prélevé, alors 95 % d'entre eux déterminent les intervalles de confiance dans lesquels le paramètre est réellement contenu ; ce n'est que dans 5 % des cas qu'il peut dépasser l'intervalle de confiance.

S'il est nécessaire d'estimer l'espérance mathématique avec une précision et une fiabilité prédéterminées, alors la taille minimale de l'échantillon qui garantira cette précision est trouvée à l'aide de la formule

Intervalles de confiance pour estimer l'espérance mathématique d'une distribution normale avec une inconnue

Une estimation d'intervalle avec la fiabilité de l'espérance mathématique a d'une caractéristique quantitative X normalement distribuée basée sur la moyenne de l'échantillon x avec un écart type inconnu de la population générale est un intervalle de confiance

x - t()(s/n^?)< a < х + t()(s/n^?),

où s est l'écart type de l'échantillon « corrigé », t() est trouvé dans le tableau pour les données et n.

Exemple. La caractéristique quantitative X de la population est normalement distribuée. Sur la base d'une taille d'échantillon de n = 16, la moyenne de l'échantillon x = 20,2 et l'écart type « corrigé » s = 0,8 ont été trouvés. Estimez l’espérance mathématique inconnue en utilisant un intervalle de confiance avec une fiabilité de 0,95.

Solution. Trouvons t(). En utilisant le tableau, par = 0,95 et n=16 on trouve t()=2,13.

Trouvons les limites de confiance :

x - t() (s/n^?) = 20,2 - 2,13 *. 0,8/16 ^ ? = 19,774

x + t()(s/n^?) = 20,2 + 2,13 * 0,8/16^? = 20,626

Ainsi, avec une fiabilité de 0,95, le paramètre inconnu a est contenu dans un intervalle de confiance de 19,774.< а < 20,626

Estimation de la valeur réelle de la grandeur mesurée

Supposons que n mesures indépendantes d'égale précision d'une certaine quantité physique soient effectuées, dont la vraie valeur est inconnue.

Nous considérerons les résultats des mesures individuelles comme des variables aléatoires Хl, Х2,…Хn. Ces grandeurs sont indépendantes (les mesures sont indépendantes). Ils ont la même espérance mathématique a (la vraie valeur de la grandeur mesurée), les mêmes écarts ^2 (les mesures sont également précises) et sont distribués normalement (cette hypothèse est confirmée par l'expérience).

Ainsi, toutes les hypothèses formulées pour calculer les intervalles de confiance sont remplies et nous sommes donc libres d’utiliser les formules. En d’autres termes, la valeur réelle de la valeur mesurée peut être estimée à partir de la moyenne arithmétique des résultats de mesures individuelles à l’aide d’intervalles de confiance.

Exemple. Sur la base des données de neuf mesures indépendantes d'égale précision d'une grandeur physique, la moyenne arithmétique des résultats de mesures individuelles s'est avérée être x = 42,319 et l'écart type « corrigé » s = 5,0. Il est nécessaire d'estimer la valeur réelle de la valeur mesurée avec une fiabilité = 0,95.

Solution. La vraie valeur de la grandeur mesurée est égale à son espérance mathématique. Le problème se résume donc à estimer l’espérance mathématique (étant donné une inconnue) en utilisant un intervalle de confiance couvrant a avec une fiabilité donnée = 0,95.

x - t()(s/n^?)< a < х + t()(s/n^?)

En utilisant le tableau, en utilisant y = 0,95 et l = 9 on trouve

Trouvons l'exactitude de l'estimation :

t())(s/n^?) = 2,31 * 5/9^?=3,85

Trouvons les limites de confiance :

x - t() (s/n^?) = 42,319 - 3,85 = 38,469 ;

x + t() (s/n^?) = 42,319 +3,85 = 46,169.

Ainsi, avec une fiabilité de 0,95, la vraie valeur de la valeur mesurée se situe dans l'intervalle de confiance de 38,469.< а < 46,169.

Intervalles de confiance pour estimer l'écart type d'une distribution normale.

Supposons que la caractéristique quantitative X de la population générale soit distribuée normalement. Il est nécessaire d’estimer l’écart type général inconnu à partir des écarts types de l’échantillon « corrigés ». Pour ce faire, nous utiliserons l’estimation par intervalles.

Une estimation d'intervalle (avec fiabilité) de l'écart type o d'une caractéristique quantitative X normalement distribuée basée sur l'écart type de l'échantillon « corrigé » s est l'intervalle de confiance.

s (1 --q)< < s (1 + q) (при q < 1),

0 < < s (1 + q) (при q > 1),

où q est trouvé dans le tableau pour n n donné.

Exemple 1. La caractéristique quantitative X de la population générale est distribuée normalement. Sur la base d’une taille d’échantillon de n = 25, un écart type « corrigé » de s = 0,8 a été trouvé. Trouvez un intervalle de confiance couvrant l’écart type général avec une fiabilité de 0,95.

Solution. En utilisant le tableau avec data = 0,95 et n = 25, nous trouvons q = 0,32.

L'intervalle de confiance requis s (1 -- q)< < s (1 + q) таков:

0,8(1-- 0,32) < < 0,8(1+0,32), или 0,544 < < 1,056.

Exemple 2. La caractéristique quantitative X de la population générale est distribuée normalement. Sur la base d'une taille d'échantillon de n = 10, un écart type « corrigé » de s = 0,16 a été trouvé. Trouvez un intervalle de confiance couvrant l’écart type général avec une fiabilité de 0,999.

Solution. En utilisant le tableau en annexe, basé sur data = 0,999 et n=10, nous trouvons 17= 1,80 (q > 1). L'intervalle de confiance requis est :

0 < < 0,16(1 + 1,80), или 0 < < 0,448.

Grade précision des mesures

Dans la théorie des erreurs, il est d'usage de caractériser la précision des mesures (précision de l'instrument) en utilisant l'écart type des erreurs de mesure aléatoires. Pour l’évaluation, l’écart type « corrigé » s est utilisé. Étant donné que généralement les résultats de mesure sont mutuellement indépendants, ont la même espérance mathématique (la valeur réelle de la valeur mesurée) et la même dispersion (dans le cas de mesures de précision égale), la théorie décrite dans le paragraphe précédent est applicable pour évaluer la précision des mesures.

Exemple. Sur la base de 15 mesures de précision égale, un écart type « corrigé » de s = 0,12 a été trouvé. Trouvez la précision de la mesure avec une fiabilité de 0,99.

Solution. La précision des mesures est caractérisée par l'écart type des erreurs aléatoires, le problème se résume donc à trouver l'intervalle de confiance s (1 -- q)< < s (1 + q) , покрывающего с заданной надежностью 0,99

En utilisant le tableau en annexe pour = 0,99 et n = 15 on trouve q = 0,73.

L'intervalle de confiance requis

0,12(1-- 0,73) < < 0,12(1+0,73), или 0.03 < < 0,21.

Estimation de probabilité (distribution binomiale) à partir de la fréquence relative

Une estimation d'intervalle (avec fiabilité) de la probabilité inconnue p d'une distribution binomiale par fréquence relative w est l'intervalle de confiance (avec les extrémités approximatives p1 et p2)

p1< p < p2,

où n est le nombre total de tests ; m est le nombre d'occurrences de l'événement ; w - fréquence relative égale au rapport m/n ; t est la valeur de l'argument de la fonction de Laplace pour laquelle Ф(t) = /2.

Commentaire. Pour les grandes valeurs de n (de l'ordre des centaines) peuvent être considérées comme limites approximatives de l'intervalle de confiance

Souvent, l’évaluateur doit analyser le marché immobilier du segment dans lequel se situe le bien évalué. Si le marché est développé, il peut être difficile d'analyser l'ensemble des objets présentés, c'est pourquoi un échantillon d'objets est utilisé pour l'analyse. Cet échantillon ne s'avère pas toujours homogène ; il est parfois nécessaire de le débarrasser des points extrêmes - offres de marché trop élevées ou trop basses. A cet effet, il est utilisé intervalle de confiance. Le but de cette étude est de mener une analyse comparative de deux méthodes de calcul de l'intervalle de confiance et de sélectionner l'option de calcul optimale lorsque vous travaillez avec différents échantillons dans le système estimatica.pro.

L'intervalle de confiance est un intervalle de valeurs d'attribut calculé sur la base d'un échantillon qui, avec une probabilité connue, contient le paramètre estimé de la population générale.

L'intérêt du calcul d'un intervalle de confiance est de construire un tel intervalle sur la base de données d'échantillon afin qu'il puisse être déclaré avec une probabilité donnée que la valeur du paramètre estimé se trouve dans cet intervalle. En d'autres termes, l'intervalle de confiance contient la valeur inconnue de la valeur estimée avec une certaine probabilité. Plus l’intervalle est large, plus l’imprécision est grande.

Il existe différentes méthodes pour déterminer l'intervalle de confiance. Dans cet article, nous examinerons 2 méthodes :

  • à travers la médiane et l'écart type ;
  • grâce à la valeur critique des statistiques t (coefficient de Student).

Étapes d'analyse comparative des différentes méthodes de calcul de l'IC :

1. constituer un échantillon de données ;

2. nous le traitons à l'aide de méthodes statistiques : nous calculons la valeur moyenne, la médiane, la variance, etc. ;

3. calculer l'intervalle de confiance de deux manières ;

4. analyser les échantillons nettoyés et les intervalles de confiance qui en résultent.

Étape 1. Échantillonnage des données

L'échantillon a été constitué à l'aide du système estimatica.pro. L'échantillon comprenait 91 offres de vente d'appartements d'une pièce dans la 3ème zone de prix avec un agencement de type « Khrouchtchev ».

Tableau 1. Échantillon initial

Prix ​​1 m², unité

Figure 1. Échantillon initial



Étape 2. Traitement de l'échantillon initial

Le traitement d'un échantillon à l'aide de méthodes statistiques nécessite de calculer les valeurs suivantes :

1. Moyenne arithmétique

2. La médiane est un nombre caractérisant l'échantillon : exactement la moitié des éléments de l'échantillon sont supérieurs à la médiane, l'autre moitié est inférieure à la médiane

(pour un échantillon avec un nombre impair de valeurs)

3. Plage - la différence entre les valeurs maximales et minimales de l'échantillon

4. Variance - utilisé pour estimer plus précisément la variation des données

5. L'écart type de l'échantillon (ci-après - SD) est l'indicateur le plus courant de la dispersion des valeurs d'ajustement autour de la moyenne arithmétique.

6. Coefficient de variation - reflète le degré de dispersion des valeurs d'ajustement

7. coefficient d'oscillation - reflète la fluctuation relative des valeurs de prix extrêmes dans l'échantillon autour de la moyenne

Tableau 2. Indicateurs statistiques de l'échantillon d'origine

Le coefficient de variation, qui caractérise l'homogénéité des données, est de 12,29 %, mais le coefficient d'oscillation est trop élevé. Ainsi, on peut dire que l’échantillon d’origine n’est pas homogène, passons donc au calcul de l’intervalle de confiance.

Étape 3. Calcul de l'intervalle de confiance

Méthode 1. Calcul utilisant la médiane et l’écart type.

L'intervalle de confiance est déterminé comme suit : valeur minimale - l'écart type est soustrait de la médiane ; valeur maximale - l'écart type est ajouté à la médiane.

Ainsi, l'intervalle de confiance (47 179 CU ; 60 689 CU)

Riz. 2. Valeurs comprises dans l'intervalle de confiance 1.



Méthode 2. Construction d'un intervalle de confiance en utilisant la valeur critique des statistiques t (coefficient de Student)

S.V. Gribovsky dans son livre « Méthodes mathématiques pour estimer la valeur de la propriété » décrit une méthode de calcul de l'intervalle de confiance à l'aide du coefficient de Student. Lors du calcul selon cette méthode, l'estimateur doit lui-même fixer le niveau de signification ∝, qui détermine la probabilité avec laquelle l'intervalle de confiance sera construit. Généralement, des niveaux de signification de 0,1 sont utilisés ; 0,05 et 0,01. Elles correspondent à des probabilités de confiance de 0,9 ; 0,95 et 0,99. Avec cette méthode, les vraies valeurs de l'espérance mathématique et de la variance sont supposées pratiquement inconnues (ce qui est presque toujours vrai lors de la résolution de problèmes d'estimation pratiques).

Formule d'intervalle de confiance :

n - taille de l'échantillon ;

La valeur critique des statistiques t (distribution de Student) avec un niveau de signification ∝, le nombre de degrés de liberté n-1, qui est déterminé à partir de tableaux statistiques spéciaux ou à l'aide de MS Excel (→"Statistique"→ STUDIST) ;

∝ - niveau de signification, prenons ∝=0,01.

Riz. 2. Valeurs comprises dans l'intervalle de confiance 2.

Étape 4. Analyse des différentes méthodes de calcul de l'intervalle de confiance

Deux méthodes de calcul de l'intervalle de confiance - via la médiane et le coefficient de Student - ont conduit à des valeurs différentes des intervalles. En conséquence, nous avons obtenu deux échantillons nettoyés différents.

Tableau 3. Statistiques pour trois échantillons.

Indicateur

Échantillon initial

1 possibilité

Option 2

Valeur moyenne

Dispersion

Coef. variantes

Coef. oscillations

Nombre d'objets retirés, pcs.

Sur la base des calculs effectués, nous pouvons dire que les valeurs de l'intervalle de confiance obtenues par différentes méthodes se croisent, vous pouvez donc utiliser n'importe laquelle des méthodes de calcul à la discrétion de l'évaluateur.

Cependant, nous pensons que lorsqu'on travaille dans le système estimatica.pro, il est conseillé de choisir une méthode de calcul de l'intervalle de confiance en fonction du degré de développement du marché :

  • si le marché est sous-développé, utilisez la méthode de calcul utilisant la médiane et l'écart type, car le nombre d'objets retirés dans ce cas est faible ;
  • si le marché est développé, appliquer le calcul via la valeur critique de la statistique t (coefficient de Student), car il est possible de constituer un large échantillon initial.

Lors de la préparation de l'article, les éléments suivants ont été utilisés :

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Méthodes mathématiques pour évaluer la valeur d'une propriété. Moscou, 2014

2. Données système estimatica.pro

Intervalle de confiance. Probabilité de confiance.

APPLICATION DE LA THÉORIE DES PROBABILITÉS AUX STATISTIQUES.

Notions de base.

Les statistiques mathématiques sont une branche des mathématiques qui étudie les méthodes de traitement et d'analyse des données expérimentales obtenues à la suite d'observations d'événements et de phénomènes aléatoires massifs.

Les observations faites sur les objets peuvent couvrir tous les membres de la population étudiée sans exception et peuvent se limiter à des enquêtes portant uniquement sur une certaine partie des membres de cette population. La première observation est dite continue ou complète, la seconde partielle ou sélectif .

Naturellement, l'information la plus complète est fournie par l'observation continue, mais on n'y a pas toujours recours. Premièrement, l’observation continue demande beaucoup de travail et, deuxièmement, elle est souvent pratiquement impossible, voire peu pratique. C’est pourquoi, dans la grande majorité des cas, ils recourent à des recherches sélectives.

Une population à partir de laquelle certains de ses membres sont sélectionnés d'une manière ou d'une autre pour une étude conjointe est appelée population générale , et une partie de la population générale sélectionnée d'une manière ou d'une autre est un échantillon de population ou échantillon .

Le volume de la population est théoriquement illimité, mais en pratique il est toujours limité.

La taille de l’échantillon peut être grande ou petite, mais elle ne peut pas être inférieure à deux.

La sélection dans l'échantillon peut être effectuée de manière aléatoire (par loterie ou par loterie). Ou planifié, selon la tâche et l'organisation de l'enquête. Pour que l'échantillon soit représentatif, il est nécessaire de prêter attention à la plage de variation de la caractéristique et de coordonner la taille de l'échantillon avec celle-ci.

2. Détermination de la fonction de distribution inconnue.

Nous avons donc fait une sélection. Divisons la plage des valeurs observées en intervalles , , …. la même longueur. Pour estimer le nombre d'intervalles requis, vous pouvez utiliser les formules suivantes :

Ensuite, laissez je suis - nombre de valeurs observées incluses dans jeème intervalle. En divisant je suis par nombre total d'observations n, on obtient la fréquence correspondant je-Oh intervalle : , et . Créons le tableau suivant :

Numéro d'intervalle Intervalle je suis
m1
m2
... ... ... ...
k mk

qui s'appelle statistiquement proche . Empirique (ou statistique ) fonction de distribution une variable aléatoire est la fréquence d'un événement telle que la quantité résultant de l'expérience prendra une valeur inférieure à x:

En pratique, il suffit de retrouver les valeurs de la fonction de répartition statistique F*(x) aux points , qui sont les limites des intervalles de la série statistique :

(5.2)

Il convient de noter qu'à et à . En traçant les points et en les reliant avec une courbe lisse, nous obtenons un graphique approximatif de la fonction de distribution empirique (Fig. 5.1). En utilisant la loi des grands nombres de Bernoulli, nous pouvons prouver qu'avec un nombre suffisamment grand de tests avec une probabilité proche de l'unité, la fonction de distribution empirique diffère aussi peu qu'on le souhaite de la fonction de distribution d'une variable aléatoire qui nous est inconnue.

Souvent, au lieu de tracer la fonction de distribution empirique, on procède comme suit. Les intervalles sont portés sur l'axe des abscisses, ,…. . A chaque intervalle, un rectangle est construit dont l'aire est égale à la fréquence correspondant à cet intervalle. Hauteur Salut de ce rectangle est égal à , où est la longueur de chacun des intervalles. Il est clair que la somme des aires de tous les rectangles construits est égale à un.

Considérons une fonction constante dans l'intervalle et égale à . Le graphique de cette fonction s'appelle histogramme . Il s'agit d'une ligne en escalier (Fig. 5.2). En utilisant la loi des grands nombres de Bernoulli, il peut être prouvé que pour les petits et les grands nombres, avec une certitude pratique, aussi peu que souhaité diffère de la densité de distribution d'une variable aléatoire continue.

Ainsi, en pratique, le type de fonction de distribution inconnue d'une variable aléatoire est déterminé.

3. Détermination des paramètres de distribution inconnus.

Ainsi, nous avons obtenu un histogramme qui donne de la clarté. La clarté des résultats présentés nous permet de tirer diverses conclusions et jugements sur l'objet étudié.

Cependant, ils ne s'arrêtent généralement pas là, mais vont plus loin, en analysant les données pour tester certaines hypothèses concernant les mécanismes possibles des processus ou phénomènes étudiés.

Bien que les données de chaque enquête soient relativement petites, nous aimerions que les résultats de l’analyse décrivent suffisamment l’ensemble réel ou imaginable (c’est-à-dire la population).

Pour ce faire, certaines hypothèses sont faites sur la façon dont les indicateurs calculés sur la base de données expérimentales (échantillon) se rapportent aux paramètres de la population générale.

La solution à ce problème constitue une partie importante de toute analyse de données expérimentales et est étroitement liée à l'utilisation d'un certain nombre de distributions théoriques discutées ci-dessus.

L'utilisation généralisée de la distribution normale dans les inférences statistiques a une justification à la fois empirique et théorique.

Premièrement, la pratique montre que dans de nombreux cas, la distribution normale est effectivement une représentation assez précise des données expérimentales.

Deuxièmement, il a été théoriquement montré que les valeurs moyennes des intervalles de l'histogramme sont distribuées selon une loi proche de la normale.

Cependant, il faut clairement comprendre que la distribution normale n’est qu’un outil purement mathématique et qu’il n’est pas du tout nécessaire que les données expérimentales réelles soient décrites avec précision par la distribution normale. Bien que dans de nombreux cas, à une petite erreur près, on puisse dire que les données sont normalement distribuées.

Un certain nombre d'indicateurs, tels que la moyenne, la variance, etc., caractérisent l'échantillon et sont appelés statistiques. Les mêmes indicateurs, mais relatifs à la population dans son ensemble, sont appelés paramètres. Ainsi, on peut dire que les statistiques servent à estimer des paramètres.

La moyenne générale est la moyenne arithmétique des valeurs volume de la population générale :

La moyenne de l'échantillon est la moyenne arithmétique du volume de l'échantillon :

(5.4)

si la sélection est sous forme de tableau.

La moyenne de l'échantillon est considérée comme une estimation de la moyenne générale.

La variance générale est la moyenne arithmétique des écarts carrés des valeurs de population à partir de leur valeur moyenne :

L'écart type général est la racine carrée de la variance générale : .

La variance de l'échantillon est la moyenne arithmétique des carrés de l'écart des valeurs de l'échantillon par rapport à leur moyenne :

L'écart type de l'échantillon est défini comme suit :

Pour mieux coller aux résultats expérimentaux, la notion de variance empirique (ou corrigée) est introduite :

Pour estimer l'écart type général, utilisez l'écart type corrigé ou la norme empirique :

(5.5)

Dans le cas où toutes les valeurs d'échantillon sont différentes, c'est-à-dire , , les formules pour et prennent la forme :

(5.6)

Intervalle de confiance. Probabilité de confiance.

Les différentes statistiques obtenues à la suite des calculs sont des estimations ponctuelles des paramètres correspondants de la population.

Si nous extrayons un certain nombre d'échantillons de la population générale et trouvons les statistiques qui nous intéressent pour chacun d'eux, alors les valeurs calculées représenteront des variables aléatoires qui ont une certaine répartition autour du paramètre estimé.

Mais, en règle générale, à la suite d'une expérience, le chercheur dispose d'un échantillon. Il est donc très intéressant d’obtenir une estimation d’intervalle, c’est-à-dire un certain intervalle dans lequel, comme on peut le supposer, se situe la vraie valeur du paramètre.

Les probabilités reconnues comme suffisantes pour des jugements sûrs sur les paramètres de la population basés sur des statistiques sont appelées confiance.

Par exemple, considérons comment estimer le paramètre .

Les théorèmes 1 et 2, bien que généraux, c'est-à-dire formulés sous des hypothèses assez larges, ne permettent pas de déterminer à quel point les estimations sont proches des paramètres estimés. Du fait que les estimations sont cohérentes, il s'ensuit simplement qu'à mesure que la taille de l'échantillon augmente, la valeur P.(|θ * – θ | < δ), δ < 0, приближается к 1.

Les questions suivantes se posent.

1) Quelle devrait être la taille de l’échantillon ? p, de sorte que la précision spécifiée
|θ * – θ | = δ était garanti avec une probabilité précédemment acceptée ?

2) Quelle est l’exactitude de l’estimation si la taille de l’échantillon est connue et si la probabilité d’une conclusion sans erreur est donnée ?

3) Quelle est la probabilité que, compte tenu de la taille de l’échantillon, la précision de l’estimation spécifiée soit assurée ?

Introduisons plusieurs nouvelles définitions.

Définition. Probabilité γ de réaliser l'inégalité,|θ *– θ | < δ est appelé le niveau de confiance ou fiabilité de l’estimation θ.

Passons des inégalités | θ *–θ | < δ к двойному неравенству. Известно, что . Поэтому доверительную вероятность можно записать в виде

Parce que θ (paramètre estimé) est un nombre constant, et θ * – valeur aléatoire, la notion de probabilité de confiance peut être formulée ainsi : probabilité de confiance γ est la probabilité que l'intervalle ( θ *– δ, θ *+ δ) couvre le paramètre estimé.

Définition. Intervalle aléatoire(θ *–δ , θ *+δ ), dans lequel se situe le paramètre estimé inconnu avec une probabilité γ est appelé intervalle de confiance ©, correspondant au coefficient de confiance γ,

İ= (θ*– δ, θ*+ δ ). (3)

Fiabilité de l'évaluation γ peut être précisé à l'avance, alors, connaissant la loi de distribution de la variable aléatoire étudiée, on peut trouver l'intervalle de confiance İ . Le problème inverse est également résolu lorsque, étant donné un İ la fiabilité correspondante de l'estimation est trouvée.

Laissez, par exemple, γ = 0,95 ; puis le numéro r= 1 – y = 0,05 montre la probabilité avec laquelle la conclusion sur la fiabilité de l'évaluation est erronée. Nombre р=1–γ appelé niveau de signification. Le niveau de signification est fixé à l'avance en fonction du cas particulier. Généralement r pris égal à 0,05 ; 0,01 ; 0,001.

Voyons comment construire un intervalle de confiance pour l'espérance mathématique d'une caractéristique normalement distribuée. Il a été démontré que

Estimons l'espérance mathématique en utilisant la moyenne de l'échantillon, en tenant compte du fait qu'elle a également une distribution normale*. Nous avons

(4)

et de la formule (12.9.2) on obtient

Compte tenu de (13.5.12), on obtient

(5)

Que la probabilité soit connue γ . Alors

Pour faciliter l'utilisation du tableau de la fonction de Laplace, fixons alors un

Intervalle

(7)

couvre le paramètre une = M(X) avec probabilité γ .

Dans la plupart des cas, l'écart type σ(X) la caractéristique étudiée est inconnue. Par conséquent, au lieu de σ (X) avec un large échantillon ( n> 30) appliquer l'écart type de l'échantillon corrigé s, qui est à son tour une estimation σ (X), l'intervalle de confiance ressemblera à

İ =

Exemple. Avec une probabilité γ = 0,95, trouvez l'intervalle de confiance pour M.(X) – la longueur de l'épi d'orge variété « Moskovsky 121 ». La distribution est précisée par un tableau dans lequel "au lieu des intervalles de changement (x je,X je+ 1) les nombres sont pris, voir Considérer qu'une variable aléatoire X est soumis à une distribution normale.

Solution. L'échantillon est grand ( n= 50). Nous avons

Trouvons l'exactitude de l'estimation

Définissons les limites de confiance :

Ainsi, avec fiabilité γ = 0,95 espérance mathématique est contenue dans l'intervalle de confiance je= (9,5; 10,3).

Ainsi, dans le cas d’un échantillon important ( n> 30), lorsque l'écart type corrigé s'écarte légèrement de l'écart type de la valeur caractéristique dans la population, un intervalle de confiance peut être trouvé. Mais il n’est pas toujours possible de réaliser un échantillon important et ce n’est pas toujours conseillé. D’après (7), il est clair que plus petit p, plus l'intervalle de confiance est large, c'est-à-dire je dépend de la taille de l'échantillon p.

Le statisticien anglais Gosset (pseudonyme Student) a prouvé que dans le cas d'une distribution normale d'une caractéristique X dans la population générale de normalisation une variable aléatoire

(8)

dépend uniquement de la taille de l’échantillon. La fonction de distribution de la variable aléatoire a été trouvée T et probabilité P.(T < t γ), t γ– la précision de l'évaluation. Fonction définie par l'égalité

s (n, t γ) = P.(|T| < t γ) = γ (9)

nommé Distribution t de Student Avec n– 1 degrés de liberté. La formule (9) relie la variable aléatoire T, intervalle de confiance İ et probabilité de confiance γ . En connaissant deux d’entre eux, vous pouvez trouver le troisième. En tenant compte de (8), nous avons

(10)

Nous remplaçons l'inégalité du côté gauche de (13.7.10) par l'inégalité équivalente . En conséquence nous obtenons

(11)

t γ=t(γ ,n). Pour la fonction t γ des tableaux ont été établis (voir annexe 5). À n>30 t γ Et t, Les fonctions de Laplace trouvées dans le tableau coïncident pratiquement.

Intervalle de confiance pour estimer l'écart type σx dans le cas d'une distribution normale.

Théorème.Faites savoir que la variable aléatoire a une distribution normale. Alors pour estimer le paramètre σ x de cette loi, l'égalité est vraie

(12)

γ – probabilité de confiance en fonction de la taille de l'échantillon n et de la précision de l'estimation β.

Fonction γ = Ψ (n, β ) a été bien étudié. Il est utilisé pour déterminer β = β (γ ,n). Pour β = β (γ ,n) les tableaux ont été établis selon des méthodes connues n(taille de l'échantillon) et γ (probabilité de confiance) est déterminé β .

Exemple. Pour estimer le paramètre d'une variable aléatoire normalement distribuée, un échantillon a été prélevé (rendement laitier quotidien de 50 vaches) et calculé s= 1,5. Trouver l'intervalle de confiance couvrant avec probabilité γ = 0,95.

Solution. D'après le tableau β (γ , p) Pour n= 50 et γ = 0,95 on trouve β = 0,21 (voir annexe 6).

Conformément à l'inégalité (13), nous trouvons les limites de l'intervalle de confiance. Nous avons

1,5 – 0,21·1,5 = 1,185 ; 1,5 + 0,21 1,5 = 1,185 ;



Avez-vous aimé l'article? Partagez avec vos amis !