Intervalle de confiance d'une variable aléatoire. Intervalles de confiance pour les fréquences et les proportions

Et d'autres. Tous sont des estimations de leurs analogues théoriques, qui pourraient être obtenues si l'on ne disposait pas d'un échantillon, mais d'une population générale. Mais hélas, la population en général coûte très cher et est souvent inaccessible.

Le concept d'estimation d'intervalle

Toute estimation par échantillon comporte une certaine dispersion, car est une variable aléatoire dépendant des valeurs d'un échantillon particulier. Par conséquent, pour des conclusions statistiques plus fiables, il convient de connaître non seulement l'estimation ponctuelle, mais également l'intervalle qui, avec une forte probabilité γ (gamma) couvre l’indicateur évalué θ (thêta).

Formellement, ce sont deux de ces valeurs (statistiques) T1 (X) Et T2 (X), Quoi T1< T 2 , pour lequel à un niveau de probabilité donné γ la condition est remplie :

Bref, il est probable γ ou plus le véritable indicateur est entre les points T1 (X) Et T2 (X), appelées limites inférieure et supérieure intervalle de confiance.

L'une des conditions de construction des intervalles de confiance est leur étroitesse maximale, c'est-à-dire il doit être le plus court possible. L'envie est tout à fait naturelle, car... le chercheur tente de localiser plus précisément l'emplacement du paramètre souhaité.

Il s'ensuit que l'intervalle de confiance doit couvrir les probabilités maximales de la distribution. et l'évaluation elle-même devrait être au centre.

Autrement dit, la probabilité d'un écart (du véritable indicateur par rapport à l'estimation) vers le haut est égale à la probabilité d'un écart vers le bas. Il convient également de noter que pour les distributions asymétriques, l'intervalle de droite n'est pas égal à l'intervalle de gauche.

La figure ci-dessus montre clairement que plus la probabilité de confiance est grande, plus l'intervalle est large – une relation directe.

Il s'agissait d'une brève introduction à la théorie de l'estimation par intervalles de paramètres inconnus. Passons à la recherche des limites de confiance pour l'espérance mathématique.

Intervalle de confiance pour l'espérance mathématique

Si les données originales sont réparties sur , alors la moyenne sera une valeur normale. Cela découle de la règle selon laquelle une combinaison linéaire de valeurs normales a également une distribution normale. Par conséquent, pour calculer les probabilités, nous pourrions utiliser l’appareil mathématique de la loi de distribution normale.

Cependant, cela nécessitera de connaître deux paramètres : l’espérance et la variance, qui sont généralement inconnus. Vous pouvez bien sûr utiliser des estimations à la place des paramètres (moyenne arithmétique et ), mais alors la distribution de la moyenne ne sera pas tout à fait normale, elle sera légèrement aplatie vers le bas. Ce fait a été intelligemment noté par le citoyen irlandais William Gosset, publiant sa découverte dans le numéro de mars 1908 de la revue Biometrica. Pour des raisons de secret, Gosset s'est signé Étudiant. C'est ainsi qu'est apparue la distribution t de Student.

Cependant, la distribution normale des données, utilisée par K. Gauss pour analyser les erreurs dans les observations astronomiques, est extrêmement rare dans la vie terrestre et assez difficile à établir (environ 2 000 observations sont nécessaires pour une grande précision). Par conséquent, il est préférable d’abandonner l’hypothèse de normalité et d’utiliser des méthodes qui ne dépendent pas de la distribution des données originales.

La question se pose : quelle est la distribution de la moyenne arithmétique si elle est calculée à partir des données d'une distribution inconnue ? La réponse est donnée par la théorie bien connue des probabilités Théorème central limite(CPT). Il en existe plusieurs variantes en mathématiques (les formulations ont été affinées au fil des années), mais toutes, grosso modo, se résument à l'affirmation selon laquelle la somme d'un grand nombre de variables aléatoires indépendantes obéit à une loi de distribution normale.

Lors du calcul de la moyenne arithmétique, la somme des variables aléatoires est utilisée. De là, il s'avère que la moyenne arithmétique a une distribution normale, dans laquelle l'espérance est l'espérance des données originales et la variance est .

Les gens intelligents savent comment prouver le CLT, mais nous le vérifierons à l'aide d'une expérience menée dans Excel. Simulons un échantillon de 50 variables aléatoires uniformément distribuées (en utilisant la fonction Excel RANDBETWEEN). Ensuite, nous réaliserons 1 000 échantillons de ce type et calculerons la moyenne arithmétique pour chacun. Regardons leur distribution.

On voit que la distribution de la moyenne est proche de la loi normale. Si la taille et le nombre de l’échantillon sont encore plus grands, la similarité sera encore meilleure.

Maintenant que nous avons vu de nos propres yeux la validité du CLT, nous pouvons, à l'aide de , calculer des intervalles de confiance pour la moyenne arithmétique, qui couvrent la vraie moyenne ou l'espérance mathématique avec une probabilité donnée.

Pour établir les limites supérieure et inférieure, vous devez connaître les paramètres de la distribution normale. En règle générale, il n'y en a pas, c'est pourquoi des estimations sont utilisées : moyenne arithmétique Et variance de l'échantillon. Je le répète, cette méthode ne donne une bonne approximation qu'avec de grands échantillons. Lorsque les échantillons sont petits, il est souvent recommandé d’utiliser la distribution Student. N'y croyez pas ! La distribution de Student pour la moyenne se produit uniquement lorsque les données d'origine sont distribuées normalement, c'est-à-dire presque jamais. Par conséquent, il est préférable de fixer immédiatement une barre minimale pour la quantité de données requises et d'utiliser des méthodes asymptotiquement correctes. On dit que 30 observations suffisent. Prenez-en 50, vous ne vous tromperez pas.

T1.2– limites inférieure et supérieure de l’intervalle de confiance

– exemple de moyenne arithmétique

s 0– écart type de l’échantillon (impartial)

n – taille de l'échantillon

γ – probabilité de confiance (généralement égale à 0,9, 0,95 ou 0,99)

c γ =Φ -1 ((1+γ)/2)– la valeur inverse de la fonction de distribution normale standard. En termes simples, il s'agit du nombre d'erreurs types depuis la moyenne arithmétique jusqu'à la limite inférieure ou supérieure (ces trois probabilités correspondent aux valeurs de 1,64, 1,96 et 2,58).

L'essence de la formule est que la moyenne arithmétique est prise, puis un certain montant en est mis de côté ( avec γ) erreurs types ( s 0 /√n). Tout est connu, prenez-le et réfléchissez-y.

Avant l'utilisation généralisée des ordinateurs personnels, ils obtenaient les valeurs de la fonction de distribution normale et de son inverse. Ils sont encore utilisés aujourd'hui, mais il est plus efficace d'utiliser des formules Excel toutes faites. Tous les éléments de la formule ci-dessus ( , et ) peuvent être facilement calculés dans Excel. Mais il existe une formule toute faite pour calculer l'intervalle de confiance - NORME DE CONFIANCE. Sa syntaxe est la suivante.

CONFIDENCE.NORM(alpha;standard_off;size)

alpha– le niveau de signification ou niveau de confiance, qui dans la notation adoptée ci-dessus est égal à 1- γ, soit la probabilité que le résultat mathématiquel'espérance sera en dehors de l'intervalle de confiance. Avec un niveau de confiance de 0,95, l'alpha est de 0,05, etc.

standard_off– écart type des données d’échantillon. Il n'est pas nécessaire de calculer l'erreur standard ; Excel lui-même divisera par la racine de n.

taille– taille de l'échantillon (n).

Le résultat de la fonction CONFIDENCE NORM est le deuxième terme de la formule de calcul de l'intervalle de confiance, c'est-à-dire demi-intervalle En conséquence, les points inférieur et supérieur sont la moyenne ± la valeur obtenue.

Ainsi, il est possible de construire un algorithme universel de calcul des intervalles de confiance pour la moyenne arithmétique, qui ne dépend pas de la distribution des données d'origine. Le prix de l’universalité est sa nature asymptotique, c’est-à-dire la nécessité d'utiliser des échantillons relativement grands. Cependant, à l’ère de la technologie moderne, il n’est généralement pas difficile de collecter la quantité de données requise.

Tester des hypothèses statistiques à l’aide d’intervalles de confiance

(module 111)

L'un des principaux problèmes résolus dans les statistiques est. Son essence est brièvement la suivante. On suppose par exemple que les attentes de la population générale sont égales à une certaine valeur. Ensuite, la distribution des moyennes d'échantillon pouvant être observées pour une attente donnée est construite. Ensuite, ils examinent où se situe la moyenne réelle dans cette distribution conditionnelle. Si cela dépasse les limites admissibles, l'apparition d'une telle moyenne est très improbable et, avec une seule répétition de l'expérience, elle est presque impossible, ce qui contredit l'hypothèse avancée, qui a été rejetée avec succès. Si la moyenne ne dépasse pas le niveau critique, alors l'hypothèse n'est pas rejetée (mais pas non plus prouvée !).

Ainsi, à l'aide d'intervalles de confiance, dans notre cas des attentes, vous pouvez également tester certaines hypothèses. C'est très facile à faire. Disons que la moyenne arithmétique d'un certain échantillon est égale à 100. L'hypothèse est testée que la valeur attendue est, disons, 90. Autrement dit, si nous posons primitivement la question, cela ressemble à ceci : est-ce possible avec le la vraie valeur de la moyenne est égale à 90, la moyenne observée s'est avérée être de 100 ?

Pour répondre à cette question, vous aurez également besoin d’informations sur l’écart type et la taille de l’échantillon. Supposons que l'écart type soit de 30 et que le nombre d'observations soit de 64 (pour extraire facilement la racine). L’erreur type de la moyenne est alors de 30/8 ou 3,75. Pour calculer un intervalle de confiance à 95 %, vous devrez ajouter deux erreurs types de chaque côté de la moyenne (plus précisément 1,96). L'intervalle de confiance sera d'environ 100 ± 7,5 ou de 92,5 à 107,5.

Le raisonnement supplémentaire est le suivant. Si la valeur testée se situe dans l’intervalle de confiance, elle ne contredit pas l’hypothèse, car se situe dans les limites des fluctuations aléatoires (avec une probabilité de 95 %). Si le point vérifié se situe en dehors de l'intervalle de confiance, alors la probabilité qu'un tel événement se produise est très faible, en tout cas inférieure au niveau acceptable. Cela signifie que l’hypothèse est rejetée car contredisant les données observées. Dans notre cas, l’hypothèse sur la valeur attendue se situe en dehors de l’intervalle de confiance (la valeur testée de 90 n’est pas incluse dans l’intervalle 100 ± 7,5), elle doit donc être rejetée. En répondant à la question primitive ci-dessus, il faut dire : non, cela ne peut en aucun cas, cela arrive extrêmement rarement. Souvent, ils indiquent la probabilité spécifique de rejeter par erreur l'hypothèse (niveau p), et non pas le niveau spécifié sur lequel l'intervalle de confiance a été construit, mais nous y reviendrons une autre fois.

Comme vous pouvez le constater, construire un intervalle de confiance pour la moyenne (ou l’espérance mathématique) n’est pas difficile. L’essentiel est d’en saisir l’essence, et ensuite les choses avanceront. En pratique, la plupart des cas utilisent un intervalle de confiance de 95 %, soit environ deux erreurs types de part et d’autre de la moyenne.

C'est tout pour l'instant. Tous mes vœux!

Estimation des intervalles de confiance

Objectifs d'apprentissage

Les statistiques considèrent ce qui suit deux tâches principales:

    Nous disposons d'une estimation basée sur un échantillon de données et nous souhaitons formuler une déclaration probabiliste sur l'endroit où se situe la vraie valeur du paramètre estimé.

    Nous avons une hypothèse spécifique qui doit être testée à l’aide d’échantillons de données.

Dans ce sujet, nous considérons la première tâche. Introduisons également la définition d'un intervalle de confiance.

Un intervalle de confiance est un intervalle construit autour de la valeur estimée d'un paramètre et qui montre où se situe la vraie valeur du paramètre estimé avec une probabilité spécifiée a priori.

Après avoir étudié le matériel sur ce sujet, vous :

    découvrez ce qu'est un intervalle de confiance pour une estimation ;

    apprendre à classer les problèmes statistiques ;

    maîtriser la technique de construction d'intervalles de confiance, à la fois à l'aide de formules statistiques et à l'aide d'outils logiciels ;

    apprendre à déterminer les tailles d'échantillon requises pour atteindre certains paramètres d'exactitude des estimations statistiques.

Distributions des caractéristiques de l'échantillon

Distribution T

Comme indiqué ci-dessus, la distribution de la variable aléatoire est proche de la distribution normale standardisée avec les paramètres 0 et 1. Puisque nous ne connaissons pas la valeur de σ, nous la remplaçons par une estimation de s. La quantité a déjà une répartition différente, à savoir ou Répartition des étudiants, qui est déterminé par le paramètre n -1 (le nombre de degrés de liberté). Cette distribution est proche de la distribution normale (plus n est grand, plus les distributions sont proches).

Sur la fig. 95
la distribution de Student avec 30 degrés de liberté est présentée. Comme vous pouvez le constater, elle est très proche de la distribution normale.

Semblables aux fonctions permettant de travailler avec la distribution normale NORMIDIST et NORMINV, il existe des fonctions permettant de travailler avec la distribution t - STUDIST (TDIST) et STUDRASOBR (TINV). Un exemple d'utilisation de ces fonctions peut être vu dans le fichier STUDRASP.XLS (modèle et solution) et sur la Fig. 96
.

Distributions d'autres caractéristiques

Comme nous le savons déjà, pour déterminer l’exactitude de l’estimation de l’espérance mathématique, nous avons besoin d’une distribution t. Pour estimer d'autres paramètres, tels que la variance, différentes distributions sont nécessaires. Deux d'entre eux sont la distribution F et x 2 -distribution.

Intervalle de confiance pour la moyenne

Intervalle de confiance- il s'agit d'un intervalle qui se construit autour de la valeur estimée du paramètre et montre où se situe la vraie valeur du paramètre estimé avec une probabilité spécifiée a priori.

La construction d'un intervalle de confiance pour la valeur moyenne se produit comme suit:

Exemple

Le fast-food envisage d'élargir son assortiment avec un nouveau type de sandwich. Afin d'estimer la demande, le responsable prévoit de sélectionner au hasard 40 visiteurs parmi ceux qui l'ont déjà essayé et de leur demander d'évaluer leur attitude envers le nouveau produit sur une échelle de 1 à 10. Le responsable souhaite estimer la demande attendue. nombre de points que le nouveau produit recevra et construisez un intervalle de confiance de 95 % pour cette estimation. Comment faire cela ? (voir fichier SANDWICH1.XLS (modèle et solution).

Solution

Pour résoudre ce problème, vous pouvez utiliser . Les résultats sont présentés dans la Fig. 97
.

Intervalle de confiance pour la valeur totale

Parfois, à l'aide d'échantillons de données, il est nécessaire d'estimer non pas l'espérance mathématique, mais la somme totale des valeurs. Par exemple, dans le cas d’un auditeur, l’intérêt peut être d’estimer non pas la taille moyenne des comptes, mais la somme de tous les comptes.

Soit N le nombre total d'éléments, n la taille de l'échantillon, T 3 la somme des valeurs de l'échantillon, T" l'estimation de la somme de la population entière, alors , et l'intervalle de confiance est calculé par la formule , où s est l'estimation de l'écart type pour l'échantillon et est l'estimation de la moyenne pour l'échantillon.

Exemple

Disons qu'une agence fiscale souhaite estimer le total des remboursements d'impôts pour 10 000 contribuables. Le contribuable reçoit un remboursement ou paie des impôts supplémentaires. Trouvez l'intervalle de confiance à 95 % pour le montant du remboursement, en supposant un échantillon de 500 personnes (voir le fichier MONTANT DU REFUND.XLS (modèle et solution).

Solution

StatPro n'a pas de procédure spéciale pour ce cas, cependant, on peut noter que les limites peuvent être obtenues à partir des limites de la moyenne sur la base des formules ci-dessus (Fig. 98
).

Intervalle de confiance pour la proportion

Soit p l'espérance mathématique de la part de clients, et soit p b l'estimation de cette part obtenue à partir d'un échantillon de taille n. On peut montrer que pour des valeurs suffisamment grandes la distribution de l'évaluation sera proche de la normale avec l'espérance mathématique p et l'écart type . L'erreur type d'estimation dans ce cas est exprimée comme , et l'intervalle de confiance est tel que .

Exemple

Le fast-food prévoit d'élargir son assortiment avec un nouveau type de sandwich. Afin d'évaluer la demande, le responsable a sélectionné au hasard 40 visiteurs parmi ceux qui l'avaient déjà essayé et leur a demandé d'évaluer leur attitude envers le nouveau produit sur une échelle de 1 à 10. Le responsable souhaite estimer la proportion attendue de les clients qui évaluent le nouveau produit au moins 6 points (il s'attend à ce que ces clients soient les consommateurs du nouveau produit).

Solution

Dans un premier temps, nous créons une nouvelle colonne basée sur l'attribut 1 si la note du client était supérieure à 6 points et 0 sinon (voir fichier SANDWICH2.XLS (modèle et solution).

Méthode 1

En comptant le nombre 1, nous estimons la part, puis utilisons les formules.

La valeur zcr est tirée de tableaux de distribution normale spéciaux (par exemple, 1,96 pour un intervalle de confiance de 95 %).

En utilisant cette approche et des données spécifiques pour construire un intervalle de 95 %, nous obtenons les résultats suivants (Fig. 99
). La valeur critique du paramètre zcr est de 1,96. L'erreur type de l'estimation est de 0,077. La limite inférieure de l'intervalle de confiance est de 0,475. La limite supérieure de l'intervalle de confiance est de 0,775. Ainsi, le manager a le droit de croire avec 95 % de confiance que le pourcentage de clients qui notent le nouveau produit 6 points ou plus sera compris entre 47,5 et 77,5.

Méthode 2

Ce problème peut être résolu à l'aide des outils standard de StatPro. Pour ce faire, il suffit de noter que la part dans ce cas coïncide avec la valeur moyenne de la colonne Type. Ensuite, nous appliquons StatPro/Inférence statistique/Analyse sur un échantillon pour construire un intervalle de confiance de la moyenne (estimation de l'espérance mathématique) pour la colonne Type. Les résultats obtenus dans ce cas seront très proches des résultats de la 1ère méthode (Fig. 99).

Intervalle de confiance pour l'écart type

s est utilisé comme estimation de l’écart type (la formule est donnée dans la section 1). La fonction de densité de l'estimation s est la fonction chi carré qui, comme la distribution t, a n-1 degrés de liberté. Il existe des fonctions spéciales pour travailler avec cette distribution CHIDIST et CHIINV.

L'intervalle de confiance dans ce cas ne sera plus symétrique. Un diagramme de limites conventionnel est présenté sur la figure. 100.

Exemple

La machine doit produire des pièces d'un diamètre de 10 cm. Cependant, en raison de diverses circonstances, des erreurs se produisent. Le contrôleur qualité est préoccupé par deux circonstances : premièrement, la valeur moyenne doit être de 10 cm ; deuxièmement, même dans ce cas, si les écarts sont importants, de nombreuses pièces seront rejetées. Chaque jour, il réalise un échantillon de 50 pièces (voir fichier QUALITÉ CONTROL.XLS (modèle et solution). Quelles conclusions un tel échantillon peut-il donner ?

Solution

Construisons des intervalles de confiance à 95 % pour la moyenne et l'écart type en utilisant StatPro/Inférence statistique/Analyse sur un échantillon(Fig. 101
).

Ensuite, en supposant une distribution normale des diamètres, nous calculons la proportion de produits défectueux en fixant un écart maximum de 0,065. En utilisant les capacités du tableau de substitution (cas de deux paramètres), nous tracerons la dépendance de la proportion de défauts sur la valeur moyenne et l'écart type (Fig. 102
).

Intervalle de confiance pour la différence entre deux moyennes

C'est l'une des applications les plus importantes des méthodes statistiques. Exemples de situations.

    Un gérant de magasin de vêtements aimerait savoir combien la cliente moyenne dépense dans le magasin en plus ou en moins par rapport au client masculin moyen.

    Les deux compagnies aériennes effectuent des vols similaires. Une organisation de consommateurs souhaite comparer la différence entre les retards moyens des vols prévus pour les deux compagnies aériennes.

    L'entreprise envoie des coupons pour certains types de produits dans une ville et pas dans une autre. Les dirigeants souhaitent comparer les volumes moyens d'achat de ces produits au cours des deux prochains mois.

    Un concessionnaire automobile traite souvent avec des couples mariés lors de présentations. Pour comprendre leurs réactions personnelles à la présentation, les couples sont souvent interviewés séparément. Le manager souhaite évaluer la différence entre les notes attribuées par les hommes et les femmes.

Cas des échantillons indépendants

La différence entre les moyennes aura une distribution t avec n 1 + n 2 - 2 degrés de liberté. L'intervalle de confiance pour μ 1 - μ 2 est exprimé par la relation :

Ce problème peut être résolu non seulement en utilisant les formules ci-dessus, mais également en utilisant les outils standard de StatPro. Pour ce faire, il suffit d'utiliser

Intervalle de confiance pour la différence entre les proportions

Soit l'espérance mathématique des actions. Soit leurs estimations d'échantillon, construites à partir d'échantillons de taille n 1 et n 2, respectivement. Ensuite est une estimation de la différence. L’intervalle de confiance de cette différence s’exprime donc comme suit :

Ici, zcr est une valeur obtenue à partir d'une distribution normale à l'aide de tableaux spéciaux (par exemple, 1,96 pour un intervalle de confiance de 95 %).

L'erreur type d'estimation s'exprime dans ce cas par la relation :

.

Exemple

Le magasin, se préparant à une grande vente, a entrepris l'étude marketing suivante. Les 300 meilleurs acheteurs ont été sélectionnés et répartis au hasard en deux groupes de 150 membres chacun. Des invitations ont été envoyées à tous les clients sélectionnés pour participer à la vente, mais seuls les membres du premier groupe ont reçu un coupon leur donnant droit à une réduction de 5 %. Lors de la vente, les achats de l'ensemble des 300 acheteurs sélectionnés ont été enregistrés. Comment un manager peut-il interpréter les résultats et porter un jugement sur l’efficacité des coupons ? (voir fichier COUPONS.XLS (modèle et solution)).

Solution

Pour notre cas précis, sur 150 clients ayant reçu un coupon de réduction, 55 ont effectué un achat en solde, et parmi les 150 n'ayant pas reçu de coupon, seulement 35 ont effectué un achat (Fig. 103).
). Ensuite, les valeurs des proportions de l'échantillon sont respectivement de 0,3667 et 0,2333. Et la différence d'échantillon entre eux est respectivement égale à 0,1333. En supposant un intervalle de confiance de 95 %, nous trouvons à partir du tableau de distribution normale zcr = 1,96. Le calcul de l'erreur type de la différence d'échantillon est de 0,0524. Nous constatons finalement que la limite inférieure de l'intervalle de confiance à 95 % est respectivement de 0,0307 et la limite supérieure est de 0,2359. Les résultats obtenus peuvent être interprétés de telle manière que pour 100 clients ayant reçu un coupon de réduction, on peut s'attendre entre 3 et 23 nouveaux clients. Cependant, il faut garder à l'esprit que cette conclusion en elle-même ne signifie pas l'efficacité de l'utilisation des coupons (puisqu'en accordant une remise, nous perdons du profit !). Montrons cela avec des données spécifiques. Supposons que le montant moyen des achats soit de 400 roubles, dont 50 roubles. il y a un profit pour le magasin. Le bénéfice attendu sur 100 clients n’ayant pas reçu de coupon est alors :

50 0,2333 100 = 1166,50 frotter.

Des calculs similaires pour 100 clients ayant reçu un coupon donnent :

30 0,3667 100 = 1100,10 frotter.

La diminution du bénéfice moyen à 30 s'explique par le fait que, grâce à la remise, les clients qui ont reçu un coupon effectueront en moyenne un achat pour 380 roubles.

Ainsi, la conclusion finale indique l'inefficacité de l'utilisation de tels coupons dans cette situation particulière.

Commentaire. Ce problème peut être résolu à l'aide des outils standard de StatPro. Pour ce faire, il suffit de réduire ce problème au problème de l'estimation de la différence entre deux moyennes à l'aide de la méthode, puis d'appliquer StatPro/Inférence statistique/Analyse à deux échantillons construire un intervalle de confiance pour la différence entre deux valeurs moyennes.

Contrôler la longueur de l'intervalle de confiance

La longueur de l'intervalle de confiance dépend de conditions suivantes:

    données directement (écart type) ;

    niveau d'importance;

    taille de l’échantillon.

Taille de l'échantillon pour estimer la moyenne

Considérons d’abord le problème dans le cas général. Notons la valeur de la moitié de la longueur de l'intervalle de confiance qui nous est donné par B (Fig. 104
). Nous savons que l'intervalle de confiance pour la valeur moyenne d'une variable aléatoire X est exprimé par , Où . Croire :

et en exprimant n, on obtient .

Malheureusement, nous ne connaissons pas la valeur exacte de la variance de la variable aléatoire X. De plus, on ne connaît pas la valeur de tcr, puisqu’elle dépend de n à travers le nombre de degrés de liberté. Dans cette situation, nous pouvons procéder comme suit. Au lieu de la variance s, nous utilisons une estimation de la variance basée sur toutes les implémentations disponibles de la variable aléatoire étudiée. Au lieu de la valeur t cr, nous utilisons la valeur z cr pour la distribution normale. Ceci est tout à fait acceptable, puisque les fonctions de densité de distribution pour les distributions normale et t sont très proches (sauf dans le cas de n petit). Ainsi, la formule recherchée prend la forme :

.

Étant donné que la formule donne, en général, des résultats non entiers, l'arrondi avec un excès du résultat est considéré comme la taille d'échantillon souhaitée.

Exemple

Le fast-food envisage d'élargir son assortiment avec un nouveau type de sandwich. Afin d'évaluer la demande, le responsable envisage de sélectionner au hasard un certain nombre de visiteurs parmi ceux qui l'ont déjà essayé et de leur demander d'évaluer leur attitude envers le nouveau produit sur une échelle de 1 à 10. Le responsable souhaite estimer le nombre de points attendu que le nouveau produit recevra et construisez un intervalle de confiance de 95 % pour cette estimation. Dans le même temps, il souhaite que la demi-largeur de l’intervalle de confiance ne dépasse pas 0,3. Combien de visiteurs doit-il interviewer ?

ça ressemble à ça :

Ici pourritures est une estimation de la proportion p, et B est une moitié donnée de la longueur de l'intervalle de confiance. Une surestimation de n peut être obtenue en utilisant la valeur pourritures= 0,5. Dans ce cas, la longueur de l’intervalle de confiance ne dépassera pas la valeur spécifiée B pour toute valeur vraie de p.

Exemple

Laissez le responsable de l'exemple précédent planifier d'estimer la part de clients qui ont préféré un nouveau type de produit. Il souhaite construire un intervalle de confiance à 90 % dont la demi-longueur ne dépasse pas 0,05. Combien de clients doivent être inclus dans l’échantillon aléatoire ?

Solution

Dans notre cas, la valeur de z cr = 1,645. Par conséquent, la quantité requise est calculée comme .

Si le gestionnaire avait des raisons de croire que la valeur p souhaitée était, par exemple, d'environ 0,3, alors en substituant cette valeur dans la formule ci-dessus, nous obtiendrions une valeur d'échantillon aléatoire plus petite, à savoir 228.

Formule pour déterminer taille d'échantillon aléatoire en cas de différence entre deux moyennesécrit comme :

.

Exemple

Certaines sociétés informatiques disposent d’un centre de service client. Récemment, le nombre de plaintes de clients concernant une mauvaise qualité de service a augmenté. Le centre de services emploie principalement deux types d'employés : ceux qui n'ont pas beaucoup d'expérience, mais ont suivi des cours préparatoires spéciaux, et ceux qui ont une vaste expérience pratique, mais n'ont pas suivi de cours spéciaux. L'entreprise souhaite analyser les réclamations des clients au cours des six derniers mois et comparer le nombre moyen de réclamations pour chacun des deux groupes d'employés. On suppose que les chiffres des échantillons pour les deux groupes seront les mêmes. Combien de salariés doivent être inclus dans l’échantillon pour obtenir un intervalle de 95 % avec une demi-longueur ne dépassant pas 2 ?

Solution

Ici, σ ots est une estimation de l'écart type des deux variables aléatoires en supposant qu'elles sont proches. Ainsi, dans notre problème, nous devons obtenir cette estimation d’une manière ou d’une autre. Cela peut être fait, par exemple, comme suit. Après avoir examiné les données sur les réclamations des clients au cours des six derniers mois, un manager peut constater que chaque employé reçoit généralement de 6 à 36 réclamations. Sachant que pour une distribution normale presque toutes les valeurs ne sont pas éloignées de plus de trois écarts types de la moyenne, il peut raisonnablement croire que :

, d'où σ ots = 5.

En substituant cette valeur dans la formule, nous obtenons .

Formule pour déterminer taille d'échantillon aléatoire en cas d'estimation de la différence entre les proportions a la forme :

Exemple

Certaines entreprises possèdent deux usines fabriquant des produits similaires. Un chef d'entreprise souhaite comparer le pourcentage de produits défectueux dans les deux usines. Selon les informations disponibles, le taux de défauts dans les deux usines se situe entre 3 et 5 %. Il est prévu de construire un intervalle de confiance à 99 % avec une demi-longueur ne dépassant pas 0,005 (ou 0,5 %). Combien de produits doivent être sélectionnés dans chaque usine ?

Solution

Ici, p 1ots et p 2ots sont des estimations de deux parts inconnues de défauts dans la 1ère et la 2ème usine. Si on met p 1ots = p 2ots = 0,5, alors on obtient une valeur surestimée pour n. Mais comme dans notre cas nous disposons d'informations a priori sur ces parts, nous prenons l'estimation haute de ces parts, à savoir 0,05. Nous obtenons

Lors de l’estimation de certains paramètres de population à partir de données d’échantillon, il est utile de donner non seulement une estimation ponctuelle du paramètre, mais également de fournir un intervalle de confiance qui montre où peut se situer la valeur exacte du paramètre estimé.

Dans ce chapitre, nous avons également pris connaissance des relations quantitatives qui nous permettent de construire de tels intervalles pour divers paramètres ; appris des façons de contrôler la longueur de l’intervalle de confiance.

Notez également que le problème de l'estimation de la taille des échantillons (le problème de la planification d'une expérience) peut être résolu à l'aide des outils standards de StatPro, à savoir StatPro/Inférence statistique/Sélection de la taille de l'échantillon.

Intervalle de confiance(CI ; en anglais, intervalle de confiance - CI) obtenu dans une étude avec un échantillon donne une mesure de l'exactitude (ou de l'incertitude) des résultats de l'étude afin de tirer des conclusions sur la population de tous ces patients (la population générale). La définition correcte d'un IC à 95 % peut être formulée comme suit : 95 % de ces intervalles contiendront la vraie valeur dans la population. Cette interprétation est un peu moins précise : CI est la plage de valeurs dans laquelle vous pouvez être sûr à 95 % qu'elle contient la vraie valeur. Lors de l’utilisation d’un IC, l’accent est mis sur la détermination d’un effet quantitatif, par opposition à la valeur P résultant du test de signification statistique. La valeur P n’estime aucune quantité, mais sert plutôt à mesurer la force des preuves contre l’hypothèse nulle de « aucun effet ». La valeur de P en elle-même ne nous dit rien sur l’ampleur de la différence, ni même sur sa direction. Par conséquent, les valeurs P indépendantes ne sont absolument pas informatives dans les articles ou les résumés. En revanche, l’IC indique à la fois l’ampleur de l’effet d’intérêt immédiat, tel que le bénéfice d’un traitement, et la force des preuves. Par conséquent, DI est directement lié à la pratique de l’EBM.

L'approche d'estimation de l'analyse statistique, illustrée par l'IC, vise à mesurer la quantité d'un effet d'intérêt (sensibilité d'un test diagnostique, taux de cas prédits, réduction du risque relatif avec le traitement, etc.) et également à mesurer l'incertitude dans cet effet. effet. Le plus souvent, l'IC est la plage de valeurs de part et d'autre de l'estimation dans laquelle se situe probablement la vraie valeur, et vous pouvez en être sûr à 95 %. L’accord sur l’utilisation de la probabilité de 95 % est arbitraire, tout comme la valeur P.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI repose sur l’idée qu’une même étude réalisée sur différents échantillons de patients ne produirait pas des résultats identiques, mais que leurs résultats seraient répartis autour d’une valeur vraie mais inconnue. En d’autres termes, CI le décrit comme une « variabilité dépendante de l’échantillon ». L'IC ne reflète pas une incertitude supplémentaire due à d'autres raisons ; en particulier, il n'inclut pas l'impact d'une perte de suivi sélective, d'une mauvaise observance ou d'une mesure des résultats inexacte, de l'absence de mise en aveugle, etc. L’IC sous-estime donc toujours le montant total de l’incertitude.

Calcul de l'intervalle de confiance

Tableau A1.1. Erreurs types et intervalles de confiance pour certaines mesures cliniques

En règle générale, un IC est calculé à partir d'une estimation observée d'une quantité, telle que la différence (d) entre deux proportions, et de l'erreur standard (SE) dans l'estimation de cette différence. L'IC approximatif à 95 % obtenu de cette manière est d ± 1,96 SE. La formule change en fonction de la nature de la mesure du résultat et de la portée de l'IC. Par exemple, dans un essai randomisé contrôlé par placebo portant sur un vaccin acellulaire contre la coqueluche, 72 nourrissons sur 1 670 (4,3 %) ayant reçu le vaccin ont développé la coqueluche et 240 sur 1 665 (14,4 %) dans le groupe témoin. La différence en pourcentage, connue sous le nom de réduction du risque absolu, est de 10,1 %. L'ES de cette différence est de 0,99 %. En conséquence, l'IC à 95 % est de 10,1 % + 1,96 x 0,99 %, soit de 8,2 à 12,0.

Malgré leurs approches philosophiques différentes, les IC et les tests de signification statistique sont étroitement liés mathématiquement.

Ainsi, la valeur P est « significative », c’est-à-dire R.<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

L'incertitude (l'inexactitude) de l'estimation, exprimée en IC, est largement liée à la racine carrée de la taille de l'échantillon. Les petits échantillons fournissent moins d’informations que les grands, et l’IC est d’autant plus large dans un échantillon plus petit. Par exemple, un article comparant les performances de trois tests utilisés pour diagnostiquer une infection à Helicobacter pylori a rapporté une sensibilité du test respiratoire à l'urée de 95,8 % (IC à 95 % 75-100). Bien que le chiffre de 95,8 % soit impressionnant, le petit échantillon de 24 patients adultes atteints de J. pylori signifie qu'il existe une incertitude significative dans cette estimation, comme le montre l'IC large. En effet, la limite inférieure de 75 % est bien inférieure à l’estimation de 95,8 %. Si la même sensibilité était observée dans un échantillon de 240 personnes, l’IC à 95 % serait compris entre 92,5 et 98,0, ce qui donnerait davantage d’assurance sur la haute sensibilité du test.

Dans les essais contrôlés randomisés (ECR), les résultats non significatifs (c'est-à-dire ceux avec P > 0,05) sont particulièrement susceptibles d'être mal interprétés. L'IC est particulièrement utile ici car il montre dans quelle mesure les résultats sont cohérents avec l'effet réel cliniquement utile. Par exemple, dans un ECR comparant la suture colique et l'anastomose par agrafes, une infection de la plaie s'est développée chez 10,9 % et 13,5 % des patients, respectivement (P = 0,30). L'IC à 95 % de cette différence est de 2,6 % (−2 à +8). Même dans cette étude portant sur 652 patients, il reste possible qu'il existe une légère différence dans l'incidence des infections résultant des deux procédures. Moins il y a de recherche, plus l’incertitude est grande. Sung et coll. a réalisé un ECR pour comparer la perfusion d'octréotide à la sclérothérapie aiguë pour les saignements variqueux aigus chez 100 patients. Dans le groupe octréotide, le taux de contrôle des saignements était de 84 % ; dans le groupe sclérothérapie - 90 %, ce qui donne P = 0,56. Notez que les taux de saignements continus sont similaires à ceux d’infection des plaies dans l’étude mentionnée. Dans ce cas, cependant, l'IC à 95 % pour la différence entre les interventions est de 6 % (-7 à +19). Cette fourchette est assez large par rapport à la différence de 5 % qui présenterait un intérêt clinique. De toute évidence, l’étude n’exclut pas une différence significative d’efficacité. Par conséquent, la conclusion des auteurs selon laquelle la perfusion d’octréotide et la sclérothérapie sont tout aussi efficaces dans le traitement des saignements dus aux varices est définitivement invalide. Dans des cas comme celui-ci, où, comme ici, l'IC à 95 % pour la réduction du risque absolu (ARR) inclut zéro, l'IC pour le NNT (nombre nécessaire à traiter) est assez difficile à interpréter. Le NPL et son CI sont obtenus à partir des réciproques de l'ACP (en multipliant par 100 si ces valeurs sont données en pourcentages). Nous obtenons ici NPL = 100 : 6 = 16,6 avec un IC à 95 % de -14,3 à 5,3. Comme le montre la note de bas de page « d » du tableau. A1.1, ce CI comprend des valeurs de NPL de 5,3 à l'infini et de NPL de 14,3 à l'infini.

Des IC peuvent être construits pour les estimations ou comparaisons statistiques les plus couramment utilisées. Pour les ECR, cela inclut la différence entre les proportions moyennes, les risques relatifs, les rapports de cotes et les NLR. De même, des IC peuvent être obtenus pour toutes les principales estimations réalisées dans les études sur l’exactitude des tests de diagnostic – sensibilité, spécificité, valeur prédictive positive (qui sont toutes des proportions simples) et rapports de vraisemblance – estimations obtenues dans les méta-analyses et les comparaisons avec des témoins. études. Un programme informatique couvrant bon nombre de ces utilisations des inhalateurs-doseurs est disponible dans la deuxième édition de Statistics with Confidence. Des macros permettant de calculer les IC pour les proportions sont disponibles gratuitement pour Excel et les programmes statistiques SPSS et Minitab sur http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Plusieurs estimations de l'effet du traitement

Bien que les IC soient souhaitables pour les principaux résultats de l’étude, ils ne sont pas nécessaires pour tous les résultats. L’IC concerne les comparaisons cliniquement importantes. Par exemple, lorsque l’on compare deux groupes, l’IC correct est celui construit pour la différence entre les groupes, comme le montrent les exemples ci-dessus, et non l’IC qui peut être construit pour l’estimation dans chaque groupe. Non seulement il n’est pas utile de fournir des IC distincts pour les estimations de chaque groupe, mais cette présentation peut être trompeuse. De même, la bonne approche pour comparer l’efficacité des traitements dans différents sous-groupes consiste à comparer directement deux (ou plusieurs) sous-groupes. Il est incorrect de supposer qu'un traitement est efficace dans un seul sous-groupe si son IC exclut la valeur correspondant à aucun effet et que les autres ne le sont pas. Les IC sont également utiles pour comparer les résultats de plusieurs sous-groupes. Sur la fig. A 1.1 montre le risque relatif d'éclampsie chez les femmes atteintes de prééclampsie dans des sous-groupes de femmes issus d'un ECR contrôlé par placebo sur le sulfate de magnésium.

Riz. A1.2. Le graphique forestier montre les résultats de 11 essais cliniques randomisés du vaccin antirotavirus bovin pour la prévention de la diarrhée par rapport au placebo. Un intervalle de confiance de 95 % a été utilisé pour estimer le risque relatif de diarrhée. La taille du carré noir est proportionnelle à la quantité d’informations. De plus, l'estimation récapitulative de l'efficacité du traitement et l'intervalle de confiance à 95 % (indiqué par un losange) sont affichés. La méta-analyse a utilisé un modèle à effets aléatoires plus grand que certains modèles prédéfinis ; par exemple, il pourrait s'agir de la taille utilisée pour calculer la taille de l'échantillon. Un critère plus strict exige que l’ensemble de la gamme CI présente un bénéfice supérieur à un minimum prédéfini.

Nous avons déjà discuté de l’erreur consistant à considérer le manque de signification statistique comme une indication que deux traitements sont également efficaces. Il est tout aussi important de ne pas assimiler signification statistique et importance clinique. L'importance clinique peut être supposée lorsque le résultat est statistiquement significatif et que l'ampleur de l'estimation de l'efficacité du traitement

Les études peuvent montrer si les résultats sont statistiquement significatifs, lesquels sont cliniquement importants et lesquels ne le sont pas. Sur la fig. A1.2 montre les résultats de quatre tests, pour lesquels l'ensemble du CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Souvent, l’évaluateur doit analyser le marché immobilier du segment dans lequel se situe le bien évalué. Si le marché est développé, il peut être difficile d'analyser l'ensemble des objets présentés, c'est pourquoi un échantillon d'objets est utilisé pour l'analyse. Cet échantillon ne s'avère pas toujours homogène ; il est parfois nécessaire de le débarrasser des points extrêmes - offres de marché trop élevées ou trop basses. A cet effet, il est utilisé intervalle de confiance. Le but de cette étude est de mener une analyse comparative de deux méthodes de calcul de l'intervalle de confiance et de sélectionner l'option de calcul optimale lorsque vous travaillez avec différents échantillons dans le système estimatica.pro.

L'intervalle de confiance est un intervalle de valeurs d'attribut calculé sur la base d'un échantillon qui, avec une probabilité connue, contient le paramètre estimé de la population générale.

L'intérêt du calcul d'un intervalle de confiance est de construire un tel intervalle sur la base de données d'échantillon afin qu'il puisse être déclaré avec une probabilité donnée que la valeur du paramètre estimé se trouve dans cet intervalle. En d'autres termes, l'intervalle de confiance contient la valeur inconnue de la valeur estimée avec une certaine probabilité. Plus l’intervalle est large, plus l’imprécision est grande.

Il existe différentes méthodes pour déterminer l'intervalle de confiance. Dans cet article, nous examinerons 2 méthodes :

  • à travers la médiane et l'écart type ;
  • grâce à la valeur critique des statistiques t (coefficient de Student).

Étapes d'analyse comparative des différentes méthodes de calcul de l'IC :

1. constituer un échantillon de données ;

2. nous le traitons à l'aide de méthodes statistiques : nous calculons la valeur moyenne, la médiane, la variance, etc. ;

3. calculer l'intervalle de confiance de deux manières ;

4. analyser les échantillons nettoyés et les intervalles de confiance qui en résultent.

Étape 1. Échantillonnage des données

L'échantillon a été constitué à l'aide du système estimatica.pro. L'échantillon comprenait 91 offres de vente d'appartements d'une pièce dans la 3ème zone de prix avec un agencement de type « Khrouchtchev ».

Tableau 1. Échantillon initial

Prix ​​1 m², unité

Figure 1. Échantillon initial



Étape 2. Traitement de l'échantillon initial

Le traitement d'un échantillon à l'aide de méthodes statistiques nécessite de calculer les valeurs suivantes :

1. Moyenne arithmétique

2. Médiane - un nombre caractérisant l'échantillon : exactement la moitié des éléments de l'échantillon sont supérieurs à la médiane, l'autre moitié est inférieure à la médiane

(pour un échantillon ayant un nombre impair de valeurs)

3. Plage - la différence entre les valeurs maximales et minimales de l'échantillon

4. Variance - utilisé pour estimer plus précisément la variation des données

5. L'écart type de l'échantillon (ci-après - SD) est l'indicateur le plus courant de la dispersion des valeurs d'ajustement autour de la moyenne arithmétique.

6. Coefficient de variation - reflète le degré de dispersion des valeurs d'ajustement

7. coefficient d'oscillation - reflète la fluctuation relative des valeurs de prix extrêmes dans l'échantillon autour de la moyenne

Tableau 2. Indicateurs statistiques de l'échantillon d'origine

Le coefficient de variation, qui caractérise l'homogénéité des données, est de 12,29 %, mais le coefficient d'oscillation est trop élevé. Ainsi, on peut dire que l’échantillon d’origine n’est pas homogène, passons donc au calcul de l’intervalle de confiance.

Étape 3. Calcul de l'intervalle de confiance

Méthode 1. Calcul utilisant la médiane et l’écart type.

L'intervalle de confiance est déterminé comme suit : valeur minimale - l'écart type est soustrait de la médiane ; valeur maximale - l'écart type est ajouté à la médiane.

Ainsi, l'intervalle de confiance (47 179 CU ; 60 689 CU)

Riz. 2. Valeurs comprises dans l'intervalle de confiance 1.



Méthode 2. Construction d'un intervalle de confiance en utilisant la valeur critique des statistiques t (coefficient de Student)

S.V. Gribovsky dans son livre « Méthodes mathématiques pour estimer la valeur de la propriété » décrit une méthode de calcul de l'intervalle de confiance à l'aide du coefficient de Student. Lors du calcul selon cette méthode, l'estimateur doit lui-même fixer le niveau de signification ∝, qui détermine la probabilité avec laquelle l'intervalle de confiance sera construit. Généralement, des niveaux de signification de 0,1 sont utilisés ; 0,05 et 0,01. Elles correspondent à des probabilités de confiance de 0,9 ; 0,95 et 0,99. Avec cette méthode, les vraies valeurs de l'espérance mathématique et de la variance sont supposées pratiquement inconnues (ce qui est presque toujours vrai lors de la résolution de problèmes d'estimation pratiques).

Formule d'intervalle de confiance :

n - taille de l'échantillon ;

La valeur critique des statistiques t (distribution de Student) avec un niveau de signification ∝, le nombre de degrés de liberté n-1, qui est déterminé à partir de tableaux statistiques spéciaux ou à l'aide de MS Excel (→"Statistique"→ STUDIST) ;

∝ - niveau de signification, prenons ∝=0,01.

Riz. 2. Valeurs comprises dans l'intervalle de confiance 2.

Étape 4. Analyse des différentes méthodes de calcul de l'intervalle de confiance

Deux méthodes de calcul de l'intervalle de confiance - via la médiane et le coefficient de Student - ont conduit à des valeurs différentes des intervalles. En conséquence, nous avons obtenu deux échantillons nettoyés différents.

Tableau 3. Statistiques pour trois échantillons.

Indicateur

Échantillon initial

1 possibilité

Option 2

Valeur moyenne

Dispersion

Coef. variantes

Coef. oscillations

Nombre d'objets retirés, pcs.

Sur la base des calculs effectués, nous pouvons dire que les valeurs de l'intervalle de confiance obtenues par différentes méthodes se croisent, vous pouvez donc utiliser n'importe laquelle des méthodes de calcul à la discrétion de l'évaluateur.

Cependant, nous pensons que lorsqu'on travaille dans le système estimatica.pro, il est conseillé de choisir une méthode de calcul de l'intervalle de confiance en fonction du degré de développement du marché :

  • si le marché est sous-développé, utilisez la méthode de calcul utilisant la médiane et l'écart type, car le nombre d'objets retirés dans ce cas est faible ;
  • si le marché est développé, appliquer le calcul via la valeur critique de la statistique t (coefficient de Student), car il est possible de constituer un large échantillon initial.

Lors de la préparation de l'article, les éléments suivants ont été utilisés :

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Méthodes mathématiques pour évaluer la valeur d'une propriété. Moscou, 2014

2. Données système estimatica.pro

Dans les sous-sections précédentes, nous avons examiné la question de l'estimation d'un paramètre inconnu UN un numéro. C’est ce qu’on appelle une estimation « ponctuelle ». Dans un certain nombre de tâches, vous devez non seulement rechercher le paramètre UN valeur numérique appropriée, mais également pour évaluer son exactitude et sa fiabilité. Vous devez savoir à quelles erreurs le remplacement d'un paramètre peut entraîner UN son estimation ponctuelle UN et avec quel degré de confiance pouvons-nous nous attendre à ce que ces erreurs ne dépassent pas les limites connues ?

Les problèmes de ce type sont particulièrement pertinents avec un petit nombre d'observations, lorsque l'estimation ponctuelle et dans est en grande partie aléatoire et le remplacement approximatif de a par a peut conduire à de graves erreurs.

Pour donner une idée de l'exactitude et de la fiabilité du devis UN,

Dans les statistiques mathématiques, on utilise ce qu'on appelle des intervalles de confiance et des probabilités de confiance.

Soit pour le paramètre UN estimation impartiale obtenue par expérience UN. Nous voulons estimer l’erreur possible dans ce cas. Attribuons une probabilité p suffisamment grande (par exemple, p = 0,9, 0,95 ou 0,99) pour qu'un événement avec une probabilité p puisse être considéré comme pratiquement fiable, et trouvons une valeur s pour laquelle

Ensuite, la plage des valeurs pratiquement possibles de l'erreur survenant lors du remplacement UN sur UN, sera ± s ; De grandes erreurs en valeur absolue n'apparaîtront qu'avec une faible probabilité a = 1 - p. Réécrivons (14.3.1) comme :

L'égalité (14.3.2) signifie qu'avec une probabilité p la valeur inconnue du paramètre UN tombe dans l'intervalle

Il faut noter une circonstance. Auparavant, nous avons examiné à plusieurs reprises la probabilité qu'une variable aléatoire tombe dans un intervalle non aléatoire donné. Ici, la situation est différente : l'ampleur UN n'est pas aléatoire, mais l'intervalle /p est aléatoire. Sa position sur l'axe des x est aléatoire, déterminée par son centre UN; En général, la longueur de l'intervalle 2s est également aléatoire, puisque la valeur de s est généralement calculée à partir de données expérimentales. Par conséquent, dans ce cas, il serait préférable d’interpréter la valeur p non pas comme la probabilité de « toucher » le point UN dans l'intervalle /p, et comme la probabilité qu'un intervalle aléatoire /p couvre le point UN(Fig. 14.3.1).

Riz. 14.3.1

La probabilité p est généralement appelée probabilité de confiance, et intervalle / p - intervalle de confiance. Limites d'intervalle Si. un x = un- sable une 2 = une + et sont appelés limites de confiance.

Donnons une autre interprétation à la notion d'intervalle de confiance : il peut être considéré comme un intervalle de valeurs de paramètres UN, compatibles avec les données expérimentales et ne les contredisent pas. En effet, si l'on accepte de considérer un événement avec probabilité a = 1-p pratiquement impossible, alors les valeurs du paramètre a pour lesquelles un - un> s doivent être reconnus comme contradictoires avec les données expérimentales, et ceux pour lesquels |a - UN un t na 2 .

Soit pour le paramètre UN il existe une estimation impartiale UN. Si nous connaissions la loi de distribution de la quantité UN, la tâche de trouver un intervalle de confiance serait très simple : il suffirait de trouver une valeur s pour laquelle

La difficulté est que la loi de distribution des estimations UN dépend de la loi de distribution de la quantité X et donc sur ses paramètres inconnus (en particulier sur le paramètre lui-même UN).

Pour contourner cette difficulté, vous pouvez utiliser la technique approximative suivante : remplacer les paramètres inconnus dans l’expression de s par leurs estimations ponctuelles. Avec un nombre relativement important d'expériences n(environ 20...30) cette technique donne généralement des résultats satisfaisants en termes de précision.

À titre d'exemple, considérons le problème d'un intervalle de confiance pour l'espérance mathématique.

Qu'il soit produit n X, dont les caractéristiques sont l'espérance mathématique T et écart D- inconnu. Les estimations suivantes ont été obtenues pour ces paramètres :

Il est nécessaire de construire un intervalle de confiance /p correspondant à la probabilité de confiance p pour l'espérance mathématique T quantités X.

Pour résoudre ce problème, nous utiliserons le fait que la quantité T représente la somme n variables aléatoires indépendantes distribuées de manière identique Xh et selon le théorème central limite, pour un suffisamment grand n sa loi de distribution est proche de la normale. En pratique, même avec un nombre relativement petit de termes (environ 10...20), la loi de distribution de la somme peut être approximativement considérée comme normale. Nous supposerons que la valeur T distribué selon la loi normale. Les caractéristiques de cette loi - espérance mathématique et variance - sont respectivement égales T Et

(voir chapitre 13 sous-section 13.3). Supposons que la valeur D on connaît et trouvera une valeur Ep pour laquelle

En utilisant la formule (6.3.5) du chapitre 6, nous exprimons la probabilité du côté gauche de (14.3.5) via la fonction de distribution normale

où est l'écart type de l'estimation T.

De l'équation.

trouver la valeur de Sp :

où arg Ф* (х) est la fonction inverse de Ф* (X), ceux. une telle valeur de l'argument pour laquelle la fonction de distribution normale est égale à X.

Dispersion D, par lequel la quantité est exprimée UN 1P, on ne sait pas exactement ; comme valeur approximative, vous pouvez utiliser l'estimation D(14.3.4) et mettre approximativement :

Ainsi, le problème de la construction d'un intervalle de confiance a été approximativement résolu, qui est égal à :

où gp est déterminé par la formule (14.3.7).

Pour éviter l'interpolation inverse dans les tableaux de la fonction Ф* (l) lors du calcul de s p, il convient d'établir un tableau spécial (tableau 14.3.1), qui donne les valeurs de la quantité

en fonction de r. La valeur (p détermine pour la loi normale le nombre d'écarts types qui doivent être tracés à droite et à gauche du centre de dispersion pour que la probabilité d'entrer dans la zone résultante soit égale à p.

Grâce à la valeur de 7 p, l'intervalle de confiance s'exprime comme suit :

Tableau 14.3.1

Exemple 1. 20 expériences ont été réalisées sur la quantité X ; les résultats sont présentés dans le tableau. 14.3.2.

Tableau 14.3.2

Il est nécessaire de trouver une estimation à partir de l'espérance mathématique de la quantité X et construisons un intervalle de confiance correspondant à la probabilité de confiance p = 0,8.

Solution. Nous avons:

En choisissant l: = 10 comme point de référence, en utilisant la troisième formule (14.2.14), nous trouvons l'estimation non biaisée D :

D'après le tableau 14.3.1 on trouve

Limites de confiance :

Intervalle de confiance :

Valeurs des paramètres T, situés dans cet intervalle sont compatibles avec les données expérimentales données dans le tableau. 14.3.2.

Un intervalle de confiance pour la variance peut être construit de la même manière.

Qu'il soit produit n expériences indépendantes sur une variable aléatoire X avec des paramètres inconnus pour A et la dispersion D une estimation impartiale a été obtenue :

Il est nécessaire de construire approximativement un intervalle de confiance pour la variance.

D'après la formule (14.3.11), il est clair que la quantité D représente

montant n variables aléatoires de la forme . Ces valeurs ne sont pas

indépendant, puisque chacun d'eux comprend la quantité T, dépendant de tous les autres. Cependant, on peut montrer qu’avec l’augmentation n la loi de distribution de leur somme se rapproche également de la normale. Presque à n= 20...30, cela peut déjà être considéré comme normal.

Supposons qu'il en soit ainsi, et retrouvons les caractéristiques de cette loi : espérance mathématique et dispersion. Depuis l'évaluation D- impartial, alors M[D] = D.

Calcul de l'écart D D est associé à des calculs relativement complexes, nous présentons donc son expression sans dérivation :

où q 4 est le quatrième moment central de la grandeur X.

Pour utiliser cette expression, vous devez remplacer les valeurs \u003d 4 et D(au moins les proches). Au lieu de D vous pouvez utiliser son évaluation D. En principe, le quatrième moment central peut aussi être remplacé par une estimation, par exemple une valeur de la forme :

mais un tel remplacement donnera une précision extrêmement faible, car en général, avec un nombre limité d'expériences, les moments d'ordre élevé sont déterminés avec de grandes erreurs. Cependant, dans la pratique, il arrive souvent que le type de loi de distribution des quantités X connue à l’avance : seuls ses paramètres sont inconnus. Ensuite, vous pouvez essayer d'exprimer μ 4 par D.

Prenons le cas le plus courant, lorsque la valeur X distribué selon la loi normale. Alors son quatrième moment central s'exprime en termes de dispersion (voir chapitre 6, sous-section 6.2) ;

et la formule (14.3.12) donne ou

Remplacer l'inconnu dans (14.3.14) D son évaluation D, on obtient : d'où

Le moment μ 4 peut être exprimé par Dégalement dans certains autres cas, lorsque la distribution de la valeur X n'est pas normal, mais son apparence est connue. Par exemple, pour la loi de densité uniforme (voir chapitre 5) on a :

où (a, P) est l'intervalle sur lequel la loi est spécifiée.

Ainsi,

En utilisant la formule (14.3.12) on obtient : où trouve-t-on environ

Dans les cas où le type de loi de distribution pour la quantité 26 est inconnu, lors d'une estimation approximative de la valeur a/), il est toujours recommandé d'utiliser la formule (14.3.16), à moins qu'il n'y ait des raisons particulières de croire que cette loi est très différent de la normale (a un kurtosis positif ou négatif notable).

Si la valeur approximative a/) est obtenue d'une manière ou d'une autre, alors nous pouvons construire un intervalle de confiance pour la variance de la même manière que nous l'avons construit pour l'espérance mathématique :

où la valeur en fonction de la probabilité donnée p se trouve selon le tableau. 14.3.1.

Exemple 2. Trouver un intervalle de confiance d'environ 80 % pour la variance d'une variable aléatoire X dans les conditions de l'exemple 1, si l'on sait que la valeur X distribué selon une loi proche de la normale.

Solution. La valeur reste la même que dans le tableau. 14.3.1 :

D'après la formule (14.3.16)

En utilisant la formule (14.3.18), nous trouvons l'intervalle de confiance :

La plage correspondante de valeurs d’écart type : (0,21 ; 0,29).

14.4. Méthodes exactes pour construire des intervalles de confiance pour les paramètres d'une variable aléatoire distribuée selon une loi normale

Dans la sous-section précédente, nous avons examiné des méthodes grossièrement approximatives pour construire des intervalles de confiance pour l’espérance mathématique et la variance. Nous donnerons ici une idée des méthodes exactes pour résoudre le même problème. Nous soulignons que pour trouver avec précision les intervalles de confiance, il est absolument nécessaire de connaître à l'avance la forme de la loi de distribution de la grandeur X, alors que pour l’application de méthodes approchées, cela n’est pas nécessaire.

L'idée de méthodes précises pour construire des intervalles de confiance se résume à ce qui suit. Tout intervalle de confiance est trouvé à partir d'une condition exprimant la probabilité de remplir certaines inégalités, qui incluent l'estimation qui nous intéresse UN. Loi de répartition des évaluations UN dans le cas général dépend de paramètres inconnus de la grandeur X. Cependant, il est parfois possible de transmettre des inégalités à partir d'une variable aléatoire UNà une autre fonction des valeurs observées X p X 2, ..., Xp. dont la loi de distribution ne dépend pas de paramètres inconnus, mais dépend uniquement du nombre d'expériences et du type de loi de distribution de la grandeur X. Ces types de variables aléatoires jouent un rôle important dans les statistiques mathématiques ; ils ont été étudiés plus en détail pour le cas d'une distribution normale de la quantité X.

Par exemple, il a été prouvé qu'avec une distribution normale de la valeur X variable aléatoire

obéit à ce qu'on appelle Loi sur la répartition des étudiants Avec n- 1 degrés de liberté ; la densité de cette loi a la forme

où G(x) est la fonction gamma connue :

Il a également été prouvé que la variable aléatoire

a une "distribution %2" avec n- 1 degrés de liberté (voir chapitre 7), dont la densité est exprimée par la formule

Sans nous attarder sur les dérivations des distributions (14.4.2) et (14.4.4), nous montrerons comment elles peuvent être appliquées lors de la construction d'intervalles de confiance pour les paramètres Ty D.

Qu'il soit produit n expériences indépendantes sur une variable aléatoire X, normalement distribué avec des paramètres inconnus À. Pour ces paramètres, des estimations ont été obtenues

Il est nécessaire de construire des intervalles de confiance pour les deux paramètres correspondant à la probabilité de confiance p.

Construisons d'abord un intervalle de confiance pour l'espérance mathématique. Il est naturel de prendre cet intervalle symétrique par rapport à T; Soit sp la moitié de la longueur de l'intervalle. La valeur s p doit être choisie pour que la condition soit satisfaite

Essayons de passer du côté gauche de l'égalité (14.4.5) à partir de la variable aléatoire Tà une variable aléatoire T, distribué selon la loi de Student. Pour ce faire, multipliez les deux côtés de l’inégalité |m-w?|

par une valeur positive : ou, en utilisant la notation (14.4.1),

Trouvons un nombre /p tel que la valeur /p puisse être trouvée à partir de la condition

D'après la formule (14.4.2), il est clair que (1) est une fonction paire, donc (14.4.8) donne

L'égalité (14.4.9) détermine la valeur /p en fonction de p. Si vous avez à votre disposition un tableau de valeurs intégrales

alors la valeur de /p peut être trouvée par interpolation inverse dans le tableau. Cependant, il est plus pratique d’établir à l’avance un tableau des valeurs /p​​. Un tel tableau est donné en annexe (tableau 5). Ce tableau montre les valeurs en fonction du niveau de confiance p et du nombre de degrés de liberté n- 1. Après avoir déterminé / p à partir du tableau. 5 et en supposant

on trouvera la moitié de la largeur de l'intervalle de confiance /p et l'intervalle lui-même

Exemple 1. 5 expériences indépendantes ont été réalisées sur une variable aléatoire X, normalement distribué avec des paramètres inconnus T et o. Les résultats des expériences sont donnés dans le tableau. 14.4.1.

Tableau 14.4.1

Trouver une note T pour l'espérance mathématique et construisez un intervalle de confiance à 90 % / p pour celle-ci (c'est-à-dire l'intervalle correspondant à la probabilité de confiance p = 0,9).

Solution. Nous avons:

Selon le tableau 5 de la demande de p- 1 = 4 et p = 0,9 on trouve

L'intervalle de confiance sera

Exemple 2. Pour les conditions de l'exemple 1 de la sous-section 14.3, en supposant la valeur X normalement distribué, trouvez l’intervalle de confiance exact.

Solution. D'après le tableau 5 de l'annexe on trouve quand p- 1 = 19ir =

0,8 / p = 1,328 ; d'ici

En comparant avec la solution de l'exemple 1 de la sous-section 14.3 (e p = 0,072), nous sommes convaincus que l'écart est très insignifiant. Si nous maintenons la précision à la deuxième décimale, alors les intervalles de confiance trouvés par les méthodes exacte et approximative coïncident :

Passons à la construction d'un intervalle de confiance pour la variance. Considérons l'estimateur de variance sans biais

et exprimer la variable aléatoire D par l'ampleur V(14.4.3), ayant une distribution x 2 (14.4.4) :

Connaître la loi de distribution de la quantité V, vous pouvez trouver l'intervalle /(1) dans lequel il tombe avec une probabilité p donnée.

Loi de répartition kn_x(v) la magnitude I 7 a la forme montrée sur la Fig. 14.4.1.

Riz. 14.4.1

La question se pose : comment choisir l’intervalle /p ? Si la loi de distribution de grandeur Vétait symétrique (comme la loi normale ou la distribution de Student), il serait naturel de prendre l'intervalle /p symétrique par rapport à l'espérance mathématique. Dans ce cas, la loi k p_x (v) asymétrique. Convenons de choisir l'intervalle /p tel que la probabilité que la valeur soit V au-delà de l'intervalle à droite et à gauche (zones ombrées sur la figure 14.4.1) étaient identiques et égales

Pour construire un intervalle /p avec cette propriété, nous utilisons la table. 4 applications : elle contient des chiffres y) tel que

pour la valeur V, ayant une distribution x 2 avec r degrés de liberté. Dans notre cas r = n- 1. Réparons r = n- 1 et retrouver dans la ligne correspondante du tableau. 4 deux significations x2 - l'un correspondant à la probabilité l'autre - probabilité Notons-les

valeurs à 2 heures Et XL ? L'intervalle a et 2, avec ta gauche, et oui ~ extrémité droite.

Trouvons maintenant à partir de l'intervalle / p l'intervalle de confiance souhaité /|, pour la dispersion de limites D, et D2, qui couvre le point D avec probabilité p :

Construisons un intervalle / (, = (?> ь А) qui couvre le point D si et seulement si la valeur V tombe dans l’intervalle /r. Montrons que l'intervalle

satisfait à cette condition. En effet, les inégalités sont équivalents aux inégalités

et ces inégalités sont satisfaites avec la probabilité p. Ainsi, l'intervalle de confiance pour la variance a été trouvé et est exprimé par la formule (14.4.13).

Exemple 3. Trouver l'intervalle de confiance pour la variance dans les conditions de l'exemple 2 de la sous-section 14.3, si l'on sait que la valeur X normalement distribué.

Solution. Nous avons . D'après le tableau 4 de l'annexe

nous trouvons à r = n- 1 = 19

En utilisant la formule (14.4.13), nous trouvons l'intervalle de confiance pour la variance

L'intervalle correspondant pour l'écart type est (0,21 ; 0,32). Cet intervalle ne dépasse que légèrement l'intervalle (0,21 ; 0,29) obtenu dans l'exemple 2 de la sous-section 14.3 par la méthode approximative.

  • La figure 14.3.1 considère un intervalle de confiance symétrique par rapport à a. En général, comme nous le verrons plus loin, cela n’est pas nécessaire.


Avez-vous aimé l'article? Partagez avec vos amis !