Distribution normale. Analyse statistique de valeurs numériques (statistiques non paramétriques)

Loi de distribution de probabilité normale

Sans exagération, on peut parler de loi philosophique. En observant divers objets et processus dans le monde qui nous entoure, nous constatons souvent que quelque chose ne suffit pas et qu'il existe une norme :


Voici une vue de base fonctions de densité distribution de probabilité normale, et je vous souhaite la bienvenue dans cette leçon intéressante.

Quels exemples pouvez-vous donner ? Il y a simplement de l'obscurité parmi eux. Il s'agit par exemple de la taille, du poids des personnes (et pas seulement), de leur force physique, capacité mentale etc. Il y a une "masse principale" (pour une raison ou une autre) et il y a des écarts dans les deux sens.

Ce diverses caractéristiques objets inanimés (même taille, même poids). Il s'agit d'une durée aléatoire des processus..., encore une fois, un triste exemple m'est venu à l'esprit, et donc je dirai la « durée de vie » des ampoules :) De la physique, je me suis souvenu des molécules d'air : parmi elles il y en a des lentes, il y en a les plus rapides, mais la plupart se déplacent à des vitesses « standard ».

Ensuite, nous nous écartons du centre d'un écart type supplémentaire et calculons la hauteur :

Marquer des points sur le dessin (couleur verte) et nous voyons que cela suffit amplement.

Au stade final, nous dessinons soigneusement un graphique et particulièrement attentivement reflète-le concave convexe! Eh bien, vous avez probablement réalisé il y a longtemps que l'axe des x est asymptote horizontale, et il est absolument interdit de « grimper » derrière !

À inscription électronique Le graphique de solution est facile à créer dans Excel, et de manière inattendue pour moi, j'ai même enregistré une courte vidéo sur ce sujet. Mais d'abord, parlons de la façon dont la forme de la courbe normale change en fonction des valeurs de et.

En augmentant ou en diminuant "a" (avec un « sigma » constant) le graphique conserve sa forme et se déplace à droite/à gauche respectivement. Ainsi, par exemple, lorsque la fonction prend la forme et notre graphique « se déplace » de 3 unités vers la gauche - exactement jusqu'à l'origine des coordonnées :


Une quantité normalement distribuée avec une espérance mathématique nulle a reçu un nom tout à fait naturel - centré; sa fonction de densité même, et le graphique est symétrique par rapport à l'ordonnée.

En cas de changement de "sigma" (avec un « a » constant), le graphique « reste le même » mais change de forme. Lorsqu'il s'agrandit, il devient plus bas et allongé, comme une pieuvre étirant ses tentacules. Et inversement, en diminuant le graphique devient de plus en plus étroit- il s'avère que c'est une « pieuvre surprise ». Oui quand diminuer« sigma » deux fois : le graphique précédent se rétrécit et s’étire deux fois :

Tout est en parfaite conformité avec transformations géométriques de graphiques.

Une distribution normale avec une valeur sigma unitaire est appelée normalisé, et si c'est aussi le cas centré(notre cas), alors une telle distribution est appelée standard. Il a une fonction de densité encore plus simple, déjà trouvée dans Théorème local de Laplace: . La distribution standard a trouvé une large application dans la pratique et très bientôt nous comprendrons enfin son objectif.

Eh bien, regardons maintenant le film :

Oui, tout à fait raison - d'une manière ou d'une autre, il est resté injustement dans l'ombre fonction de distribution de probabilité. Souvenons-nous d'elle définition:
– la probabilité qu’une variable aléatoire prenne une valeur INFÉRIEURE à la variable qui « parcourt » toutes les valeurs réelles jusqu’à « plus » l’infini.

À l'intérieur de l'intégrale, une lettre différente est généralement utilisée afin qu'il n'y ait pas de « chevauchement » avec la notation, car ici chaque valeur est associée à intégrale impropre , ce qui est égal à certains nombre de l'intervalle.

Presque toutes les significations ne se prêtent pas calcul précis, mais comme nous venons de le voir, avec la puissance de calcul moderne, cela ne pose aucune difficulté. Donc pour la fonction distribution standard, la fonction Excel correspondante contient généralement un argument :

=LISTENORMES(z)

Un, deux - et le tour est joué :

Le dessin montre clairement la mise en œuvre de tous propriétés de la fonction de distribution, et parmi les nuances techniques ici, vous devriez faire attention à asymptotes horizontales et le point d'inflexion.

Rappelons maintenant l'une des tâches clés du sujet, à savoir découvrir comment trouver la probabilité qu'une variable aléatoire normale prendra la valeur de l'intervalle. Géométriquement, cette probabilité est égale à zone entre la courbe normale et l'axe des x dans la section correspondante :

mais à chaque fois j'essaye d'avoir une valeur approximative n'est pas raisonnable, et il est donc plus rationnel d'utiliser formule "facile":
.

! Se souvient également , Quoi

Ici, vous pouvez à nouveau utiliser Excel, mais il y a quelques « mais » importants : d'une part, il n'est pas toujours à portée de main, et d'autre part, les valeurs « toutes faites » soulèveront très probablement des questions de la part de l'enseignant. Pourquoi?

J'en ai déjà parlé à plusieurs reprises : à une époque (et il n'y a pas très longtemps), une calculatrice ordinaire était un luxe, et dans littérature pédagogique La méthode « manuelle » de résolution du problème considéré est toujours préservée. Son essence est de standardiser valeurs « alpha » et « bêta », c'est-à-dire réduire la solution à la distribution standard :

Note : la fonction est facile à obtenir cas général en utilisant linéaire remplaçants. Alors aussi:

et du remplacement effectué la formule suit : transition des valeurs distribution aléatoire– aux valeurs correspondantes de la distribution standard.

Pourquoi est-ce nécessaire ? Le fait est que les valeurs ont été méticuleusement calculées par nos ancêtres et compilées dans un tableau spécial, qui figure dans de nombreux livres sur terwer. Mais il existe encore plus souvent une table de valeurs, dont nous avons déjà parlé dans Théorème intégral de Laplace:

Si on a à notre disposition un tableau des valeurs de la fonction de Laplace , puis nous résolvons à travers lui :

Valeurs fractionnaires Traditionnellement, on arrondit à 4 décimales, comme cela se fait dans le tableau standard. Et pour le contrôle, il y a Point 5 mise en page.

je te rappelle que , et pour éviter toute confusion toujours contrôler, un tableau de QUELLE fonction est devant vos yeux.

Répondre doit être donné sous forme de pourcentage, la probabilité calculée doit donc être multipliée par 100 et le résultat doit être accompagné d'un commentaire significatif :

– avec un vol de 5 à 70 m, environ 15,87% des obus tomberont

Nous nous entraînons seuls :

Exemple 3

Le diamètre des roulements fabriqués en usine est une variable aléatoire, normalement distribuée avec une espérance mathématique de 1,5 cm et un écart type de 0,04 cm. Trouvez la probabilité que la taille d'un roulement sélectionné au hasard soit comprise entre 1,4 et 1,6 cm.

Dans l'exemple de solution et ci-dessous, j'utiliserai la fonction de Laplace comme option la plus courante. À propos, notez que selon le libellé, les extrémités de l'intervalle peuvent être incluses ici dans la considération. Cependant, ce n'est pas critique.

Et déjà dans cet exemple nous avons rencontré un cas particulier– lorsque l'intervalle est symétrique par rapport à l'espérance mathématique. Dans une telle situation, il peut être écrit sous la forme et, en utilisant la bizarrerie de la fonction de Laplace, simplifier la formule de travail :


Le paramètre delta est appelé déviation de l’espérance mathématique, et la double inégalité peut être « conditionnée » en utilisant module:

– la probabilité que la valeur d'une variable aléatoire s'écarte de l'espérance mathématique de moins de .

C'est bien que la solution tienne sur une seule ligne :)
– la probabilité que le diamètre d'un roulement pris au hasard ne diffère pas de plus de 0,1 cm de 1,5 cm.

Le résultat de cette tâche s'est avéré proche de l'unité, mais j'aimerais une fiabilité encore plus grande - à savoir connaître les limites dans lesquelles se situe le diamètre presque tout le monde roulements. Y a-t-il un critère pour cela ? Existe ! La question posée trouve une réponse dans ce qu'on appelle

règle des "trois sigma"

Son essence est que pratiquement fiable est le fait qu'une variable aléatoire normalement distribuée prendra une valeur dans l'intervalle .

En effet, la probabilité d'écart par rapport à la valeur attendue est inférieure à :
soit 99,73%

Côté roulements, il s'agit de 9973 pièces d'un diamètre de 1,38 à 1,62 cm et seulement 27 exemplaires « de mauvaise qualité ».

Dans la recherche pratique, la règle des trois sigma est généralement appliquée dans le sens opposé : si statistiquement Il a été constaté que presque toutes les valeurs variable aléatoire à l'étude se situent dans un intervalle de 6 écarts types, alors il y a des raisons impérieuses de croire que cette valeur est distribuée selon une loi normale. La vérification est effectuée à l'aide de la théorie hypothèses statistiques , auquel j'espère arriver tôt ou tard :)

En attendant, nous continuons à résoudre les graves problèmes soviétiques :

Exemple 4

La valeur aléatoire de l'erreur de pesée est distribuée selon la loi normale avec une espérance mathématique nulle et écart-type 3 grammes. Trouvez la probabilité que la prochaine pesée soit effectuée avec une erreur ne dépassant pas 5 grammes en valeur absolue.

Solution très simple. Par condition, on constate immédiatement qu'à la prochaine pesée (quelque chose ou quelqu'un) nous obtiendrons le résultat à presque 100% avec une précision de 9 grammes. Mais le problème implique un écart plus étroit et selon la formule :

– la probabilité que la prochaine pesée soit effectuée avec une erreur n'excédant pas 5 grammes.

Répondre:

Le problème résolu est fondamentalement différent d’un problème apparemment similaire. Exemple 3 leçon sur distribution uniforme. Il y avait une erreur arrondi résultats de mesure, nous parlons ici de l’erreur aléatoire des mesures elles-mêmes. De telles erreurs surviennent en raison de caractéristiques techniques l'appareil lui-même (la gamme d'erreurs acceptables est généralement indiquée dans son passeport), et aussi par la faute de l'expérimentateur - lorsque, par exemple, nous prenons « à l'œil » des lectures avec l'aiguille de la même balance.

Entre autres, il existe également ce qu'on appelle systématique erreurs de mesure. C'est déjà non aléatoire erreurs qui se produisent en raison d’une configuration ou d’un fonctionnement incorrect de l’appareil. Par exemple, les balances au sol non réglementées peuvent « ajouter » régulièrement des kilogrammes, et le vendeur alourdit systématiquement les clients. Ou cela peut être calculé de manière non systématique. Cependant, dans tous les cas, une telle erreur ne sera pas aléatoire et son espérance est différente de zéro.

…Je développe en urgence une formation commerciale =)

Nous décidons nous-mêmes problème inverse:

Exemple 5

Le diamètre du rouleau est une variable aléatoire normalement distribuée, son écart type est égal à mm. Trouvez la longueur de l'intervalle, symétrique par rapport à l'espérance mathématique, dans lequel la longueur du diamètre du rouleau est susceptible de tomber.

Point 5* disposition de conception aider. Veuillez noter que l'espérance mathématique n'est pas connue ici, mais cela ne nous empêche en rien de résoudre le problème.

ET tâche d'examen, que je recommande vivement pour consolider le matériel :

Exemple 6

Une variable aléatoire normalement distribuée est spécifiée par ses paramètres (espérance mathématique) et (écart type). Requis:

a) écrire la densité de probabilité et représenter schématiquement son graphique ;
b) trouver la probabilité qu'il prenne une valeur de l'intervalle ;
c) trouver la probabilité que la valeur absolue ne s'écarte pas de plus de ;
d) en utilisant la règle des « trois sigma », trouver les valeurs de la variable aléatoire.

De tels problèmes sont proposés partout et, au fil des années de pratique, j'en ai résolu des centaines et des centaines. Assurez-vous de vous entraîner à dessiner un dessin à la main et à utiliser des tableaux en papier ;)

Eh bien, je vais vous donner un exemple complexité accrue:

Exemple 7

La densité de distribution de probabilité d'une variable aléatoire a la forme . Trouver, espérance mathématique, variance, fonction de distribution, créer des graphiques de densité et des fonctions de distribution, trouver.

Solution: Tout d'abord, notons que la condition ne dit rien sur la nature de la variable aléatoire. La présence d'un exposant en soi ne veut rien dire : il peut s'avérer, par exemple, indicatif voire arbitraire distribution continue. Et donc la « normalité » de la distribution doit encore être justifiée :

Puisque la fonction déterminé à n'importe lequel valeur actuelle, et cela peut être réduit à la forme , alors la variable aléatoire est distribuée selon la loi normale.

On y va. Pour ça sélectionner un carré complet et organiser fraction de trois étages:


Assurez-vous d'effectuer une vérification en remettant l'indicateur dans sa forme d'origine :

, c'est ce que nous voulions voir.

Ainsi:
- Par règle de fonctionnement avec pouvoirs"pincer" Et ici, nous pouvons immédiatement écrire l'évidence caractéristiques numériques:

Trouvons maintenant la valeur du paramètre. Puisque le multiplicateur de distribution normale a la forme et , alors :
, d'où nous exprimons et substituons dans notre fonction :
, après quoi nous reviendrons sur l'enregistrement avec nos yeux et nous assurerons que la fonction résultante a la forme .

Construisons un graphique de densité :

et graphique de la fonction de distribution :

Si vous n'avez pas Excel ou même une calculatrice ordinaire à portée de main, le dernier graphique peut facilement être construit manuellement ! Au moment où la fonction de distribution prend la valeur et voilà

Distribution normale

Nous connaissons déjà les notions de distribution, de polygone (ou polygone privé) et de courbe de distribution. Un cas particulier de ces concepts est celui de « distribution normale » et de « courbe normale ». Mais cette option particulière est très importante lors de l’analyse de données scientifiques, y compris psychologiques. Le fait est que la distribution normale, représentée graphiquement courbe normale il existe une distribution idéale, rarement trouvée dans la réalité objective. Mais son utilisation facilite et simplifie grandement le traitement et l'explication des données obtenues en nature. De plus, ce n'est que pour une distribution normale que les coefficients de corrélation donnés peuvent être interprétés comme une mesure de l'étroitesse de la connexion ; dans d'autres cas, ils ne remplissent pas une telle fonction, et leur calcul conduit à des paradoxes difficiles à expliquer.

DANS recherche scientifique l'hypothèse est généralement acceptée Ô la normalité de la distribution des données réelles et sur cette base elles sont traitées, après quoi il est clarifié et indiqué dans quelle mesure la distribution réelle diffère de la distribution normale, pour laquelle il existe un certain nombre de techniques statistiques spéciales. En règle générale, cette hypothèse est tout à fait acceptable, puisque la plupart phénomènes psychiques et leurs caractéristiques ont des distributions très proches de la normale.

Alors, quelle est la distribution normale et quelles sont ses caractéristiques qui attirent les scientifiques ? Normale Une distribution d'une quantité est dite telle que la probabilité de son apparition et de sa non-occurrence soit la même. L’illustration classique est un tirage au sort. Si la pièce est juste et que les lancers sont effectués de la même manière, il est également probable qu'il y ait pile ou face. C'est-à-dire que les « têtes » peuvent tomber et ne pas tomber avec la même probabilité, il en va de même pour les « queues ».

Nous avons introduit le concept de « probabilité ». Clarifions-le. Probabilité– il s'agit de la fréquence attendue d'occurrence d'un événement (occurrence – pas l'occurrence d'une valeur). La probabilité s'exprime par une fraction dont le numérateur est le nombre d'événements qui se sont réalisés (fréquence), et V dénominateur - maximum numéro possible ces événements. Lorsque l'échantillon (numéro cas possibles) est limité, alors il vaut mieux ne pas parler de probabilité, mais Ô fréquence que nous connaissons déjà. La probabilité suggère nombre infiniéchantillons Mais dans la pratique, cette subtilité est souvent ignorée.

Le vif intérêt des mathématiciens pour la théorie des probabilités V en général et à la distribution normale en particulier apparaît V XVIIe siècle en raison du désir des participants jeu d'argent trouvez une formule pour un maximum de gains avec un minimum de risque. Les célèbres mathématiciens J. Bernoulli (1654-1705) et P. S. Laplace (1749-1827) se sont emparés de ces questions. D'abord description mathématique courbe reliant les segments du diagramme de distribution des probabilités d'obtenir « face » en lançant plusieurs fois des pièces, a donné Abraham de Moivre(1667-1754). Cette courbe est très proche de courbe normale dont il a donné une description exacte grand mathématicien K.F. Gauss(1777-1855), dont elle porte encore aujourd'hui le nom. Le graphique et la formule d'une courbe normale (gaussienne) sont les suivants.

où P est la probabilité (plus précisément la densité de probabilité), c'est-à-dire la hauteur de la courbe au-dessus valeur donnée Z ; e – base un algorithme naturel(2,718...); = 3,142... ; M – moyenne de l'échantillon ; σ – écart type.

Propriétés d'une courbe normale

1. La moyenne (M), le mode (Mo) et la médiane (Me) sont les mêmes.

2. Symétrie par rapport à la moyenne M.

3. Déterminé sans ambiguïté par seulement deux paramètres - M et o.

4. Les « branches » de la courbe ne franchissent jamais l'abscisse Z, s'en rapprochant asymptotiquement.

5. Pour M = 0 et o = 1, nous obtenons une courbe normale unitaire, puisque l'aire en dessous est égale à 1.

6. Pour une courbe unitaire : P m = 0,3989, et l'aire sous la courbe est comprise dans la plage :

-σ à +σ = 68,26 % ; -2σ à + 2σ = 95,46 % ; -Зσ à + Зσ = 99,74 %.

7. Pour les courbes normales non unitaires (M ≠0, σ ≠1), le modèle en zones reste le même. La différence est en centièmes.

Variations de la distribution normale

Les variations présentées ci-dessous s'appliquent non seulement à la distribution normale, mais à n'importe laquelle d'entre elles. Cependant, par souci de clarté, nous les présentons ici.

1. Asymétrie – répartition inégale par rapport à la valeur centrale.

en théorie des probabilités et en statistiques mathématiques, ils considèrent diverses familles paramétriques de distributions de valeurs numériques. Variables aléatoires. À savoir, ils étudient des familles de distributions normales, lognormales, exponentielles, gamma, Weibull-Gnedenko, etc. Toutes dépendent d'un, deux ou trois paramètres. Donc pour description complète distribution, il suffit de connaître ou d'estimer un, deux ou trois nombres. Très confortablement. La théorie paramétrique est donc largement développée statistiques mathématiques, dans lequel on suppose que les distributions des résultats d'observation appartiennent à l'une ou l'autre famille paramétrique.

Malheureusement, les familles paramétriques n’existent que dans l’esprit des auteurs de manuels de théorie des probabilités et de statistiques mathématiques. DANS vrai vie Ils ne sont pas là. L’économétrie utilise donc principalement méthodes paramétriques, dans lequel les distributions des résultats d'observation peuvent avoir une forme arbitraire.

Tout d'abord, en utilisant l'exemple d'une distribution normale, nous discuterons plus en détail de l'impossibilité utilisation pratique familles paramétriques pour décrire les distributions de données économiques spécifiques. Ensuite, nous analyserons les méthodes paramétriques permettant de rejeter les observations aberrantes et démontrerons l'impossibilité d'une utilisation pratique d'un certain nombre de méthodes de statistiques paramétriques et l'erreur des conclusions auxquelles elles conduisent. Ensuite, nous analyserons les méthodes non paramétriques d'estimation de la confiance des principales caractéristiques des variables aléatoires numériques - espérance mathématique, médiane, variance, écart type, coefficient de variation. La conférence se terminera par des méthodes permettant de tester l'homogénéité de deux échantillons, indépendants ou apparentés.

La répartition des observations est-elle souvent normale ?

Dans les modèles économétriques et économico-mathématiques, utilisés notamment dans l'étude et l'optimisation des processus de marketing et de gestion, de gestion d'entreprise et régionale, de précision et de stabilité processus technologiques, dans les problèmes de fiabilité, d'assurance de la sécurité, y compris la sécurité environnementale, du fonctionnement des dispositifs et objets techniques, et de l'élaboration d'organigrammes, les concepts et résultats de la théorie des probabilités et des statistiques mathématiques sont souvent utilisés. Dans ce cas, l'une ou l'autre famille paramétrique de distributions de probabilité est souvent utilisée. Le plus populaire distribution normale. Également utilisé de manière logarithmique distribution normale, distribution exponentielle, distribution gamma, distribution de Weibull-Gnedenko, etc.

Bien évidemment, il faut toujours vérifier la correspondance des modèles avec la réalité. Deux questions se posent. Les distributions réelles diffèrent-elles de celles utilisées dans le modèle ? Dans quelle mesure cette différence affecte-t-elle les conclusions ?

Ci-dessous, en utilisant l'exemple de la distribution normale et les méthodes basées sur celle-ci pour rejeter des observations très différentes (valeurs aberrantes), il est montré que les distributions réelles diffèrent presque toujours de celles incluses dans les familles paramétriques classiques, et que les écarts existants par rapport à ces familles conduisent à des conclusions incorrectes. dans le cas considéré, il s'agit de rejets fondés sur l'utilisation de ces familles.

Existe-t-il des raisons de supposer a priori la normalité des résultats de mesure ?

On prétend parfois que dans le cas où une erreur de mesure (ou autre valeur aléatoire) est déterminée à la suite de l'action combinée de nombreux petits facteurs, puis en vertu du théorème central limite (CLT) de la théorie des probabilités, cette valeur est bien approximée (en distribution) par une variable aléatoire normale. Cette affirmation est vraie si de petits facteurs agissent de manière additive et indépendante les uns des autres. S'ils agissent de manière multiplicative, alors, en raison du même CLT, ils doivent être approximés par une distribution logarithmiquement normale. Dans les problèmes appliqués, il n'est généralement pas possible de justifier l'additivité plutôt que la multiplicativité de l'action de petits facteurs. Si la dépendance a caractère général, n'est pas réduit à une forme additive ou multiplicative, et il n'y a pas non plus de raison d'accepter des modèles qui donnent des distributions exponentielles, Weibull-Gnedenko, gamma ou autres, alors pratiquement rien n'est connu sur la distribution de la variable aléatoire finale, à l'exception de l'intra- propriétés mathématiques telles que la régularité.

Lors du traitement de données spécifiques, on pense parfois que des erreurs de mesure ont distribution normale. Construit sur l’hypothèse de la normalité modèles classiques régression, dispersion, analyses factorielles, des modèles métrologiques qui continuent d'être trouvés à la fois dans la documentation réglementaire et technique nationale et dans les normes internationales. Les modèles de calcul des niveaux maximaux atteignables de certaines caractéristiques utilisées dans la conception des systèmes destinés à assurer la sécurité de fonctionnement reposent sur la même hypothèse. structures économiques, appareils et objets techniques. Cependant fondements théoriques il n’y a pas une telle hypothèse. Il est nécessaire d’étudier expérimentalement les distributions d’erreurs.

Que montrent les résultats expérimentaux ? Le résumé donné dans la monographie suggère que dans la plupart des cas, la distribution des erreurs de mesure diffère de la normale. Ainsi, à l'Institut de génie mécanique et électrique (Varna, Bulgarie), la répartition des erreurs d'étalonnage sur les échelles des instruments de mesure électriques analogiques a été étudiée. Des appareils fabriqués en Tchécoslovaquie, en URSS et en Bulgarie ont été étudiés. La loi de distribution des erreurs s’est avérée être la même. Il a une densité

Les données sur les paramètres de 219 distributions d'erreurs réelles, étudiées par différents auteurs, ont été analysées lors de mesures électriques et non électriques. grandeurs électriques une grande variété d'appareils (électriques). À la suite de cette étude, il s'est avéré que 111 distributions, soit environ 50% appartiennent à la classe des distributions avec densité

où est le paramètre degré ; - paramètre de décalage ; - paramètre d'échelle ; - fonction gammaà partir d'un argument ;

Au Laboratoire de Mathématiques Appliquées de Tartu Université d'État 2 500 échantillons provenant des archives de données statistiques réelles ont été analysés. Dans 92% des cas, l'hypothèse de normalité a dû être rejetée.

Les descriptions données des données expérimentales montrent que les erreurs de mesure ont dans la plupart des cas des distributions qui diffèrent des distributions normales. Cela signifie notamment que la plupart des applications du test t de Student, le test classique analyse de régression et d'autres méthodes statistiques basées sur la théorie normale, à proprement parler, n'est pas justifiée, puisque l'axiome sous-jacent de normalité des distributions des variables aléatoires correspondantes est incorrect.

Évidemment, pour justifier ou justifier un changement dans la pratique actuelle de l'analyse des données statistiques, il est nécessaire d'étudier les propriétés des procédures d'analyse des données lorsqu'elles sont utilisées « illégalement ». Une étude des procédures de rejet a montré qu'elles sont extrêmement instables aux écarts par rapport à la normalité, et qu'il est donc inapproprié de les utiliser pour traiter des données réelles (voir ci-dessous) ; par conséquent, on ne peut pas affirmer qu’une procédure choisie arbitrairement résiste aux écarts par rapport à la normalité.

Il est parfois proposé de vérifier la normalité avant d'utiliser, par exemple, le test de Student pour l'homogénéité de deux échantillons. Bien qu'il existe de nombreux critères pour cela, le test de normalité est une procédure statistique plus complexe et plus longue que le test d'homogénéité (à la fois en utilisant des statistiques de type Student et en utilisant des tests non paramétriques). Pour établir de manière fiable la normalité, un très grand nombre d’observations est nécessaire. Ainsi, pour garantir que la fonction de distribution des résultats d'observation ne diffère pas d'une fonction normale de plus de 0,01 (pour n'importe quelle valeur de l'argument), environ 2 500 observations sont nécessaires. Dans la plupart des domaines économiques, techniques, biomédicaux et autres la recherche appliquée le nombre d'observations est nettement inférieur. Cela est particulièrement vrai pour les données utilisées dans l'étude des problèmes liés à la garantie du fonctionnement sûr des structures économiques et des installations techniques.

Parfois, ils essaient d'utiliser CPT pour rapprocher la répartition des erreurs de la normale, en incluant des additionneurs spéciaux dans le schéma technologique de l'appareil de mesure. Évaluons l'utilité de cette mesure. Soient des variables aléatoires indépendantes distribuées de manière identique avec fonction de distribution tel que Considérez

L'indicateur de proximité de la normalité fourni par l'additionneur est

L'inégalité de droite dans la dernière relation découle des estimations de la constante de l'inégalité de Berry-Esseen obtenues dans le livre, et celle de gauche découle de l'exemple de la monographie. Pour loi normale , pour uniforme, pour deux points (c'est la limite inférieure pour ). Par conséquent, pour garantir que la distance (dans la métrique de Kolmogorov) à la distribution normale ne dépasse pas 0,01 pour les distributions « infructueuses », au moins des termes sont nécessaires, où la probabilité d'être dans l'ensemble discret Nombres décimaux Avec numéro donné les décimales sont égales à 0.

De ce qui précède, il s'ensuit que les résultats de mesure et les données statistiques en général ont des propriétés qui conduisent au fait qu'ils doivent être modélisés par des variables aléatoires avec des distributions plus ou moins différentes des distributions normales. Dans la plupart des cas, les distributions diffèrent considérablement des distributions normales ; dans d’autres, les distributions normales peuvent apparemment être considérées comme une sorte d’approximation, mais il n’y a jamais de correspondance complète. Cela implique la nécessité d'étudier les propriétés des procédures statistiques classiques dans des contextes non classiques. modèles probabilistes (de la même manière que cela a été fait ci-dessous pour le test de Student), et la nécessité de développer des procédures stables (en tenant compte de la présence d'écarts par rapport à la normalité) et non paramétriques, y compris des procédures sans distribution, et leur mise en œuvre généralisée dans la pratique traitement statistique données.

Les considérations omises ici pour d’autres familles paramétriques conduisent à des conclusions similaires. Le résultat peut être formulé comme suit. Les distributions de données réelles n'appartiennent presque jamais à une famille paramétrique particulière. Les distributions réelles diffèrent toujours de celles incluses dans les familles paramétriques. Les différences peuvent être grandes ou petites, mais elles existent toujours. Essayons de comprendre l'importance de ces différences pour l'analyse économétrique.

La distribution normale (distribution gaussienne) a toujours joué Role central en théorie des probabilités, car elle résulte très souvent de l’influence de nombreux facteurs, dont la contribution de l’un d’entre eux est négligeable. Central théorème limite(CPT), trouve des applications dans pratiquement tous sciences appliquées, rendant l’appareil statistique universel. Cependant, il existe des cas très fréquents où son utilisation est impossible, et les chercheurs tentent par tous les moyens d'organiser l'ajustement des résultats à la gaussienne. Ce est à propos de approche alternative Si la répartition est influencée par de nombreux facteurs, je vais maintenant vous le dire.

Une brève histoire du CPT. Du vivant de Newton, Abraham de Moivre a prouvé un théorème sur la convergence du nombre centré et normalisé d'observations d'un événement dans une série. tests indépendantsà une distribution normale. Tout au long du XIXe et du début du XXe siècle, ce théorème a servi de modèle scientifique pour les généralisations. Laplace a prouvé le cas distribution uniforme, Poisson – théorème local pour un cas avec des probabilités différentes. Poincaré, Legendre et Gauss ont développé une riche théorie des erreurs d'observation et une méthode moindres carrés, en s'appuyant sur la convergence des erreurs vers la distribution normale. Chebyshev a prouvé un théorème encore plus fort pour la somme des variables aléatoires, après avoir développé la méthode des moments. Lyapunov en 1900, s'appuyant sur Chebyshev et Markov, a prouvé le CLT dans sa forme actuelle, mais uniquement avec l'existence de moments de troisième ordre. Et ce n'est qu'en 1934 que Feller y mit un terme, montrant que l'existence de moments du second ordre est à la fois nécessaire et condition suffisante.

Le CLT peut être formulé ainsi : si les variables aléatoires sont indépendantes, identiquement distribuées et ont une variance finie non nulle, alors les sommes (centrées et normalisées) de ces variables convergent vers la loi normale. C’est sous cette forme que ce théorème est enseigné dans les universités et est si souvent utilisé par des observateurs et des chercheurs non professionnels en mathématiques. Qu'est ce qui ne va pas avec ça? En fait, le théorème est parfaitement applicable dans les domaines sur lesquels ont travaillé Gauss, Poincaré, Chebyshev et d'autres génies du XIXe siècle, à savoir : la théorie des erreurs d'observation, physique statistique, les multinationales, les études démographiques et peut-être autre chose. Mais les scientifiques qui manquent d'originalité dans leurs découvertes se livrent à des généralisations et veulent appliquer ce théorème à tout, ou simplement traîner la distribution normale par les oreilles, là où elle ne peut tout simplement pas exister. Si vous voulez des exemples, je les ai.

Quotient intellectuel QI. Cela implique initialement que l'intelligence des gens est normalement distribuée. Un test est effectué, préparé à l'avance de manière à ce que les capacités extraordinaires ne soient pas prises en compte, mais soient prises en compte séparément avec les mêmes facteurs de partage : pensée logique, conception mentale, capacité de calcul, la pensée abstraite et quelque chose d'autre. La capacité à résoudre des problèmes inaccessibles à la plupart ou à réussir un test dans un délai ultra-rapide n'est en aucun cas prise en compte, et réussir le test plus tôt augmente le résultat (mais pas l'intelligence) à l'avenir. Et puis les philistins croient que « personne ne peut être deux fois plus intelligent qu’eux », « prenons cela aux gens intelligents et divisons-le ».

Deuxième exemple : l’évolution des indicateurs financiers. L'étude des changements dans les cours des actions, les cotations des devises et les options sur matières premières nécessite l'utilisation de statistiques mathématiques, et surtout ici, il est important de ne pas se tromper sur le type de distribution. Exemple concret: en 1997 prix Nobel en économie a été payé pour la proposition du modèle Black-Scholes, basé sur l'hypothèse d'une distribution normale de la croissance des indicateurs boursiers (la soi-disant bruit blanc). Cependant, les auteurs ont explicitement déclaré que ce modèle nécessite des éclaircissements, mais tout ce que la plupart des chercheurs ultérieurs ont décidé de faire a simplement été d'ajouter la distribution de Poisson à la distribution normale. Ici, évidemment, il y aura des inexactitudes lors de l'étude de longues séries chronologiques, car la distribution de Poisson satisfait trop bien au CLT, et déjà avec 20 termes elle est impossible à distinguer de la distribution normale. Regardez l'image ci-dessous (et elle vient d'un magazine économique très sérieux), elle montre que, malgré un grand nombre de observations et distorsions évidentes, une hypothèse est faite sur la normalité de la distribution.

Il est bien évident que les distributions ne seront pas normales salaires parmi la population de la ville, la taille des fichiers sur le disque, la population des villes et des pays.

Ce que les distributions de ces exemples ont en commun, c'est la présence d'une « queue lourde », c'est-à-dire des valeurs éloignées de la moyenne, et une asymétrie notable, généralement vers la droite. Considérons ce que pourraient être d'autres distributions, en plus de la normale. Commençons par le Poisson évoqué précédemment : il a une queue, mais on veut que la loi soit répétée pour un ensemble de groupes, dans chacun desquels elle est observée (calculer la taille des dossiers pour une entreprise, les salaires pour plusieurs villes) ou mise à l'échelle (augmenter ou diminuer arbitrairement l'intervalle de modèle Black - Scholes), comme le montrent les observations, les queues et l'asymétrie ne disparaissent pas, mais la distribution de Poisson, selon le CLT, devrait devenir normale. Pour les mêmes raisons, Erlang, bêta, lognormal et tous les autres avec distributions de dispersion ne conviennent pas. Il ne reste plus qu'à couper la distribution de Pareto, mais elle ne convient pas en raison de la coïncidence du mode avec valeur minimum, ce qui ne se produit presque jamais lors de l'analyse d'échantillons de données.

Distributions ayant propriétés nécessaires, existent et sont appelés distributions stables. Leur histoire est également très intéressante, et le théorème principal a été prouvé un an après les travaux de Feller, en 1935, grâce à des efforts conjoints. mathématicien français Paul Lévy et mathématicien soviétique ET MOI. Khinchin. Le CLT a été généralisé ; la condition d’existence de la dispersion en a été supprimée. Contrairement à la normale, ni la densité ni la fonction de distribution des variables aléatoires stables ne sont exprimées (à de rares exceptions près, qui sont discutées ci-dessous) ; conversion inverse Densité de distribution de Fourier, mais pour comprendre l'essence, cela peut ne pas être connu).
Donc, le théorème : si les variables aléatoires sont indépendantes et identiquement distribuées, alors les sommes de ces variables convergent vers une loi stable.

Maintenant la définition. Valeur aléatoire X sera stable si et seulement si son logarithme fonction caractéristique Présentons-le sous la forme :

En fait, il n’y a rien de bien compliqué ici, il suffit d’expliquer la signification des quatre paramètres. Les paramètres sigma et mu sont l'échelle et le décalage habituels, comme dans la distribution normale, mu sera égal à l'espérance mathématique si elle existe, et elle existe lorsque alpha est supérieur à un. Le paramètre bêta est l'asymétrie ; s'il est égal à zéro, la distribution est symétrique. Mais alpha est un paramètre caractéristique, il indique dans quel ordre de grandeur existent les moments d'une grandeur, plus elle est proche de deux, plus plus de distribution semblable à la normale, lorsqu'elle est égale à deux, la distribution devient normale, et ce n'est que dans ce cas qu'elle a des moments de grands ordres, également dans le cas d'une distribution normale, l'asymétrie dégénère. Dans le cas où alpha est égal à un et bêta est nul, on obtient la distribution de Cauchy, et dans le cas où alpha est égal à la moitié et bêta est égal à un, on obtient la distribution de Lévy, dans les autres cas il n'y a pas de représentation en quadratures pour la distribution de densité de telles quantités.
Au XXe siècle, une riche théorie des quantités et des processus stables (appelés processus de Lévy) a été développée et leur lien avec intégrales fractionnaires, introduit différentes manières paramétrage et modélisation, les paramètres ont été estimés de plusieurs manières et la cohérence et la stabilité des estimations ont été démontrées. Regardez la photo, elle montre une trajectoire simulée du processus de Levy avec un fragment agrandi 15 fois.

C’est en étudiant ces processus et leurs applications en finance que Benoît Mandelbrot a imaginé les fractales. Cependant, ce n'était pas si bon partout. La seconde moitié du XXe siècle s'est déroulée sous la direction générale des sciences appliquées et cybernétiques, ce qui a entraîné une crise des mathématiques pures, tout le monde voulait produire, mais ne voulait pas penser, les humanistes avec leur journalisme occupaient les sphères mathématiques. Exemple : livre « Cinquante problèmes probabilistes divertissants avec solutions » de l'américain Mosteller, tâche n°11 :

La solution de l’auteur à ce problème est simplement une défaite du bon sens :

La situation est la même avec le problème 25, où TROIS réponses contradictoires sont données.

Mais revenons à distributions durables. Dans le reste de l'article, je vais essayer de montrer qu'il ne devrait y avoir aucune difficulté supplémentaire lorsque vous travaillez avec eux. À savoir, il existe des chiffres et Méthodes statistiques, vous permettant d'estimer les paramètres, de calculer la fonction de distribution et de les modéliser, c'est-à-dire de travailler de la même manière qu'avec toute autre distribution.

Modélisation de variables aléatoires stables. Puisque tout s'apprend par comparaison, je rappellerai d'abord la méthode la plus pratique, d'un point de vue informatique, pour générer une valeur normale (la méthode de Box – Muller) : si les variables aléatoires de base (distribuées uniformément sur )

Avez-vous aimé l'article? Partage avec tes amis!