Les distributions normales sont importantes en statistique et sont fréquemment utilisées en sciences naturelles et sociales pour représenter des variables aléatoires réelles dont la distribution est inconnue. Leur importance tient en partie au théorème central limite . Ce théorème stipule que la moyenne de nombreux échantillons (observations) statistiquement indépendants d'une variable aléatoire de moyenne et de variance finies est elle-même une variable aléatoire dont la distribution converge vers une distribution normale lorsque le nombre d'échantillons augmente. Par conséquent, les grandeurs physiques qui sont supposées être la somme de nombreux processus indépendants, telles que les erreurs de mesure , ont souvent des distributions quasi normales.
De plus, les distributions gaussiennes possèdent des propriétés uniques précieuses pour les études analytiques. Par exemple, toute combinaison linéaire d'un ensemble fixe de variables aléatoires normales indépendantes est une variable aléatoire normale. De nombreux résultats et méthodes, tels que la propagation de l'incertitude et l'ajustement paramétrique par les moindres carrés , peuvent être obtenus analytiquement sous forme explicite lorsque les variables pertinentes suivent une loi normale.
fonction de densité de probabilité (ou densité) suivante : points d'inflexion en et
Bien que la densité ci-dessus soit plus communément appelée loi normale centrée réduite, certains auteurs ont utilisé ce terme pour décrire d'autres variantes de la distribution normale. Carl Friedrich Gauss , par exemple, a défini la loi normale centrée réduite comme ayant une variance de Stephen Stigler l'a définie comme ayant une forme fonctionnelle simple et une variance de
distribution normale générale
Si une aléatoire normale centrée réduite , alors suivra une loi normale d'espérance
Inversement, si aléatoire normale de paramètres alors cette
En particulier, la fonction de densité de probabilité pour peut être écrite en termes de distribution normale standard (avec une moyenne nulle et une variance unitaire) : La densité de probabilité doit être mise à l’échelle de sorte que l’ intégrale soit toujours égale à 1.
Notation
La fonction de densité de probabilité de la distribution normale standard est généralement notée par la lettre grecque phi , . La forme variante est également utilisée.
La fonction de répartition cumulative de la distribution normale standard est généralement notée par la lettre grecque majuscule phi, .
La distribution normale est souvent désignée par le terme ou
Paramétrages alternatifs
Certains auteurs préconisent d'utiliser la précision comme définissant la largeur de la distribution, plutôt que l'écart type variance précision est généralement définie comme l'inverse de la variance formule de la distribution devient alors
Ce choix est censé présenter des avantages dans les calculs numériques lorsque est très proche de zéro, et simplifie les formules dans certains contextes, comme dans l' inférence bayésienne de variables à distribution normale multivariée .
On peut aussi définir l'inverse de l'écart type comme la précision , auquel cas l'expression de la distribution normale devient :
Selon Stigler, cette formulation est avantageuse en raison d'une formule beaucoup plus simple et plus facile à retenir, et de formules approximatives simples pour les quantiles de la distribution.
Les distributions normales forment une famille exponentielle avec des paramètres naturels et , et des statistiques naturelles fonction de répartition (CDF) de la loi normale centrée réduite, généralement notée avec la lettre grecque majuscule , est l'intégrale
La fonction d'erreur associée donne la probabilité qu'une variable aléatoire, suivant une loi normale de moyenne 0 et de variance 1/2, appartienne à l'intervalle
Ces intégrales ne peuvent être exprimées à l'aide de fonctions élémentaires et sont souvent qualifiées de fonctions spéciales . Cependant, de nombreuses approximations numériques sont connues ; voir ci-dessous pour plus de détails.
Les deux fonctions sont étroitement liées, à savoir
Pour une distribution normale générique de densité et
La probabilité que
Le complément de la fonction de répartition cumulative normale centrée réduite, , est souvent appelé fonction Q , notamment dans les ouvrages d'ingénierie. x)"}},"i":0}}] Il donne la probabilité que la valeur d' une variable aléatoire normale centrée x)"}},"i":0}}] x)" x)
Le graphique de la fonction de répartition cumulative normale standard une symétrie de rotation d'ordre 2 du point (0,1/2) ; c'est primitive (intégrale indéfinie) peut être exprimée comme suit :
On peut obtenir un développement asymptotique de la fonction de répartition cumulative pour les grandes valeurs l'intégration par parties : où désigne la double factorielle . Pour plus de détails, voir série de Taylor pour la distribution normale dérivée en substituant la série de pour la fonction exponentielle :
Cette série peut être intégrée terme à terme pour obtenir la série de Taylor pour la fonction de distribution cumulative :
Cependant, cette série est inefficace pour le calcul en raison de sa lente convergence, sauf lorsque est petit.
Ces deux séries décrivent des fonctions entières qui convergent pour toutes les valeurs réelles et complexes de .
Calcul récursif avec les séries de Taylor
La relation de récurrence des polynômes d'Hermite en série de Taylor autour de tout point
Écart type et couverture
Pour une distribution normale, les valeurs inférieures à un écart type de la moyenne représentent 68,27 % de l'ensemble ; celles à deux écarts types de la moyenne représentent 95,45 % ; et celles à trois écarts types représentent 99,73 %.
Environ 68 % des valeurs tirées d'une distribution normale se situent à moins d'un écart type règle empirique des 68-95-99,7 , ou la règle des 3 sigma .
Plus précisément, la probabilité qu'une valeur normale se situe dans l'intervalle compris entre et est donnée par : À 12 chiffres significatifs, les valeurs de sont :
fonction quantile d'une distribution est l'inverse de sa fonction de répartition. La fonction quantile de la loi normale centrée réduite est appelée fonction probit être exprimée en fonction de l'inverse de la erreur : pour une variable de σ² , la fonction quantile est :
Le tableau suivant donne le quantile tel que l'intervalle de tolérance des moyennes d'échantillon et d'autres estimateurs statistiques à distribution normale (ou asymptotiquement normale). Le tableau suivant montre , non tel que défini ci-dessus.
La loi normale est la seule loi dont les cumulants, au-delà des deux premiers (c’est-à-dire autres que la moyenne et la variance ), sont nuls. C’est également la loi continue d’ entropie maximale pour une moyenne et une variance données. Geary a démontré, sous l’hypothèse que la moyenne et la variance sont finies, que la loi normale est la seule loi pour laquelle la moyenne et la variance calculées à partir d’un ensemble de tirages indépendants sont indépendantes l’une de l’autre.
La distribution normale est une sous-classe des distributions elliptiques . Elle est symétrique par rapport à sa moyenne et non nulle sur l'ensemble des nombres réels. De ce fait, elle peut ne pas convenir à des variables intrinsèquement positives ou fortement asymétriques, comme le poids d'une personne ou le prix d'une action . Ces variables peuvent être mieux décrites par d'autres distributions, telles que la distribution log-normale ou la distribution de Pareto .
La valeur de la densité normale est pratiquement nulle lorsque la valeur de plus de quelques écarts-types aberrantes (valeurs très éloignées de la moyenne). De plus, les moindres carrés et autres méthodes d'inférence statistique , optimales pour les variables distribuées normalement, deviennent souvent très peu fiables lorsqu'elles sont appliquées à de telles données. Dans ces cas, il convient de supposer une distribution à queue plus épaisse et d'appliquer des méthodes d'inférence statistique robustes .
La distribution gaussienne appartient à la famille des distributions stables, qui sont les attracteurs de sommes de distributions indépendantes et identiquement distribuées, que leur moyenne ou leur variance soit finie ou non. À l'exception de la distribution gaussienne, qui est un cas limite, toutes les distributions stables ont des queues épaisses et une variance infinie. Elle fait partie des rares distributions stables dont la fonction de densité de probabilité peut être exprimée analytiquement, les autres étant la distribution de Cauchy et la distribution de Lévy .
Symétries et dérivées
La distribution normale de densité (moyenne 0" 0
Elle est symétrique autour du point qui est à la fois le mode , la médiane et la moyenne de la distribution.
Elle est unimodale : sa dérivée première est positive pour , négative pour et nulle uniquement pour .\\mu," \mu ,
L'aire délimitée par la courbe et l' axe est égale à l'unité (c'est-à-dire égale à un).
Sa première dérivée est
Sa dérivée seconde est
Sa densité présente deux points d'inflexion (où la dérivée seconde de est nulle et change de signe), situés à un écart type de la moyenne, à savoir à et
De plus, la densité distribution normale standard (c'est-à-dire et ) possède également les propriétés suivantes :
Sa première dérivée est
Sa dérivée seconde est
Plus généralement, sa dérivée polynôme d'Hermite (probabiliste) .
La probabilité qu'une variable normalement distribuée et la fraction a une distribution normale standard.
Moments
Les moments simples et absolus d'une variable
Si suit une loi normale, les moments non centrés existent et sont finis pour tout dont la partie réelle est supérieure à −1. Pour tout entier non négatif , les moments centrés simples sont : Ici, désigne la double factorielle , c’est-à-dire le produit de tous les nombres de
Les moments absolus centrés coïncident avec les moments simples pour tous les ordres pairs, mais sont non nuls pour les ordres impairs. Pour tout entier non négatif
La dernière formule est également valable pour tout nombre non entier. Lorsque la moyenne , les moments simples et absolus peuvent être exprimés en termes de fonctions hypergéométriques confluentes et -1." -1.
L'espérance de conditionnée par l'événement que appartient à un intervalle est donnée par , où rapport de Mills inverse . Il est à noter que ci-dessus, la densité
Transformée de Fourier et fonction caractéristique
où est l' unité imaginaire . Si la moyenne , le premier facteur est 1, et la transformée de Fourier est, à un facteur constant près, une densité normale sur le domaine fréquentiel , de moyenne 0 et de variance fonction propre de la transformée de Fourier.
réelle est étroitement liée à la fonction caractéristique de cette variable, définie comme l' espérance de cette fréquence de la transformée de Fourier). Cette définition peut être étendue analytiquement à une variable complexe
Les parties réelles et imaginaires de donner : et
De même, et
Ces formules évaluées donnent la valeur attendue de ces fonctions trigonométriques et hyperboliques de base sur une variable aléatoire gaussienne , ce qui pourrait également être considéré comme une conséquence du théorème d'Isserlis .
Pour tout , le coefficient de dans la fonction génératrice des moments (exprimée sous forme de série de puissance exponentielle en ) est la valeur attendue de la distribution normale .
Les coefficients de cette série de puissance exponentielle définissent les cumulants, mais comme il s'agit d'un polynôme quadratique en , seuls les deux premiers cumulants sont non nuls, à savoir la moyenne
Certains auteurs préfèrent plutôt travailler avec la fonction caractéristique de Stein, l' opérateur de Stein et la classe d'une variable aléatoire sont et la classe de toutes les fonctions absolument continues
Limite de variance nulle
À la limite où tend vers zéro, la densité de probabilité tend vers zéro partout sauf en , où elle tend vers , tandis que son intégrale reste égale à 1. Une extension de la loi normale au cas de variance nulle peut être définie à l'aide de la mesure delta de Dirac , bien que les variables aléatoires résultantes ne soient pas absolument continues et n'admettent donc pas de fonction de densité de probabilité . La fonction de répartition d'une telle variable aléatoire est alors la fonction de Heaviside translatée par la moyenne , à savoir
Entropie maximale
Parmi toutes les distributions de probabilité sur les nombres réels avec une moyenne finie et une variance finie spécifiées celle qui présente l'entropie maximale . Pour le démontrer, variable aléatoire continue de densité de probabilité du calcul variationnel . Une fonction à trois multiplicateurs de Lagrange est définie :
À entropie maximale, une petite variation autour de produira une variation autour
Puisque cela doit être vrai pour tout petit , le facteur multipliant doit être nul, et la résolution pour donne :
Les contraintes de Lagrange selon lesquelles est correctement normalisé et a la moyenne et la variance spécifiées sont satisfaites si et seulement si , , et sont choisis de sorte que L'entropie d'une distribution normale est égale à qui est indépendante de la moyenne
Si et sont conjointement normales et non corrélées , alors elles sont indépendantes . La condition que et soient conjointement normales est essentielle ; sans elle , la propriété n'est pas vérifiée. ] [démonstration] Pour des variables aléatoires non normales , la non - corrélation n'implique pas l'indépendance
La loi a priori conjuguée de la moyenne d'une loi normale est elle-même une loi normale. Plus précisément, si les variables aléatoires sont indépendantes et identiquement distribuées (iid) et que la loi a priori est , alors la loi a posteriori de l'estimateur de sera .
La famille des lois normales forme non seulement une famille exponentielle (FE), mais également une famille exponentielle naturelle (FEN) à variance quadratique ( FEN-QV ). De nombreuses propriétés des lois normales se généralisent aux lois FEN-QV, aux lois FEN et, plus généralement, aux lois FE. Les lois FEN-QV comprennent six familles : Poisson, Gamma, binomiale et binomiale négative. La plupart des familles couramment étudiées en probabilités et en statistiques sont des FEN ou des FE.
Si les variables sont distribuées selon une loi normale , alors elles sont indépendantes . Il est à noter qu'aucune hypothèse d'indépendance n'est faite.
Distributions connexes
Théorème central limite
À mesure que le nombre d'événements discrets augmente, la fonction commence à ressembler à une distribution normale.Comparaison des fonctions de densité de probabilité, indépendantes et identiquement distribuées , de même loi arbitraire, de moyenne nulle
Le théorème peut être étendu à des variables qui ne sont ni indépendantes ni identiquement distribuées si certaines contraintes sont imposées au degré de dépendance et aux moments des distributions.
De nombreuses statistiques de test , scores et estimateurs rencontrés en pratique contiennent des sommes de certaines variables aléatoires, et un nombre encore plus important d'estimateurs peut être représenté comme une somme de variables aléatoires grâce à l'utilisation de fonctions d'influence . Le théorème central limite implique que ces paramètres statistiques suivront asymptotiquement une loi normale.
Le théorème central limite implique également que certaines distributions peuvent être approximées par la distribution normale, par exemple :
La distribution t de Student est approximativement normale avec une moyenne de 0 et une variance de 1 lorsque
La précision de ces approximations dépend de leur usage et de la vitesse de convergence vers la loi normale. Généralement, ces approximations sont moins précises aux extrémités de la distribution.
Une borne supérieure générale pour l'erreur d'approximation dans le théorème central limite est donnée par le théorème de Berry-Esseen , des améliorations de l'approximation sont données par les développements d'Edgeworth .
Ce théorème peut également servir à justifier la modélisation de la somme de nombreuses sources de bruit uniforme comme un bruit gaussien . Voir AWGN .
Opérations et fonctions des variables normales
Opérations sur une seule variable normale
Si suit une loi normale de moyenne et de variance , alors
Pour tous nombres réels la également une loi normale, de moyenne et de variance . Autrement dit, la famille des lois normales est stable par transformation linéaire .
La log-vraisemblance d'une variable normale le logarithme de sa fonction de densité de probabilité : puisqu'il s'agit d'un carré mis à l'échelle et décalé d'une variable normale standard, elle est distribuée comme une variable chi-carré mise à l'échelle et décalée .
Opérations sur deux variables normales indépendantes
Si et sont deux variables aléatoires normales indépendantes , avec des moyennes , et des variances , , alors leur somme sera également normalement distribuée, [preuve] avec une moyenne et une variance .
Si , sont des variables aléatoires normales standard indépendantes, alors le rapport de leurs sommes de carrés normalisées aura la distribution F avec
Opérations sur plusieurs variables normales corrélées
La forme quadratique d'un vecteur normal, c'est-à-dire une fonction quadratique de plusieurs variables normales indépendantes ou corrélées, est une variable chi-carré généralisée .
Opérations sur la fonction de densité
La distribution normale fractionnée se définit le plus simplement comme la combinaison de portions mises à l'échelle des fonctions de densité de différentes distributions normales, la densité étant ensuite normalisée pour que son intégrale soit égale à un. La distribution normale tronquée résulte de la normalisation d'une portion d'une seule fonction de densité.
Divisibilité infinie et théorème de Cramér
Pour tout entier positif variance est la distribution de la somme de divisibilité infinie .
Réciproquement, si et sont des variables aléatoires indépendantes et que leur somme suit une loi normale, alors et doivent toutes deux être des variables aléatoires normales.
Ce résultat est connu sous le nom de théorème de décomposition de Cramér et équivaut à dire que la convolution de deux distributions est normale si et seulement si les deux distributions sont normales. Le théorème de Cramér implique qu'une combinaison linéaire de variables indépendantes non gaussiennes ne suivra jamais une loi normale exacte, même si elle peut s'en approcher arbitrairement.
La notion de distribution normale, qui compte parmi les distributions les plus importantes en théorie des probabilités, a été largement étendue au-delà du cadre standard du cas univarié (c'est-à-dire unidimensionnel) (Cas 1). Toutes ces extensions sont également appelées lois normales ou gaussiennes , ce qui crée une certaine ambiguïté dans la terminologie.
La distribution normale complexe traite des vecteurs normaux complexes. Un vecteur complexe La distribution normale matricielle décrit le cas des matrices distribuées normalement.
L'une des principales applications pratiques de la loi de Gauss est la modélisation des distributions empiriques de nombreuses variables aléatoires rencontrées en pratique. Dans ce cas, une extension possible serait une famille de distributions plus riche, comportant plus de deux paramètres et permettant ainsi de mieux ajuster la distribution empirique. Voici quelques exemples de telles extensions :
Distribution de Pearson — une famille de distributions de probabilité à quatre paramètres qui étend la loi normale pour inclure différentes valeurs d'asymétrie et d'aplatissement.
La distribution normale généralisée , également connue sous le nom de distribution de puissance exponentielle, permet des queues de distribution avec des comportements asymptotiques plus ou moins épais.
Inférence statistique
Estimation des paramètres
estimer . Autrement dit, à partir d'un échantillon issu d'une population normale, on cherche à connaître les valeurs approximatives des paramètres du maximum de vraisemblance , qui consiste à maximiser la fonction de log-vraisemblance . En prenant les dérivées par rapport à et en résolvant le système de conditions du premier ordre résultant, on obtient les
Voici donc la procédure :
moyenne de l'échantillon
moyenne de l'échantillon , puisqu'il s'agit de la moyenne arithmétique de toutes les observations. Cette statistique est complète et suffisante pour de Lehmann-Scheffé , est l' estimateur sans biais à variance minimale uniforme (UMVU). Dans les échantillons finis, elle suit une loi normale : la variance de cet estimateur est égale à l' élément μμ de la matrice d'information inverse de Fisher . Ceci implique que l'estimateur est efficace pour les échantillons finis . Un point important en pratique est que l' erreur standard de est proportionnelle à , c'est-à-dire que si l'on souhaite réduire l'erreur standard d'un facteur 10, il faut multiplier le nombre de points dans l'échantillon par 100. Ce fait est largement utilisé pour déterminer la taille des échantillons dans les sondages d'opinion et le nombre d'essais dans les simulations de Monte Carlo .
Du point de vue de la théorie asymptotique , l' estimateur est convergent , c'est-à-dire qu'il en probabilité vers asymptotiquement normal , ce qui découle simplement de sa normalité pour des échantillons finis.
Variance de l'échantillon
variance de l'échantillon , puisqu'il s'agit de la variance de l'échantillon ( ). En pratique, un autre estimateur est souvent utilisé à la place de . Cet autre estimateur est noté , et est également appelé variance de l'échantillon , ce qui crée une certaine ambiguïté terminologique ; sa racine carrée correction de Bessel ) : La différence entre et devient négligeable pour les grandes valeurs estimateur sans biais du paramètre sous-jacent , alors que est biaisé. De plus, d'après le théorème de Lehmann-Scheffé, l'estimateur est uniformément sans biais à variance minimale ( UMVU ) , ce qui en fait le « meilleur » estimateur parmi tous les estimateurs sans biais. Il est toutefois possible de démontrer que l'estimateur biaisé est meilleur que l' estimateur ε au regard du critère de l' erreur quadratique moyenne (EQM). Pour des échantillons finis , ε et ε suivent tous deux une loi du χ² normalisée à
En appliquant la théorie asymptotique, les deux estimateurs sont convergents, c'est-à-dire qu'ils convergent en probabilité vers lorsque la taille de l'échantillon augmente . Les deux estimateurs suivent également une loi normale asymptotique : en particulier, ils sont tous deux asymptotiquement efficaces pour .
Intervalles de confiance
le théorème de Cochran , pour les distributions normales, la moyenne indépendantes , ce qui signifie qu'il est inutile de considérer leur distribution conjointe . Il existe également un théorème réciproque : si, dans un échantillon, la moyenne et la variance sont indépendantes, alors l'échantillon provient nécessairement d'une distribution normale. L'indépendance entre la moyenne et loi de Student à statistique auxiliaire (indépendante de la valeur des paramètres). L'inversion de la distribution de cette intervalle de confiance pour quantiles d'ordre niveau de confianceun seuil de signification ) 1,96 .
Tests de normalité
hypothèse nulle Le diagramme Q-Q , également appelé diagramme de probabilité normale ou diagramme de rang , représente les valeurs triées de l'ensemble de données en fonction des valeurs attendues des quantiles correspondants de la loi normale centrée réduite. Il s'agit donc d'un graphique de points de la forme Diagramme P–P – similaire au diagramme Q–Q, mais beaucoup moins fréquemment utilisé. Cette méthode consiste à représenter les points Test K-carré de D'Agostino
L'analyse bayésienne des données à distribution normale est compliquée par les nombreuses possibilités différentes qui peuvent être envisagées :
On peut considérer soit la moyenne, soit la variance, soit aucune des deux, comme une quantité fixe.
Lorsque la variance est inconnue, l'analyse peut être effectuée directement en fonction de la variance ou en fonction de la précision , son inverse. L'expression des formules en fonction de la précision simplifie l'analyse dans la plupart des cas.
Il convient de prendre en compte les cas univariés et multivariés .
Les formules pour les cas de régression non linéaire sont résumées dans l' article précédent conjugué .
Somme de deux quadratiques
Forme scalaire
La formule auxiliaire suivante est utile pour simplifier les équations de mise à jour a posteriori , qui deviennent autrement assez fastidieuses.
Cette équation réécrit la somme de deux équations du second degré en en complétant le carré . Notez ce qui suit concernant les facteurs constants complexes associés à certains termes :
Le facteur a la forme d'une moyenne pondérée de Cela montre que ce facteur peut être interprété comme résultant d'une situation où les inverses des quantités moyenne harmonique ; il n'est donc pas surprenant que ce facteur soit égal à la moitié de la moyenne harmonique de symétriques et inversibles de taille k , alors
où
La forme forme quadratique et est un scalaire : autrement dit, elle somme toutes les combinaisons possibles de produits de paires d'éléments de symétrique . Par ailleurs, si
Somme des écarts à la moyenne
Une autre formule utile est la suivante : où
Avec variance connue
Pour un ensemble de points de données iid normalement distribués une variance connue a priori conjuguée est également normalement distribuée.
Cela peut être démontré plus facilement en réécrivant la variance comme la précision , c'est-à-dire en utilisant
Premièrement, la fonction de vraisemblance est (en utilisant la formule ci-dessus pour la somme des différences par rapport à la moyenne) :
Nous procédons ensuite comme suit :
Dans la démonstration ci-dessus, nous avons utilisé la formule ci-dessus pour la somme de deux polynômes du second degré et éliminé tous les facteurs constants ne faisant pas intervenir noyau d'une distribution normale, de moyenne et de précision , c'est-à-dire
Cela peut s'écrire sous la forme d'un ensemble d'équations de mise à jour bayésiennes pour les paramètres a posteriori en fonction des paramètres a priori :
Autrement dit, pour combiner moyenne pondérée de la moyenne des données et de la moyenne a priori, chacune étant pondérée par sa précision totale associée. Cela est logique si l'on considère la précision comme un indicateur de la certitude des observations : dans la distribution de la moyenne a posteriori, chaque composante est pondérée par sa certitude, et la certitude de cette distribution est la somme des certitudes individuelles. (Pour une meilleure compréhension de ce concept, on peut comparer avec l'expression « le tout est (ou n'est pas) supérieur à la somme de ses parties ». De plus, il faut considérer que la connaissance de la distribution a posteriori provient d'une combinaison de la connaissance de la distribution a priori et de la vraisemblance ; il est donc logique que nous en soyons plus certains que de chacune de ses composantes.)
La formule ci-dessus explique pourquoi il est plus commode d'effectuer une analyse bayésienne des lois a priori conjuguées pour la distribution normale en termes de précision. La précision a posteriori est simplement la somme des précisions a priori et de vraisemblance, et la moyenne a posteriori est calculée par une moyenne pondérée par la précision, comme décrit précédemment. Ces mêmes formules peuvent être exprimées en termes de variance en inversant toutes les précisions, ce qui donne des formules moins élégantes.
Pour un ensemble une loi normale , de taille de variance inconnues, une loi a priori conjuguée (multivariée) est appliquée à la moyenne et à la variance ; cette loi est de type normal-inverse-gamma . Logiquement, cela se traduit comme suit :
L'analyse du cas où la moyenne est inconnue mais la variance connue montre que les équations de mise à jour font intervenir des statistiques suffisantes calculées à partir des données, à savoir la moyenne des points de données et la variance totale des points de données, calculée elle-même à partir de la variance connue divisée par le nombre de points de données.
L'analyse du cas avec variance inconnue mais moyenne connue montre que les équations de mise à jour font intervenir des statistiques suffisantes sur les données, constituées du nombre de points de données et de la somme des écarts au carré .
Il est important de noter que les valeurs de mise à jour a posteriori servent de distribution a priori lors du traitement de données supplémentaires. Par conséquent, il convient de considérer logiquement nos distributions a priori en termes de statistiques exhaustives décrites précédemment, en conservant autant que possible la même sémantique.
Pour traiter le cas où la moyenne et la variance sont inconnues, on pourrait définir des distributions a priori indépendantes pour la moyenne et la variance, avec des estimations fixes de la moyenne arithmétique, de la variance totale, du nombre de points de données utilisés pour calculer la distribution a priori de la variance et de la somme des carrés des écarts. Il convient toutefois de noter qu'en réalité, la variance totale de la moyenne dépend de la variance inconnue, et que la somme des carrés des écarts, qui entre dans la distribution a priori de la variance, semble dépendre de la moyenne inconnue. En pratique, cette dernière dépendance est relativement négligeable : modifier la moyenne réelle décale les points générés d'une valeur équivalente, et en moyenne, les carrés des écarts restent inchangés. Ce n'est pas le cas, en revanche, pour la variance totale de la moyenne : à mesure que la variance inconnue augmente, la variance totale de la moyenne augmente proportionnellement, et nous souhaitons prendre en compte cette dépendance.
Cela suggère de créer une loi a priori conditionnelle de la moyenne sur la variance inconnue, avec un hyperparamètre spécifiant la moyenne des pseudo-observations associées à cette loi, et un autre paramètre spécifiant le nombre de pseudo-observations. Ce nombre sert de paramètre d'échelle pour la variance, permettant ainsi de contrôler la variance globale de la moyenne par rapport au paramètre de variance réel. La loi a priori de la variance possède également deux hyperparamètres : l'un spécifiant la somme des carrés des écarts des pseudo-observations associées, et l'autre spécifiant, là encore, le nombre de pseudo-observations. Chaque loi a priori possède un hyperparamètre spécifiant le nombre de pseudo-observations, et dans chaque cas, celui-ci contrôle la variance relative de cette loi a priori. Ces deux hyperparamètres sont distincts afin que la variance (ou confiance) des deux lois a priori puisse être contrôlée séparément.
Ceci conduit immédiatement à la distribution normale-inverse-gamma , qui est le produit des deux distributions qui viennent d'être définies, avec des a priori conjugués utilisés (une distribution gamma inverse sur la variance et une distribution normale sur la moyenne, conditionnellement à la variance) et avec les mêmes quatre paramètres qui viennent d'être définis.
Les distributions a priori sont généralement définies comme suit :
Les équations de mise à jour peuvent être dérivées et se présentent comme suit : le nombre d’observations réelles est ajouté au nombre respectif de pseudo-observations. Le nouvel hyperparamètre de moyenne est à nouveau une moyenne pondérée, cette fois-ci par le nombre relatif d’observations. Enfin, la mise à jour est similaire au cas où la moyenne est connue, mais dans ce cas, la somme des carrés des écarts est calculée par rapport à la moyenne des données observées plutôt qu’à la moyenne réelle. Par conséquent, un nouveau terme d’interaction doit être ajouté pour tenir compte de la source d’erreur supplémentaire provenant de l’écart entre la distribution a priori et la moyenne des données.
Occurrence et applications
L'occurrence de la distribution normale dans les problèmes pratiques peut être classée de manière générale en quatre catégories :
Distributions parfaitement normales ;
des lois approximativement normales, par exemple lorsque cette approximation est justifiée par le théorème central limite ; et
Distributions modélisées comme normales – la distribution normale étant la distribution présentant l'entropie maximale pour une moyenne et une variance données.
Problèmes de régression – la distribution normale est obtenue après que les effets systématiques ont été suffisamment bien modélisés.
La position d'une particule soumise à la diffusion . Si initialement la particule se trouve en un point précis (sa distribution de probabilité suit la fonction delta de Dirac ), alors après un temps équation de diffusion . Si la position initiale est donnée par une certaine fonction de densité g , alors la densité à l'instant convolution de théorème central limite . Lorsqu'un résultat est produit par de nombreux petits effets agissant de manière additive et indépendante , sa distribution sera proche de la normale. L'approximation normale ne sera plus valable si les effets agissent de manière multiplicative (au lieu d'additif), ou s'il existe une influence externe unique dont l'ampleur est considérablement supérieure à celle des autres effets.
Dans les problèmes de dénombrement, où le théorème central limite inclut une approximation discrète-continue et où interviennent des distributions infiniment divisibles et décomposables , comme
Le rayonnement thermique suit une distribution de Bose-Einstein sur des échelles de temps très courtes, et une distribution normale sur des échelles de temps plus longues en raison du théorème central limite.
Normalité supposée
Histogramme des largeurs des sépales d' Iris versicolor d'après l'ensemble de données sur les fleurs d'iris de Fisher , avec superposition de la distribution normale d'ajustement optimal
Je ne peux considérer l'apparition de la courbe normale – la courbe laplacienne des erreurs – que comme un phénomène très anormal. Elle est grossièrement approchée dans certaines distributions ; c'est pourquoi, et en raison de sa remarquable simplicité, on peut éventuellement l'utiliser comme première approximation, notamment dans les études théoriques.
En biologie , le logarithme de diverses variables tend à suivre une distribution normale, c'est-à-dire une distribution log-normale (après séparation des sous-populations mâles/femelles), avec des exemples tels que :
Mesures de la taille des tissus vivants (longueur, hauteur, surface de la peau, poids) ;
La longueur des appendices inertes (poils, griffes, ongles, dents) des spécimens biologiques, dans le sens de la croissance ; l'épaisseur de l'écorce des arbres entre vraisemblablement aussi dans cette catégorie ;
Certaines mesures physiologiques, comme la pression artérielle chez l'adulte.
En finance, et notamment dans le modèle de Black-Scholes , on suppose que les variations du logarithme des taux de change, des indices de prix et des indices boursiers suivent une loi normale (ces variables se comportent comme des intérêts composés , et non comme des intérêts simples, et sont donc multiplicatives). Certains mathématiciens, comme Benoît Mandelbrot, ont soutenu que les distributions log-Lévy , caractérisées par des queues épaisses , constitueraient un modèle plus approprié, en particulier pour l'analyse des krachs boursiers . L'utilisation de l'hypothèse de normalité dans les modèles financiers a également été critiquée par Nassim Nicholas Taleb dans ses travaux.
Les erreurs de mesure dans les expériences physiques sont souvent modélisées par une distribution normale. L'utilisation d'une distribution normale n'implique pas que l'on suppose que les erreurs de mesure suivent une distribution normale ; elle vise plutôt à obtenir les prédictions les plus prudentes possibles compte tenu de la seule connaissance de la moyenne et de la variance des erreurs.
Dans les tests standardisés , on peut normaliser la distribution des résultats soit en choisissant le nombre et la difficulté des questions (comme pour le test de QI ), soit en transformant les scores bruts en scores de sortie par ajustement à une distribution normale. Par exemple, l' échelle traditionnelle du SAT , de 200 à 800, est basée sur une distribution normale avec une moyenne de 500 et un écart type de 100.
En hydrologie, la distribution des débits fluviaux ou des précipitations sur de longues périodes, par exemple les totaux mensuels et annuels, est souvent considérée comme pratiquement normale selon le théorème central limite . Le graphique de droite illustre un exemple d'ajustement d'une distribution normale aux précipitations d'octobre, classées par ordre décroissant, et présente l' intervalle de confiance à 90 % basé sur la distribution binomiale . Les données de précipitations sont représentées par des points dans le cadre de l' analyse de fréquence cumulée .
Problèmes méthodologiques et évaluation par les pairs
John Ioannidis a soutenu que l'utilisation d'écarts-types distribués normalement comme critères de validation des résultats de recherche laisse de côté les prédictions falsifiables concernant des phénomènes qui ne suivent pas une distribution normale. Cela inclut, par exemple, les phénomènes qui n'apparaissent que lorsque toutes les conditions nécessaires sont réunies et où aucun élément ne peut se substituer à un autre, ainsi que les phénomènes qui ne sont pas distribués aléatoirement. Ioannidis affirme que la validation centrée sur l'écart-type donne une fausse impression de validité aux hypothèses et aux théories dont certaines prédictions falsifiables, mais pas toutes, suivent une distribution normale. En effet, la portion des prédictions falsifiables contredites peut se situer, et se situe parfois, dans la partie non normalement distribuée de l'intervalle des prédictions falsifiables. De plus, cette approche conduit à rejeter sans fondement des hypothèses dont aucune prédiction falsifiable ne suit une distribution normale, comme si elles étaient irréfutables, alors qu'en réalité, elles formulent des prédictions falsifiables. Ioannidis soutient que de nombreux cas de théories mutuellement exclusives acceptées comme validées par des revues de recherche sont dus à l'incapacité de ces revues à prendre en compte les réfutations empiriques de prédictions non normalement distribuées, et non parce que les théories mutuellement exclusives sont vraies, ce qui est impossible, même si deux théories mutuellement exclusives peuvent être fausses et une troisième correcte.
Méthodes de calcul
Générer des valeurs à partir d'une distribution normale
La machine à billes , inventée par Francis Galton , peut être considérée comme le premier générateur de variables aléatoires normales. Cette machine se compose d'un plateau vertical muni de rangées de picots. De petites billes sont lâchées du haut et rebondissent aléatoirement à gauche ou à droite en heurtant les picots. Elles sont ensuite recueillies dans des bacs situés en bas et se déposent selon une distribution gaussienne.
Dans les simulations informatiques, notamment pour les applications de la méthode de Monte-Carlo , il est souvent souhaitable de générer des valeurs suivant une loi normale. Les algorithmes présentés ci-dessous génèrent tous des variables aléatoires normales standard, puisqu'une variable aléatoire générateur de nombres aléatoires uniformes .
Une approche approximative facile à programmer, basée sur le théorème central limite, consiste à générer 12 variables aléatoires uniformes d'Irwin-Hall , une approximation polynomiale de degré 11, à 12 segments, de la loi normale. Cette variable aléatoire aura un intervalle limité à méthode de Box-Muller utilise deux nombres aléatoires indépendants uniformément distribués sur (0,1). Les deux variables aléatoires indépendantes . Cette formulation se justifie par le fait que, pour un vecteur aléatoire normal bivarié loi du χ² à deux degrés de liberté, qui correspond à une variable aléatoire exponentielle facilement générée méthode polaire de Marsaglia est une modification de la méthode de Box-Muller qui ne nécessite pas le calcul des fonctions sinus et cosinus. Dans cette méthode, algorithme de la ziggourat est plus rapide que la transformation de Box-Muller tout en restant exact. Dans environ 97 % des cas, il utilise seulement deux nombres aléatoires : un entier et un nombre aléatoire uniforme, une multiplication et un test conditionnel. Ce n'est que dans 3 % des cas, lorsque la combinaison de ces deux nombres se situe en dehors du « noyau de la ziggourat » (une sorte d'échantillonnage par rejet utilisant des logarithmes), que des exponentielles et d'autres nombres aléatoires uniformes doivent être employés.
L'arithmétique entière peut être utilisée pour échantillonner à partir de la distribution normale standard. Cette méthode est exacte au sens où elle satisfait aux conditions d' approximation idéale ; c'est-à-dire qu'elle est équivalente à échantillonner un nombre réel à partir de la distribution normale standard et à l'arrondir au nombre à virgule flottante représentable le plus proche.
Des recherches ont également été menées sur le lien entre la transformation de Hadamard rapide et la distribution normale. En effet, cette transformation n'utilise que des additions et des soustractions, et, d'après le théorème central limite, des nombres aléatoires issus de presque n'importe quelle distribution se transforment en nombres suivant une distribution normale. À cet égard, une série de transformations de Hadamard peut être combinée à des permutations aléatoires pour convertir des ensembles de données arbitraires en données suivant une distribution normale.
Approximations numériques de la fonction de répartition cumulative normale et de la fonction quantile normale
Shore (1982) a introduit des approximations simples pouvant être intégrées aux modèles d'optimisation stochastique en ingénierie et en recherche opérationnelle, comme l'ingénierie de la fiabilité et l'analyse des stocks. En notant
Cette approximation donne pour
Cette dernière avait permis d'obtenir une approximation simple de l'intégrale de perte de la distribution normale, définie par
Cette approximation est particulièrement précise pour la queue de distribution supérieure (erreur maximale de 10⁻³ la méthodologie de modélisation de la réponse (RMM, Shore, 2011, 2012), sont présentées dans Shore (2005).
Certains auteurs attribuent la découverte de la distribution normale à de Moivre , qui, en 1738 publia dans la seconde édition de son ouvrage *La Doctrine des chances* l'étude des coefficients du développement binomial de Stiglersouligne que de Moivre lui-même n'a interprété ses résultats que comme la règle approximative des coefficients binomiaux, et qu'en particulier, de Moivre ignorait le concept de fonction de densité de probabilité.
En 1823, Gauss publia sa monographie « Theoria combinationis observationum erroribus minimis obnoxiae », où il introduit notamment plusieurs concepts statistiques importants, tels que la méthode des moindres carrés , la méthode du maximum de vraisemblance et la loi normale . Gauss utilisa des moindres carrés pondérés non linéaires .
Bien que Gauss ait été le premier à suggérer la loi de la loi normale, Laplace y a apporté des contributions significatives. C'est Laplace qui, en 1774, a posé le problème de l'agrégation de plusieurs observations , même si sa propre solution a conduit à la loi laplacienne . C'est également Laplace qui, en 1782, a calculé la valeur de l' intégrale théorème central limite fondamental , soulignant ainsi l'importance théorique de la loi normale.
Il est intéressant de noter qu'en 1809, le mathématicien irlando-américain Robert Adrian publia simultanément et indépendamment de Gauss deux démonstrations pertinentes mais erronées de la loi de probabilité normale. Ses travaux restèrent largement méconnus de la communauté scientifique jusqu'à ce qu'ils soient redécouverts par Abbe en 1871.
Au milieu du XIXe siècle, Maxwell a démontré que la distribution normale n'est pas seulement un outil mathématique pratique, mais qu'elle peut également se manifester dans des phénomènes naturels : Le nombre de particules dont la vitesse, résolue dans une certaine direction, se situe entre
Appellation
Aujourd'hui, ce concept est généralement connu en anglais sous le nom de distribution normale ou distribution gaussienne . Parmi les autres appellations moins courantes, on trouve distribution de Gauss, distribution de Laplace-Gauss, loi des erreurs, loi de la facilité des erreurs, deuxième loi de Laplace et loi de Gauss.
Gauss lui-même aurait apparemment forgé le terme en référence aux « équations normales » impliquées dans ses applications, « normal » ayant ici le sens technique d'orthogonal plutôt que d'habituel. Cependant, à la fin du XIXe siècle, certains auteurs ont commencé à utiliser l'appellation « distribution normale », où le mot « normal » était employé comme adjectif ; le terme étant alors perçu comme le reflet de cette distribution considérée comme typique, courante , et donc normale. Peirce (l'un de ces auteurs) a un jour défini la « normalité » comme suit : « … la “normale” n'est pas la moyenne (ou toute autre forme de moyenne arithmétique) de ce qui se produit réellement, mais de ce qui se produirait, à long terme, dans certaines circonstances. » Au tournant du XXe siècle, Pearson a popularisé le terme « normale » pour désigner cette distribution.
Pearson (1920)
Par ailleurs, c'est Pearson qui, le premier, a exprimé la distribution en fonction de l'écart type Fisher a ajouté le paramètre de position à la formule de la distribution normale, l'exprimant ainsi comme on l'écrit aujourd'hui :
Le terme distribution normale standard , qui désigne la distribution normale avec une moyenne nulle et une variance unitaire, est entré dans l'usage courant vers les années 1950, apparaissant dans les manuels populaires de P. G. Hoel (1947) Introduction to Mathematical Statistics et d'Alexander M. Mood (1950) Introduction to the Theory of Statistics .