Article de reference

Distribution de probabilité

En théorie des probabilités et en statistique , une distribution de probabilité décrit la manière dont les probabilités sont attribuées aux résultats possibles d'un phénomène al...

théorie des probabilités et en statistique , une distribution de probabilité décrit la manière dont les probabilités sont attribuées aux résultats possibles d'un phénomène aléatoire, plus précisément aux événements , qui sont des ensembles de résultats possibles d'une expérience probabiliste . De façon informelle, une distribution de probabilité nous indique la probabilité des différents résultats. Formellement, il s'agit d'une mesure de probabilité : une fonction qui attribue des probabilités aux événements de manière à satisfaire les axiomes des probabilités .

Les distributions de probabilité sont étroitement liées aux variables aléatoires . Une variable aléatoire est une fonction qui associe une valeur à chaque résultat d'une expérience probabiliste ; elle induit une distribution de probabilité sur l'ensemble des valeurs qu'elle peut prendre. Par exemple, le résultat d'un lancer de pièce peut être représenté par une variable aléatoire les fonctions de répartition , les fonctions de masse de probabilité ou les fonctions de densité de probabilité . Le choix de la description dépend de la nature de la distribution : les fonctions de masse de probabilité sont utilisées pour les distributions discrètes , tandis que les fonctions de densité de probabilité sont utilisées pour de nombreuses distributions continues .

Les distributions de probabilité qui se produisent fréquemment ou qui ont une importance théorique particulière reçoivent souvent des noms spécifiques ; des exemples sont rassemblés dans la liste des distributions de probabilité .

probabilités d'événements, c'est-à-dire des sous-ensembles de l' espace échantillonnal . L'espace échantillonnal, souvent représenté par Ω, est l' ensemble de tous les résultats possibles d'un phénomène aléatoire observé. L'espace échantillonnal peut être n'importe quel ensemble de nombres , de vecteurs , d'étiquettes, ou autre. Par exemple, l'espace échantillonnal d'un lancer de pièce pourrait être de dé , il pourrait être

Définition générale de la probabilité

Soit un espace de probabilité , un espace mesurable et une variable aléatoire à valeurs dans . Alors la distribution de probabilité de est la mesure image directe de la mesure de probabilité sur induite par . Plus précisément, cette mesure image directe sur est donnée par pour

Toute distribution de probabilité est une mesure de probabilité sur (en général différente de , sauf si est l'application identité).

Une distribution de probabilité peut être décrite sous diverses formes, telles qu'une fonction de masse de probabilité ou une fonction de répartition. L'une des descriptions les plus générales, valable pour les variables absolument continues et discrètes, utilise une fonction de probabilité dont l'espace d'entrée est une σ-algèbre et qui donne en sortie une probabilité réelle , en particulier un nombre appartenant à .

La fonction de probabilité peut prendre comme arguments des sous-ensembles de l'espace échantillonnal lui-même, comme dans l'exemple du lancer de pièce, où la fonction a été définie de sorte que variables aléatoires , qui transforment l'espace échantillonnal en un ensemble de nombres (par exemple, , ), il est plus courant d'étudier les distributions de probabilité dont les arguments sont des sous-ensembles de ces ensembles particuliers (ensembles de nombres) , et toutes les distributions de probabilité abordées dans cet article sont de ce type. On note généralement la probabilité qu'une certaine valeur de la variable appartienne à un certain événement .

La fonction de probabilité ci-dessus ne caractérise une distribution de probabilité que si elle satisfait tous les axiomes de Kolmogorov , c'est-à-dire :

Le concept de fonction de probabilité est rendu plus rigoureux en le définissant comme l'élément d'un espace de probabilité , où est l'ensemble des résultats possibles, est l'ensemble de tous les sous-ensembles dont la probabilité peut être mesurée, et est la fonction de probabilité, ou mesure de probabilité, qui attribue une probabilité à chacun de ces sous-ensembles mesurables .

Les distributions de probabilité appartiennent généralement à l'une de ces deux classes.

Une distribution de probabilité discrète s'applique aux scénarios où l'ensemble des résultats possibles est discret (par exemple, un lancer de pièce, un lancer de dé) et où les probabilités sont codées par une liste discrète des probabilités des résultats ; dans ce cas, les probabilités sont décrites par une fonction de masse de probabilité , et la distribution de probabilité est donnée par une somme de la fonction de masse de probabilité.

Une distribution de probabilité absolument continue s'applique aux situations où l'ensemble des résultats possibles peut prendre des valeurs dans un intervalle continu (par exemple, les nombres réels), comme la température d'un jour donné. Dans ce cas, les probabilités sont décrites par une fonction de densité de probabilité , et la distribution de probabilité est, par définition, l'intégrale de cette fonction. La distribution normale est une distribution de probabilité absolument continue courante. Des expériences plus complexes, telles que celles impliquant des processus stochastiques définis en temps continu , peuvent nécessiter l'utilisation de mesures de probabilité plus générales .

Une distribution de probabilité dont l'espace d'échantillonnage est unidimensionnel (par exemple, les nombres réels, une liste d'étiquettes, des étiquettes ordonnées ou binaires) est dite univariée , tandis qu'une distribution dont l'espace d'échantillonnage est un espace vectoriel de dimension 2 ou plus est dite multivariée . Une distribution univariée donne les probabilités qu'une variable aléatoire unique prenne différentes valeurs ; une distribution multivariée (ou distribution de probabilité conjointe ) donne les probabilités qu'un vecteur aléatoire – une liste de deux variables aléatoires ou plus – prenne différentes combinaisons de valeurs. Parmi les distributions de probabilité univariées importantes et courantes, on trouve la distribution binomiale , la distribution hypergéométrique et la distribution normale . La distribution normale multivariée est une distribution multivariée courante .

Outre la fonction de probabilité, la fonction de répartition cumulative, la fonction de masse de probabilité et la fonction de densité de probabilité, la fonction génératrice des moments et la fonction caractéristique servent également à identifier une distribution de probabilité, car elles déterminent de manière unique une fonction de répartition cumulative sous-jacente.

Figure 2 : Fonction de densité de probabilité (pdf) de la loi normale , également appelée loi gaussienne ou « courbe en cloche », la plus importante des lois aléatoires absolument continues. Comme indiqué sur la figure, les probabilités des intervalles de valeurs correspondent à l’aire sous la courbe.

Terminologie

Quelques concepts et termes clés, largement utilisés dans la littérature sur le sujet des distributions de probabilité, sont énumérés ci-dessous.

termes de base

  • Variable aléatoire : prend des valeurs issues d'un espace d'échantillonnage ; les probabilités décrivent quelles valeurs et quels ensembles de valeurs sont les plus susceptibles d'être obtenus.
  • Événement : ensemble des valeurs possibles (résultats) d'une variable aléatoire qui se produit avec une certaine probabilité.
  • Fonction de probabilité ou mesure de probabilité : décrit la probabilitéque l'événementse produise.
  • Fonction de répartition cumulative : fonction évaluant la probabilité queprenne une valeur inférieure ou égale àpour une variable aléatoire (uniquement pour les variables aléatoires à valeurs réelles).
  • Fonction quantile : l'inverse de la fonction de répartition. Elle donneles valeurs telles que, avec probabilité,ne dépasse pas.

Distributions de probabilité discrètes

Distributions de probabilité absolument continues

  • Distribution de probabilité absolument continue : pour de nombreuses variables aléatoires avec une infinité non dénombrable de valeurs.
  • Fonction de densité de probabilité ( pdf ) ou densité de probabilité : fonction dont la valeur à tout échantillon (ou point) donné dans l' espace d'échantillonnage (l'ensemble des valeurs possibles prises par la variable aléatoire) peut être interprétée comme fournissant une probabilité relative que la valeur de la variable aléatoire soit égale à cet échantillon.

Termes associés

  • Support : l'ensemble des valeursa
  • Valeur attendue ou moyenne : la moyenne pondérée des valeurs possibles, en utilisant leurs probabilités comme pondérations ; ou son analogue continu.
  • Médiane : la valeur telle que l'ensemble des valeurs inférieures à la médiane et l'ensemble des valeurs supérieures à la médiane ont chacun une probabilité inférieure ou égale à un demi.
  • Mode : pour une variable aléatoire discrète, la valeur ayant la plus grande probabilité ; pour une variable aléatoire absolument continue, un emplacement où la fonction de densité de probabilité présente un pic local.
  • Quantile : le q-quantile est la valeurtelle que.
  • Variance : le second moment de la variable aléatoire autour de sa moyenne ; une mesure importante de la dispersion de la distribution.
  • Écart type : la racine carrée de la variance, et donc une autre mesure de dispersion.
  • Symétrie : une propriété de certaines distributions dans laquelle la partie de la distribution située à gauche d'une valeur spécifique (généralement la médiane) est une image miroir de la partie située à sa droite.
  • Asymétrie : mesure de la déviation d’une fonction de masse de probabilité ou d’une fonction de densité de probabilité autour de sa moyenne. Le troisième moment standardisé de la distribution.
  • Kurtosis : mesure de l’« épaisseur » des queues de distribution d’une fonction de masse de probabilité ou d’une fonction de densité de probabilité. Le quatrième moment normalisé de la distribution.

Fonction de répartition cumulative

distribution de probabilité discrète

Figure 3 : La fonction de masse de probabilité (FMP) spécifie la distribution de probabilité de la somme des résultats de deux dés . Par exemple, la figure montre que . La FMP permet de calculer les probabilités d’événements tels que , et toutes les autres probabilités de la distribution.
Figure 4 : Fonction de masse de probabilité d’une distribution de probabilité discrète. Les probabilités des valeurs isolées {1}, {3} et {7} sont respectivement de 0,2, 0,5 et 0,3. Un ensemble ne contenant aucune de ces valeurs a une probabilité nulle.
Figure 5 : La fonction de répartition d'une distribution de probabilité discrète, ...
Figure 6 : ... d'une distribution de probabilité continue, ...
Figure 7 : ... d'une distribution qui comporte à la fois une partie continue et une partie discrète

Une distribution de probabilité discrète est la distribution de probabilité d'une variable aléatoire ne pouvant prendre qu'un nombre dénombrable de valeurs ( presque sûrement ) , ce qui signifie que la probabilité de tout événement peut être exprimée comme une somme (finie ou dénombrable ) : où est un ensemble dénombrable tel que . Ainsi, les variables aléatoires discrètes (c'est-à-dire les variables aléatoires dont la distribution de probabilité est discrète) sont précisément celles dont la fonction de masse de probabilité est . Dans le cas où l'ensemble des valeurs est dénombrable, ces valeurs doivent tendre vers zéro suffisamment rapidement pour que la somme des probabilités soit égale à 1. Par exemple, si pour , la somme des probabilités serait .

Parmi les distributions de probabilité discrètes couramment utilisées en modélisation statistique, on trouve la distribution de Poisson , la distribution de Bernoulli , la distribution binomiale , la distribution géométrique , la distribution binomiale négative et la distribution catégorielle . Lorsqu'un échantillon (un ensemble d'observations) est prélevé dans une population plus large, les points de l'échantillon suivent une distribution empirique discrète, fournissant ainsi des informations sur la distribution de la population. De plus, la distribution uniforme discrète est fréquemment utilisée dans les programmes informatiques qui effectuent des sélections aléatoires équiprobables parmi plusieurs choix.

Fonction de répartition cumulative

Une variable aléatoire discrète à valeurs réelles peut être définie de manière équivalente comme une variable aléatoire dont la fonction de répartition ne croît qu'aux discontinuités — autrement dit, sa fonction de répartition croît uniquement lorsqu'elle « saute » à une valeur supérieure, et reste constante sur les intervalles sans discontinuité. Les points de discontinuité correspondent précisément aux valeurs que peut prendre la variable aléatoire. Ainsi, la fonction de répartition a la forme suivante : [formule mathématique]. Les points de discontinuité de la fonction de répartition forment toujours un ensemble dénombrable ; cet ensemble peut être quelconque et peut donc être dense dans l'ensemble des nombres réels.

Représentation delta de Dirac

Une distribution de probabilité discrète est souvent représentée par des mesures de Dirac , également appelées distributions à un point (voir ci-dessous), qui sont les distributions de probabilité de variables aléatoires déterministes . Pour tout résultat , soit la mesure de Dirac concentrée en . Étant donné une distribution de probabilité discrète, il existe un ensemble dénombrable tel que et une fonction de masse de probabilité . Si est un événement quelconque, alors ou en bref,

De même, les distributions discrètes peuvent être représentées avec la fonction delta de Dirac comme une fonction de densité de probabilité généralisée , où ce qui signifie pour tout événement

représentation de la fonction indicatrice

Pour une variable aléatoire discrète , soient les valeurs qu'elle peut prendre avec une probabilité non nulle. Notons . Ce sont des ensembles disjoints , et pour de tels ensembles . Il s'ensuit que la probabilité que prenne une valeur autre que est nulle, et donc on peut écrire comme sauf sur un ensemble de probabilité nulle, où est la fonction indicatrice de . Ceci peut servir de définition alternative des variables aléatoires discrètes.

Distribution à un point

Un cas particulier est celui de la distribution discrète d'une variable aléatoire ne pouvant prendre qu'une seule valeur fixe, autrement dit, une mesure de Dirac. Formellement, la variable aléatoire possède une distribution à un point si elle admet une valeur possible telle que Toutes les autres valeurs possibles ont alors une probabilité nulle. Sa fonction de répartition passe brusquement de 0 à 1 en . Elle est étroitement liée à une distribution déterministe, qui ne peut prendre aucune autre valeur, tandis qu'une distribution à un point peut prendre d'autres valeurs, mais uniquement avec une probabilité nulle. Dans la plupart des applications pratiques, les deux notions sont équivalentes.

Distribution de probabilité absolument continue

absolument continue s'il existe une fonction f telle que, pour chaque intervalle, la probabilité d' appartenir à f est donnée par l'intégrale de f sur f : C'est la définition d'une fonction de densité de probabilité , de sorte que les distributions de probabilité absolument continues sont précisément celles qui possèdent une fonction de densité de probabilité. En particulier, la probabilité que f prenne une valeur unique (c'est-à-dire, f(x) = 0) est nulle, car une intégrale dont les bornes supérieure et inférieure coïncident est toujours égale à zéro. Si l'intervalle est remplacé par un ensemble mesurable quelconque , l'égalité correspondante reste valable :

définition de Kolmogorov

théorie des probabilités par la théorie de la mesure , une variable aléatoire est définie comme une fonction mesurable d'un espace de probabilité vers un espace mesurable . Étant donné que les probabilités d'événements de la forme satisfont aux axiomes de probabilité de Kolmogorov , la distribution de probabilité de est la mesure image de , qui est une mesure de probabilité sur satisfaisant .

Autres types de distributions

Figure 8 : Une solution des équations de Rabinovich-Fabrikant . Quelle est la probabilité d'observer un état sur une certaine place du support (c'est-à-dire le sous-ensemble rouge) ?

Les distributions absolument continues et discrètes à support défini sur ℝⁿ sont extrêmement utiles pour modéliser une multitude de phénomènes , car la plupart des distributions pratiques sont à support défini sur des sous-ensembles relativement simples, tels que les hypercubes ou les boules . Cependant, ce n'est pas toujours le cas, et il existe des phénomènes dont le support est en réalité une courbe complexe dans un espace donné , ou un espace similaire. Dans ces cas, la distribution de probabilité est à support défini sur l'image d'une telle courbe et est généralement déterminée empiriquement, plutôt que par une formule explicite

Un exemple est présenté dans la figure de droite, qui illustre l'évolution d'un système d'équations différentielles (communément appelées équations de Rabinovich-Fabrikant ) permettant de modéliser le comportement des ondes de Langmuir dans un plasma . Lors de l'étude de ce phénomène, les états observés du sous-ensemble sont indiqués en rouge. On peut alors se demander quelle est la probabilité d'observer un état à une position donnée dans ce sous-ensemble rouge ; si une telle probabilité existe, elle est appelée mesure de probabilité du système.

This kind of complicated support appears quite frequently in dynamical systems. It is not simple to establish that the system has a probability measure, and the main problem is the following. Let

Note that even in these cases, the probability distribution, if it exists, might still be termed "absolutely continuous" or "discrete" depending on whether the support is uncountable or countable, respectively.

Lebesgue decomposition

The Lebesgue decomposition theorem states that any probability distribution on the real line can be uniquely decomposed into a mixture of three fundamental types:

Most standard distributions in statistical applications are either purely discrete (

Random number generation

générateur de nombres pseudo-aléatoires produisant des nombres uniformément distribués dans l' intervalle semi-ouvert variables aléatoires sont ensuite transformées par un algorithme afin de créer une nouvelle variable aléatoire possédant la distribution de probabilité requise. Grâce à cette source de pseudo-aléatoire uniforme, il est possible de générer des réalisations de toute variable aléatoire.

Distributions de probabilité courantes et leurs applications

propriétés cinétiques des gaz à la description quantique des particules fondamentales . Pour ces raisons, et bien d'autres, les nombres simples sont souvent insuffisants pour décrire une grandeur, tandis que les distributions de probabilité sont souvent plus appropriées.

Voici une liste de quelques-unes des distributions de probabilité les plus courantes, regroupées selon le type de processus auquel elles se rapportent. Pour une liste plus complète, voir la liste des distributions de probabilité , qui les regroupe selon la nature du résultat considéré (discret, absolument continu, multivarié, etc.).

Toutes les distributions univariées ci-dessous sont unimodales ; autrement dit, on suppose que les valeurs se regroupent autour d’un seul point. En pratique, les quantités observées peuvent se regrouper autour de plusieurs valeurs. Ces quantités peuvent être modélisées à l’aide d’une distribution de mélange .

Croissance linéaire (ex. erreurs, décalages)

  • Distribution normale (distribution gaussienne), pour une seule quantité de ce type ; la distribution absolument continue la plus couramment utilisée

Croissance exponentielle (ex. prix, revenus, populations)

quantités uniformément réparties

Épreuves de Bernoulli (événements binaires oui/non, avec une probabilité donnée)

Résultats catégoriels (événements avec Distribution catégorielle , pour une seule variable catégorielle (par exemple oui/non/peut-être dans une enquête) ; une généralisation de la distribution de Bernoulli
  • Distribution multinomiale , pour le nombre de chaque type de résultat catégoriel, étant donné un nombre total de résultats fixé ; une généralisation de la distribution binomiale
  • Distribution hypergéométrique multivariée , similaire à la distribution multinomiale , mais utilisant un échantillonnage sans remise ; une généralisation de la distribution hypergéométrique
  • Processus de Poisson (événements qui se produisent indépendamment à un taux donné)

    Valeurs absolues de vecteurs dont les composantes sont normalement distribuées

    • La distribution de Rayleigh décrit la distribution des amplitudes vectorielles dont les composantes orthogonales suivent une loi normale. On la retrouve dans les signaux RF présentant des composantes réelles et imaginaires gaussiennes.
    • La distribution de Rice est une généralisation de la distribution de Rayleigh lorsqu'il existe une composante de signal de fond stationnaire. Elle est observée dans l'affaiblissement de Rice des signaux radio dû à la propagation multi-trajets et dans les images IRM présentant des interférences dues au bruit sur les signaux RMN non nuls.

    Quantités normalement distribuées, traitées par somme des carrés

    En tant que distributions a priori conjuguées dans l'inférence bayésienne

    Distribution bêta , pour une probabilité unique (nombre réel entre 0 et 1) ; conjuguée à la distribution de Bernoulli et à la distribution binomiale
  • Distribution gamma , pour un paramètre d'échelle non négatif ; conjuguée au paramètre de taux d'une distribution de Poisson ou d' une distribution exponentielle , à la précision (inverse de la variance ) d'une distribution normale , etc.
  • Distribution de Dirichlet , pour un vecteur de probabilités dont la somme doit être égale à 1 ; conjuguée à la distribution catégorielle et à la distribution multinomiale ; généralisation de la distribution bêta
  • Distribution de Wishart , pour une matrice symétrique non négative définie ; conjuguée à l'inverse de la matrice de covariance d'une distribution normale multivariée ; généralisation de la distribution gamma
  • Quelques applications spécialisées des distributions de probabilité

    • Les modèles de langage de cache et autres modèles de langage statistiques utilisés dans le traitement automatique du langage naturel pour attribuer des probabilités à l'occurrence de mots et de séquences de mots particuliers le font au moyen de distributions de probabilité.
    • En mécanique quantique, la densité de probabilité de trouver une particule en un point donné est proportionnelle au carré de la norme de sa fonction d'onde en ce point (voir la règle de Born ). Par conséquent, la fonction de distribution de probabilité de la position d'une particule est décrite par , la probabilité que la position intégrale triple similaire en dimension trois. Il s'agit d'un principe fondamental de la mécanique quantique.
    • L'analyse probabiliste des flux de charge dans les études de flux de puissance explique les incertitudes des variables d'entrée sous forme de distribution de probabilité et fournit également le calcul du flux de puissance en termes de distribution de probabilité.
    • Prédiction de l'occurrence de phénomènes naturels basée sur des distributions de fréquence antérieures telles que les cyclones tropicaux , la grêle, le temps entre les événements, etc.

    Convenable

    L'ajustement de distribution de probabilité , ou simplement ajustement de distribution, consiste à ajuster une distribution de probabilité à une série de données relatives à la mesure répétée d'un phénomène variable. L'objectif de cet ajustement est de prédire la probabilité ou la fréquence d' occurrence de l'amplitude du phénomène dans un intervalle donné.

    Il existe de nombreuses distributions de probabilité (voir la liste des distributions de probabilité ), dont certaines s'ajustent mieux que d'autres à la fréquence observée des données, selon les caractéristiques du phénomène et de la distribution. La distribution qui s'ajuste le mieux aux données est censée permettre de bonnes prédictions. Lors de l'ajustement d'une distribution, il est donc nécessaire de sélectionner une distribution adaptée aux données.

    Convergence

    Un concept fondamental de la théorie des probabilités est la convergence des suites de distributions de probabilité. On dit qu'une suite de distributions de probabilité converge faiblement (ou en distribution ) vers une distribution de probabilité si, pour tout ensemble dont la frontière a une probabilité nulle.

    De manière équivalente, en utilisant les fonctions de répartition cumulatives , la suite converge vers si pour tout en lequel est continue.

    Ce concept est essentiel pour le théorème central limite , qui stipule que la distribution de probabilité de la somme standardisée de variables aléatoires indépendantes et identiquement distribuées converge vers la distribution normale standard , quelle que soit la distribution sous-jacente des variables individuelles.

    Plus d articles de Worldlex Wiki

    Revenez a l index pour explorer davantage de pages sur l histoire, la science, la culture, la geographie et la societe en francais.

    Explorer l index