Probabilité conditionnelle

théorie des probabilités , la probabilité conditionnelle mesure la probabilité qu'un événement se produise, sachant qu'un autre événement (par hypothèse, présomption, assertion ou preuve) est déjà avéré. Cette méthode repose sur l'hypothèse que l'événement A se produit en relation avec un autre événement B. Dans ce cas, l'événement A peut être analysé par sa probabilité conditionnelle par rapport à B. Si l'événement d'intérêt est

Exemple

Supposons que quelqu'un lance secrètement deux dés équilibrés à six faces , et que nous souhaitions calculer la probabilité que la valeur face visible du premier soit 2, sachant que leur somme ne dépasse pas 5.

Soit D ₁ la valeur obtenue sur le dé 1.
Soit D ₂ la valeur obtenue sur le dé 2.

Probabilité que D ₁ = 2

Le tableau 1 montre l' espace échantillonnal de 36 combinaisons de valeurs lancées des deux dés, chacune se produisant avec une probabilité de 1/36, les nombres affichés dans les cellules rouges et gris foncé étant D ₁ + D ₂ .

D ₁ = 2 dans exactement 6 des 36 résultats ; donc P ( D ₁ = 2) = 6 ⁄ 36 = 1 ⁄ 6 :Tableau 1+D ₂123456D ₁123456723456783456789456789105678910116789101112

Probabilité que D1 + D2 ≤ ₅

Le tableau 2 montre que D ₁ + D ₂ ≤ 5 pour exactement 10 des 36 résultats, donc P ( D ₁ + D ₂ ≤ 5) = 10 ⁄ 36 :Tableau 2+D ₂123456D ₁123456723456783456789456789105678910116789101112

Probabilité que D₁ = 2 sachant _queD₁ + D₂ ≤ ₅

Le tableau 3 montre que pour 3 de ces 10 résultats, D ₁ = 2.

Ainsi, la probabilité conditionnelle P( D ₁ = 2 | D ₁ + D ₂ ≤ 5) = 3 ⁄ 10 = 0,3 :Tableau 3+D ₂123456D ₁123456723456783456789456789105678910116789101112

Ici, dans la notation précédente pour la définition de la probabilité conditionnelle, l'événement conditionnel B est que D ₁ + D ₂ ≤ 5, et l'événement A est D ₁ = 2. Nous avons comme on le voit dans le tableau.

Utilisation dans l'inférence

En inférence statistique , la probabilité conditionnelle est une mise à jour de la probabilité d'un événement basée sur de nouvelles informations. Les nouvelles informations peuvent être intégrées comme suit :

Soit A , l'événement d'intérêt, dans l' espace d'échantillonnage , disons ( X , P ).
La survenance de l'événement A sachant que l'événement B s'est ou se sera produit signifie la survenance de A telle qu'elle est restreinte à B , c'est-à-dire .
Sans la connaissance de l'occurrence de B , l'information concernant l'occurrence de A serait simplement P ( A ).
La probabilité que A sache que l'événement B s'est produit ou se produira sera la probabilité relative à P ( B ), la probabilité que B se soit produit.
Cela donne P( B ) > 0 lorsque P ( B ) > 0 et 0 sinon.

Cette approche aboutit à une mesure de probabilité cohérente avec la mesure de probabilité initiale et qui satisfait à tous les axiomes de Kolmogorov . Cette mesure de probabilité conditionnelle pourrait également être obtenue en supposant que l'ordre de grandeur relatif de la probabilité de A par rapport à X est conservé par rapport à B (voir la démonstration formelle ci-dessous).

Dans l' interprétation bayésienne de la probabilité , les termes « preuve » ou « information » sont généralement employés . L'événement conditionnant est interprété comme une preuve de l'événement conditionnant. Autrement dit, P ( A ) représente la probabilité de A avant la prise en compte de la preuve E , et P ( A | E ) représente la probabilité de A après la prise en compte de la preuve E ou après la mise à jour de P ( A ). Cette interprétation est cohérente avec l'approche fréquentiste, qui correspond à la première définition donnée ci-dessus.

Exemple

Lors de la transmission du code Morse , il existe une certaine probabilité que le point ou le trait reçu soit erroné. Ceci est souvent interprété comme une interférence dans la transmission du message. Il est donc important de prendre en compte, lors de l'envoi d'un point, par exemple, la probabilité qu'il soit reçu. Cette probabilité est représentée par : En code Morse, le rapport points/traits est de 3:4 à l'émission, donc les probabilités d'un point et d'un trait sont respectivement de 1/10 et 1/10 . Si l'on suppose que la probabilité qu'un point soit transmis comme un trait est de 1/10, et que la probabilité qu'un trait soit transmis comme un point est également de 1/10, alors le théorème de Bayes peut être utilisé pour calculer ces probabilités .

On peut maintenant calculer :

Information, probabilité conditionnelle et indépendance statistique

Les concepts de probabilité conditionnelle et d'indépendance statistique peuvent être compris à travers l'idée de la façon dont de nouvelles informations modifient l'incertitude d'un individu concernant un événement.

Exemple 1

Événements dépendants (dé à six faces)

Considérons l'expérience consistant à lancer un dé équilibré à six faces, où l'espace échantillonnal est . Soit A l'événement « obtenir un nombre pair », donc , et B l'événement « obtenir un nombre inférieur ou égal à 3 » , donc . Avant toute information supplémentaire, les probabilités de ces événements sont et . L'intersection des deux événements est , et donc . Si les événements étaient statistiquement indépendants, on s'attendrait à . Or, , ce qui indique que les événements A et B ne sont pas indépendants mais sont au contraire statistiquement dépendants.

Supposons maintenant qu'un observateur révèle que l'événement A s'est produit ; autrement dit, le résultat est pair. Cette nouvelle information réduit l'espace d'échantillonnage effectif de à . Dans cet espace réduit, l'événement B ne peut se produire que lorsque le résultat est pair , donc l'événement pertinent devient . Par conséquent, la probabilité conditionnelle de l'événement B sachant que l'événement A s'est produit est . Ainsi, la probabilité de l'événement B passe de à après la fourniture de cette information supplémentaire. Cette variation de probabilité démontre que la connaissance de l'événement A influence la probabilité de l'événement B , confirmant ainsi que les deux événements sont statistiquement dépendants. Dans de telles situations, l'information supplémentaire réduit l'incertitude et peut influencer significativement la prise de décision rationnelle, les prédictions et les comportements de paris.

Exemple 2

Événements indépendants (dé à huit faces)

Considérons l'expérience consistant à lancer un dé équilibré à huit faces, d'espace échantillonnal Ω . Soit A l'événement « obtenir moins de 5 » , de sorte que A ≤ 5 , et B l'événement « obtenir 3, 4, 5 ou 6 », de sorte que B ≤ 3, 4, 5 ou 6. Initialement, les probabilités de ces événements sont PA et P B . L'intersection des deux événements est PA ≤ PB, et donc PA ≤ PB . Puisque PA ≤ PB , on obtient PB ≤ PB , ce qui confirme que les événements A et B sont statistiquement indépendants.

Supposons maintenant qu'un observateur révèle que l'événement A s'est produit. Cette information réduit l'espace échantillonnal effectif de à . Dans cet espace échantillonnal réduit, les résultats qui satisfont également l'événement B sont . Par conséquent, la probabilité conditionnelle de l'événement B sachant que l'événement A s'est produit est . Remarquons que cette probabilité conditionnelle est égale à la probabilité initiale de l'événement B , soit . Ainsi, apprendre que l'événement A s'est produit ne modifie pas la vraisemblance de l'événement B. L'information fournie par l'événement A n'a aucun effet sur l'incertitude associée à l'événement B , ce qui démontre la propriété fondamentale d'indépendance statistique : la connaissance d'un événement ne modifie pas la probabilité de l'autre.

Interprétation

L'indépendance statistique peut donc s'interpréter comme l'absence de valeur informationnelle entre les événements. Si la connaissance d'un événement modifie la probabilité d'un autre, les événements sont dépendants. Inversement, si la probabilité reste inchangée après l'obtention de nouvelles informations, les événements sont indépendants.

Formellement, deux événements A et B sont indépendants si et seulement si :

$ce qui équivaut à :$

En ce sens, l'indépendance implique que l'observation d'un événement ne fournit aucune information supplémentaire sur la survenue de l'autre événement.

Indépendance statistique

statistiquement indépendants si la probabilité de l'intersection de A et B est égale au produit des probabilités de A et B :

Si P ( B ) n'est pas nul, alors cela équivaut à l'affirmation suivante :

De même, si P ( A ) n'est pas nul, alors

est également équivalent. Bien que les formes dérivées puissent sembler plus intuitives, elles ne constituent pas la définition privilégiée car les probabilités conditionnelles peuvent être indéfinies, et la définition privilégiée est symétrique par rapport à A et B. L'indépendance ne se réfère pas à un événement disjoint.

Il convient également de noter que étant donné la paire d'événements indépendants [ A , B ] et un événement C , la paire est définie comme étant conditionnellement indépendante si

Ce théorème est utile dans les applications où plusieurs événements indépendants sont observés.

Événements indépendants vs événements mutuellement exclusifs

Les concepts d'événements mutuellement indépendants et d'événements mutuellement exclusifs sont distincts. Le tableau suivant compare les résultats obtenus dans les deux cas (sous réserve que la probabilité de l'événement conditionnant soit non nulle).


	Si statistiquement indépendant	Si mutuellement exclusifs
		0
		0
		0

En fait, des événements mutuellement exclusifs ne peuvent pas être statistiquement indépendants (à moins qu'ils ne soient tous deux impossibles), puisque savoir que l'un se produit donne des informations sur l'autre (en particulier, que ce dernier ne se produira certainement pas).

Association indépendante vs. association positive vs. association négative des événements

Relation entre A et B	Condition	Résultat
Indépendant
Association positive	$>$	$>$
Association négative	$<$	$<$

Erreurs courantes

Il ne faut pas confondre ces erreurs de raisonnement avec le « sophisme conditionnel » de Robert K. Shope (1978) , qui traite des exemples contrefactuels qui soulèvent la question .

En supposant que la probabilité conditionnelle soit d'un ordre de grandeur similaire à son inverse

Visualisation géométrique du théorème de Bayes. Dans le tableau, les valeurs 2, 3, 6 et 9 indiquent les poids relatifs de chaque condition et cas correspondants. Les chiffres représentent les cellules du tableau concernées par chaque mesure, la probabilité étant la proportion de chaque chiffre colorée. Ceci montre que, par exemple , 2 = 3. Un raisonnement similaire permet de montrer que 3 = 6, etc.

En général, on ne peut pas supposer que P ( A | B ) ≈ P ( B | A ). Cela peut constituer une erreur insidieuse, même pour les statisticiens les plus experts. La relation entre P ( A | B ) et P ( B | A ) est donnée par le théorème de Bayes :

C’est-à-dire que P ( A | B ) ≈ P ( B | A ) seulement si P ( B )/ P ( A ) ≈ 1, ou de manière équivalente, P ( A ) ≈ P ( B ).

En supposant que les probabilités marginales et conditionnelles soient de taille similaire

En général, on ne peut pas supposer que P ( A ) ≈ P ( A | B ). Ces probabilités sont liées par la loi des probabilités totales :

où les événements forment une partition dénombrable de .

Ce raisonnement erroné peut résulter d'un biais de sélection . Par exemple, dans le contexte d'une demande de remboursement de soins médicaux, soit S _{séquelle (maladie chronique) S survient à la suite d'une circonstance (affection aiguë) C » . Soit H l'événement « une personne consulte un médecin ». Supposons que, dans la plupart des cas, C ne cause pas S (donc P ( S _{négligence du taux de base . À l'inverse, un ajustement insuffisant de la probabilité a priori est appelé conservatisme .}}

Dérivation formelle

Formellement, P ( A | B ) est définie comme la probabilité de A selon une nouvelle fonction de probabilité sur l'espace échantillonnal, telle que les résultats n'appartenant pas à B aient une probabilité de 0 et qu'elle soit cohérente avec toutes les mesures de probabilité originales .

Soit Ω un espace d'échantillonnage discret d' événements élémentaires { ω }, et soit P la mesure de probabilité relative à la σ-algèbre de Ω. Supposons que l'événement B ⊆ Ω se soit produit. Une nouvelle distribution de probabilité (notée sous la forme conditionnelle) est associée à { ω } pour refléter cet événement. Tous les événements n'appartenant pas à B auront une probabilité nulle dans cette nouvelle distribution. Pour les événements appartenant à B , deux conditions doivent être remplies : la probabilité de B est égale à un et les ordres de grandeur relatifs des probabilités doivent être conservés. La première condition découle des axiomes des probabilités , et la seconde du fait que la nouvelle mesure de probabilité doit être analogue à P, où la probabilité de B est égale à un – et tout événement n'appartenant pas à B a donc une probabilité nulle. Par conséquent, pour un certain facteur d'échelle α , la nouvelle distribution doit satisfaire :

En substituant 1 et 2 dans 3 pour sélectionner α :

La nouvelle distribution de probabilité est donc :

Passons maintenant à un événement général A ,

Probabilité conditionnelle

Conditionnement à un événement

définition de Kolmogorov

La probabilité d'un événement conditionnel

Conditionnement par rapport à un événement de probabilité nulle

Conditionnement par rapport à une variable aléatoire discrète

Exemple

Utilisation dans l'inférence

Exemple

Information, probabilité conditionnelle et indépendance statistique

Exemple 1

Exemple 2

Indépendance statistique

Erreurs courantes

En supposant que la probabilité conditionnelle soit d'un ordre de grandeur similaire à son inverse

En supposant que les probabilités marginales et conditionnelles soient de taille similaire

Dérivation formelle