erreurs de type I et de type II

faux positif , est le rejet incorrect d’une hypothèse nulle vraie dans un test d’hypothèse statistique . L’ erreur de type II , ou faux négatif , est l’acceptation incorrecte d’une hypothèse nulle fausse.

Une analyse commet une erreur de type I lorsqu'une hypothèse de base est rejetée à tort en raison d'informations nouvelles et trompeuses. À l'inverse, une erreur de type II est commise lorsqu'une telle hypothèse est maintenue, faute de données suffisantes ou erronées, alors que des mesures plus précises auraient démontré son inexactitude. Par exemple, dans le contexte des tests médicaux, si l'hypothèse nulle est « Ce patient n'est pas atteint de la maladie », diagnostiquer la présence de la maladie alors qu'elle est absente constitue une erreur de type I, tandis que diagnostiquer l'absence de la maladie alors qu'elle est présente constitue une erreur de type II. La manière dont une hypothèse nulle encadre les attentes par défaut influence la manifestation spécifique des erreurs de type I et de type II, et cette influence varie selon le contexte et l'application. En général, le risque de telles erreurs ne peut être totalement éliminé ; il est seulement possible de trouver un compromis entre les deux types, par exemple en modifiant le seuil de signification .

La connaissance des erreurs de type I et de type II est largement appliquée dans les domaines des sciences médicales , de la biométrie et de l'informatique . La minimisation de ces erreurs est un objet d'étude en théorie statistique , bien que leur élimination complète soit impossible lorsque les résultats pertinents ne sont pas déterminés par des processus causaux connus et observables.

théorie des tests statistiques , la notion d' erreur statistique est essentielle au test d'hypothèses . Ce test consiste à choisir entre deux propositions concurrentes : l'hypothèse nulle (H₀) et l'hypothèse alternative (H₁) . Ce concept est comparable à celui d'un jugement rendu lors d'un procès. L'hypothèse nulle correspond à la position de l'accusé : de même qu'il est présumé innocent jusqu'à preuve du contraire, l'hypothèse nulle est présumée vraie jusqu'à ce que les données apportent des preuves convaincantes du contraire. L'hypothèse alternative correspond à la position opposée à celle de l'accusé. Plus précisément, l'hypothèse nulle implique l'absence de différence ou d'association. Par conséquent, l'hypothèse nulle ne peut jamais affirmer l'existence d'une différence ou d'une association.

Si le résultat du test correspond à la réalité, la décision prise est correcte. En revanche, si le résultat du test ne correspond pas à la réalité, une erreur s'est produite. Il existe deux situations dans lesquelles la décision est erronée : soit l'hypothèse nulle est vraie, alors que nous la rejetons ; soit l'hypothèse alternative est vraie, alors que nous ne la rejetons pas . On distingue deux types d'erreurs : l'erreur de type I et l'erreur de type II.

Erreur de type I

Le premier type d'erreur consiste à rejeter à tort une hypothèse nulle à la suite d'un test. On parle alors d'erreur de type I (faux positif), parfois appelée erreur du premier type. Dans le contexte judiciaire, une erreur de type I équivaut à condamner un innocent.

Erreur de type II

Le second type d'erreur consiste à ne pas rejeter l'hypothèse nulle à la suite d'un test. On parle alors d'erreur de type II (faux négatif), également appelée erreur du second type. Dans le contexte judiciaire, une erreur de type II correspond à l'acquittement d'un accusé.

taux d'erreur de croisement

Le taux d'erreur de croisement (CER) correspond au point où les erreurs de type I et de type II sont égales. Un système avec un CER plus faible offre une meilleure précision qu'un système avec un CER plus élevé. Toutes choses égales par ailleurs, l'égalité des taux d'erreurs de type I et de type II (c'est-à-dire le CER) permet d'obtenir le taux d'erreur global le plus faible.

faux positifs et faux négatifs

Tableau des types d'erreursL'hypothèse nulle ( ) est

VraiFAUXDécision concernant l'hypothèse nulle ( ) Ne pas rejeterInférence correcte (vrai négatif) (probabilité = ) Erreur de type II (faux négatif) (probabilité = ) RejeterErreur de type I (faux positif) (probabilité = ) Inférence correcte (vrai positif) (probabilité = )

Les résultats obtenus à partir d'échantillons négatifs (courbe de gauche) se superposent à ceux obtenus à partir d'échantillons positifs (courbe de droite). En modifiant le seuil de positivité (barre verticale), on peut diminuer le taux de faux positifs (FP), au prix d'une augmentation du nombre de faux négatifs (FN), ou inversement (VP = Vrais positifs, TPR = Taux de vrais positifs, FPR = Taux de faux positifs, TN = Vrais négatifs).
Un test parfait ne comporterait ni faux positifs ni faux négatifs. Cependant, les méthodes statistiques sont probabilistes, et il est impossible de savoir avec certitude si les conclusions statistiques sont correctes. En cas d'incertitude, le risque d'erreur existe. De ce fait, tous les tests d'hypothèses statistiques comportent une probabilité d'erreurs de type I et de type II.
Le risque d'erreur de type I correspond à la probabilité de rejeter l'hypothèse nulle sachant qu'elle est vraie. Le test est conçu pour maintenir ce risque en dessous d'un seuil prédéfini appelé niveau de signification, généralement noté par la lettre grecque α (alpha). Le niveau de signification est généralement fixé à 0,05 (5 %), ce qui signifie qu'une probabilité de 5 % de rejeter à tort l'hypothèse nulle est acceptable.
Le taux d’erreur de type II est désigné par la lettre grecque β (beta) et est lié à la puissance d’un test , qui est égale à 1−β.p-valeur ou le seuil de signification α de la statistique. Par exemple, si la p-valeur d'un test statistique est de 0,0596, la probabilité de rejeter H₀ à tort, sachant qu'elle est vraie, est de 5,96 % _. De même, si le test est effectué au seuil α, par exemple 0,05, le risque de rejeter H₀ à tort _est de 5 %. Un seuil de signification α de 0,05 est relativement courant, mais il n'existe pas de règle générale applicable à toutes les situations.
mesure de la vitesse du véhicule
Aux États-Unis, la vitesse maximale autorisée sur une autoroute est de 120 kilomètres par heure (75 mph). Un dispositif est installé pour mesurer la vitesse des véhicules qui passent. Supposons que ce dispositif effectue trois mesures de la vitesse d'un véhicule, enregistrant ainsi un échantillon aléatoire X₁ _, X₂ _, X₃ _. La police routière infligera ou non une amende aux conducteurs en fonction de la vitesse moyenne . Autrement dit, la statistique de test…
De plus, nous supposons que les mesures X₁ _, X₂ _et X₃ _suivent une loi normale N(μ, 2). Alors, T suit une loi normale N(μ, 2 ) et le paramètre μ représente la vitesse réelle du véhicule passant. Dans cette expérience, l'hypothèse nulle H₀ _et l'hypothèse alternative H₁ _sont respectivement :
H ₀ : μ=120 contre H ₁ : μ>120.
Si nous effectuons le test statistique au seuil α = 0,05, il convient de calculer une valeur critique c pour résoudre le problème.
Selon la règle de changement d'unités de la loi normale, en se référant à la table de la loi normale centrée réduite , on obtient :
Voici la zone critique. Autrement dit, si la vitesse enregistrée d'un véhicule dépasse la valeur critique de 121,9, le conducteur sera verbalisé. Cependant, 5 % des conducteurs sont verbalisés à tort car, bien que la vitesse moyenne enregistrée soit supérieure à 121,9, leur vitesse réelle est inférieure à 120 ; il s'agit alors d'une erreur de type I.
L'erreur de type II correspond au cas où la vitesse réelle d'un véhicule est supérieure à 120 kilomètres par heure, mais où le conducteur n'est pas verbalisé. Par exemple, si la vitesse réelle d'un véhicule μ = 125, la probabilité que le conducteur ne soit pas verbalisé peut être calculée comme suit :
Autrement dit, si la vitesse réelle d'un véhicule est de 125 km/h, le conducteur a 0,36 % de chances d'éviter l'amende lorsque le test statistique est effectué au seuil α = 0,05, puisque la vitesse moyenne enregistrée est inférieure à 121,9 km/h. Si la vitesse réelle est plus proche de 121,9 km/h que de 125 km/h, la probabilité d'éviter l'amende sera également plus élevée.
Il convient également de tenir compte du compromis entre les erreurs de type I et de type II. Ainsi, si la police routière ne souhaite pas verbaliser à tort des conducteurs innocents, le seuil α peut être abaissé, par exemple à 0,01. Toutefois, dans ce cas, davantage de conducteurs dont la vitesse réelle dépasse 120 km/h, par exemple 125 km/h, seraient susceptibles d'échapper à l'amende.

Étymologie

Les termes « erreur de type I » et « erreur de type II » proviennent d’un article de 1933 de Neyman et Pearson .

Termes associés

des tests pour déterminer si une hypothèse concernant les phénomènes observés (ou leurs habitants) peut être validée. Les résultats de ces tests permettent de déterminer si un ensemble de résultats donné concorde (ou non) raisonnablement avec l'hypothèse formulée.

Partant du principe, par convention statistique, que l'hypothèse formulée est toujours fausse, et de l'« hypothèse nulle » selon laquelle les phénomènes observés sont simplement dus au hasard (et que, par conséquent, l'agent supposé est sans effet), le test vise à déterminer si cette hypothèse est vraie ou fausse. C'est pourquoi l'hypothèse testée est souvent appelée hypothèse nulle (terme probablement introduit par Fisher (1935, p. 19)), car c'est cette hypothèse que le test doit invalider ou non. Si l'hypothèse nulle est invalidée, on peut conclure que les données confirment l'« hypothèse alternative » (qui est l'hypothèse formulée initialement).

L'application systématique par les statisticiens de la convention de Neyman et Pearson, qui consiste à représenter « l'hypothèse à tester » (ou « l'hypothèse à réfuter ») par l'expression H₀ _, a conduit à une interprétation erronée de l'expression « hypothèse nulle » : il s'agirait de l'affirmation que les résultats observés sont dus au hasard. Or, ce n'est pas nécessairement le cas. La principale restriction, selon Fisher (1966), est que « l'hypothèse nulle doit être exacte, c'est-à-dire exempte de toute imprécision et ambiguïté, car elle doit fournir la base du "problème de distribution", dont le test de signification est la solution » . De ce fait, en sciences expérimentales, l'hypothèse nulle affirme généralement qu'un traitement particulier est sans effet ; en sciences observationnelles, elle affirme qu'il n'existe aucune différence entre la valeur d'une variable mesurée et celle prédite expérimentalement.statistiquement significatif et l'hypothèse nulle est rejetée.

Le statisticien britannique Sir Ronald Aylmer Fisher (1890-1962) a souligné que l'hypothèse nulle

L'hypothèse nulle n'est jamais prouvée ni établie, mais peut être réfutée par l'expérimentation. On peut dire que toute expérience n'existe que pour donner aux faits une chance de réfuter l'hypothèse nulle.

— Fisher, 1935, p.19

Erreurs de type S et M

Pour remédier aux problèmes liés aux tests d'hypothèse nulle, Andrew Gelman , John Carlin et d'autres ont suggéré d'ajouter les erreurs de type S et de type M à la considération des résultats significatifs.

Les erreurs de type S sont des erreurs de signe. Le taux d'erreur de type S correspond à la probabilité que, si un résultat significatif est obtenu, l'effet soit estimé dans le sens inverse de l'effet réel. Ce type d'erreur est fréquent avec les dispositifs expérimentaux à faible puissance statistique.

Les erreurs de type M sont des erreurs d'amplitude. On y remédie par un « facteur d'exagération », qui évalue le rapport attendu entre la valeur absolue de l'estimation et la valeur réelle, sous l'hypothèse d'un résultat significatif. Ce facteur est important car l'utilisation d'un test de signification pour filtrer les résultats induit un biais de sélection, pouvant conduire à une surestimation importante de l'ampleur des effets.

Domaines d'application

Médecine

En médecine, les différences entre les applications du dépistage et des tests sont considérables.

examen médical

Le dépistage implique des tests relativement peu coûteux administrés à de larges populations, dont aucune ne présente de signe clinique de maladie (par exemple, les frottis cervico-vaginaux ).

Les tests impliquent des procédures beaucoup plus coûteuses, souvent invasives, qui ne sont pratiquées que chez les personnes présentant des signes cliniques de la maladie, et sont le plus souvent utilisées pour confirmer un diagnostic suspecté.

Par exemple, la plupart des États américains exigent que les nouveau-nés soient dépistés pour la phénylcétonurie et l'hypothyroïdie , entre autres troubles congénitaux .

Hypothèse : « Les nouveau-nés présentent une phénylcétonurie et une hypothyroïdie ».
Hypothèse nulle (H ₀ ): "Les nouveau-nés ne présentent ni phénylcétonurie ni hypothyroïdie".
Erreur de type I (faux positif) : En réalité, les nouveau-nés ne souffrent ni de phénylcétonurie ni d'hypothyroïdie, mais nous considérons qu'ils présentent ces troubles en fonction des données.
Erreur de type II (faux négatif) : Le fait est que les nouveau-nés souffrent de phénylcétonurie et d'hypothyroïdie, mais nous considérons qu'ils ne présentent pas ces troubles selon les données.

Bien qu'ils présentent un taux élevé de faux positifs, les tests de dépistage sont considérés comme précieux car ils augmentent considérablement la probabilité de détecter ces troubles à un stade beaucoup plus précoce.

Les tests sanguins simples utilisés pour dépister le VIH et l'hépatite chez les donneurs de sang potentiels présentent un taux important de faux positifs ; cependant, les médecins utilisent des tests beaucoup plus coûteux et bien plus précis pour déterminer si une personne est réellement infectée par l'un ou l'autre de ces virus.

Les faux positifs les plus souvent évoqués en matière de dépistage médical concernent sans doute la mammographie , examen de dépistage du cancer du sein . Aux États-Unis, le taux de faux positifs atteint 15 %, soit le plus élevé au monde. Conséquence de ce taux élevé : sur une période de dix ans, la moitié des Américaines dépistées reçoivent un résultat faussement positif à la mammographie. Ces faux positifs sont coûteux : plus de 100 millions de dollars sont dépensés chaque année aux États-Unis pour les examens complémentaires et les traitements. Ils sont également source d’anxiété inutile pour les femmes. Aux États-Unis, en raison de ce taux élevé de faux positifs, 90 à 95 % des femmes qui obtiennent un résultat positif à la mammographie ne sont en réalité pas atteintes de cancer. Le taux le plus bas au monde est enregistré aux Pays-Bas, à 1 %. Les taux les plus bas se trouvent généralement en Europe du Nord, où les mammographies sont interprétées deux fois et où un seuil élevé est appliqué pour les examens complémentaires (ce seuil élevé diminue la puissance du test).

Le test de dépistage idéal serait peu coûteux, facile à administrer et, si possible, ne produirait aucun faux négatif. En général, ces tests génèrent davantage de faux positifs, qui peuvent ensuite être éliminés par des tests plus sophistiqués (et plus onéreux).

Tests médicaux

Les faux négatifs et les faux positifs constituent des problèmes importants dans les tests médicaux .

Hypothèse : « Les patients sont atteints de la maladie spécifique ».
Hypothèse nulle (H ₀ ): "Les patients ne sont pas atteints de la maladie spécifique".
Erreur de type I (faux positif) : En réalité, les patients ne souffrent d'aucune maladie spécifique, mais le médecin juge le patient malade d'après les résultats des tests.
Erreur de type II (faux négatif) : En réalité, la maladie est bien présente, mais les résultats des tests donnent aux patients et aux médecins un message faussement rassurant selon lequel la maladie est absente.

Les faux positifs peuvent également engendrer des problèmes graves et contre-intuitifs lorsque la maladie recherchée est rare, comme lors d'un dépistage. Si un test présente un taux de faux positifs de 1 sur 10 000, mais qu'un seul échantillon (ou personne) sur un million est un vrai positif, la plupart des résultats positifs détectés par ce test seront des faux positifs. La probabilité qu'un résultat positif observé soit un faux positif peut être calculée à l'aide du théorème de Bayes .

Les faux négatifs engendrent des problèmes graves et contre-intuitifs, surtout lorsque la maladie recherchée est fréquente. Si un test présentant un taux de faux négatifs de seulement 10 % est utilisé pour tester une population dont la prévalence réelle est de 70 %, de nombreux résultats négatifs seront en réalité des faux positifs.

Cela conduit parfois à un traitement inapproprié ou inadéquat du patient et de sa maladie. Un exemple courant est le recours aux épreuves d'effort cardiaque pour détecter l'athérosclérose coronarienne, alors même que ces épreuves ne détectent que les limitations du flux sanguin dans les artères coronaires dues à une sténose avancée .

biométrie

La correspondance biométrique, comme la reconnaissance des empreintes digitales , la reconnaissance faciale ou la reconnaissance de l'iris , est susceptible d'erreurs de type I et de type II.

Hypothèse : « La donnée saisie n'identifie personne dans la liste de personnes recherchées ».
Hypothèse nulle : « L'entrée permet d'identifier une personne figurant dans la liste de personnes recherchées ».
Erreur de type I (taux de faux rejets) : La vérité est que la personne figure bien dans la liste de recherche, mais le système conclut, d’après les données, qu’elle n’y figure pas.
Erreur de type II (taux de fausses correspondances) : En réalité, la personne ne figure pas dans la liste de recherche, mais le système conclut qu'il s'agit de la personne recherchée d'après les données.

La probabilité d'erreurs de type I est appelée « taux de faux rejet » (FRR) ou « taux de fausse non-correspondance » (FNMR), tandis que la probabilité d'erreurs de type II est appelée « taux de fausse acceptation » (FAR) ou « taux de fausse correspondance » (FMR).

Si le système est conçu pour rarement identifier les suspects, la probabilité d'erreurs de type II peut être qualifiée de « taux de fausses alarmes ». En revanche, si le système est utilisé pour la validation (et que l'acceptation est la norme), le taux de fausses alarmes (FAR) mesure la sécurité du système, tandis que le taux de faux rejets (FRR) mesure le niveau de gêne pour l'utilisateur.

Loi

En matière pénale, l'accent est mis sur le fait que toute erreur commise soit une erreur de type II (libérer un accusé par ailleurs coupable) plutôt qu'une erreur de type I (punir une personne innocente pour un crime qu'elle n'a pas commis). C'est pourquoi la charge de la preuve est élevée (culpabilité hors de tout doute raisonnable), l'examen minutieux de la qualification des éléments à charge ou des témoignages par l'accusation est primordial, et l'on se montre sceptique, voire critique, envers les éléments de preuve susceptibles d'être plus préjudiciables que probants (critère d'équilibre de la règle 403).

Des travaux de recherche considérables, remontant à plusieurs siècles, analysent les graves conséquences des erreurs judiciaires dans les procédures pénales, non seulement pour l'accusé, mais aussi pour la perception d'équité de l'ensemble du système judiciaire et la confiance des acteurs de la société dans le traitement sérieux et impartial des allégations d'activité criminelle. Le juriste anglais William Blackstone a formulé le ratio de Blackstone (10:1) pour illustrer le principe selon lequel un système équitable pourrait laisser dix accusés coupables en liberté plutôt que d'emprisonner plus d'une personne innocente.

Ces dernières années, la doctrine juridique et la jurisprudence dominante ont adopté la distinction entre erreurs de type I et de type II afin de disposer d'un vocabulaire plus rigoureux pour analyser les erreurs judiciaires et les condamnations injustifiées. La Cour suprême des États-Unis a utilisé cette distinction dans l'affaire Ballew c. Géorgie , et les juges et professeurs de droit privilégient de plus en plus cette désignation dichotomique aux expressions plus courantes « condamné à tort » ou « acquitté à tort », fréquemment employées dans les travaux antérieurs.

Les travaux de recherche récents et les préoccupations judiciaires se concentrent souvent sur la taille et l'unanimité des jurys comme garanties contre l'erreur de type I (condamner à tort un accusé innocent).

Les jurys restreints de moins de douze jurés ont été critiqués par la Cour suprême des États-Unis, car ils sont plus susceptibles de commettre des erreurs de type I ; par ailleurs, certains juges ont également critiqué la constitution de jurys composés de plus de douze jurés, la jugeant problématique (le juge Anderson de la Cour d’appel du Wisconsin a rédigé une opinion dissidente notable sur ce sujet en 1993 : « En l’absence d’une disposition législative d’ordre public autorisant un accusé à accepter d’être jugé par un jury de plus de douze personnes, il est manifestement erroné de permettre à plus de douze jurés de délibérer. » ). Concernant l’unanimité, le 20 avril 2020, la Cour suprême des États-Unis a statué que le sixième amendement exige un verdict unanime du jury pour condamner un accusé pour une infraction grave, invoquant le risque d’erreur de type I parmi les principales raisons justifiant cette exigence dans les affaires criminelles graves.

Contrôle de sécurité

des contrôles de sécurité aéroportuaires , qui reposent essentiellement sur des inspections visuelles . Les alarmes de sécurité installées sont censées empêcher l'introduction d'armes à bord des avions ; or, elles sont souvent réglées sur une sensibilité tellement élevée qu'elles se déclenchent plusieurs fois par jour pour des objets insignifiants, tels que des clés, des boucles de ceinture, de la monnaie, des téléphones portables et des punaises dans les chaussures.

Hypothèse : « L'objet est une arme ».
Hypothèse nulle : « L'objet n'est pas une arme ».
Erreur de type I (faux positif) : En réalité, l’objet n’est pas une arme, mais le système déclenche quand même une alarme.
Erreur de type II (faux négatif) : En réalité, l'objet est une arme, mais le système reste silencieux pour le moment.

Le rapport entre les faux positifs (identifier un voyageur innocent comme un terroriste) et les vrais positifs (détecter un terroriste potentiel) est donc très élevé ; et comme presque toutes les alarmes sont des faux positifs, la valeur prédictive positive de ces tests de dépistage est très faible.

Le coût relatif des faux résultats détermine la probabilité que les concepteurs de tests laissent ces événements se produire. Dans ce scénario, le coût d'un faux négatif est extrêmement élevé (ne pas détecter une bombe embarquée à bord d'un avion pourrait entraîner des centaines de morts), tandis que celui d'un faux positif est relativement faible (une vérification complémentaire relativement simple). Par conséquent, le test le plus approprié est celui qui présente une faible spécificité statistique mais une sensibilité statistique élevée (un test qui tolère un taux élevé de faux positifs en échange d'un minimum de faux négatifs).

Ordinateurs

Les notions de faux positifs et de faux négatifs sont largement répandues dans le domaine de l'informatique et des applications informatiques, notamment en matière de sécurité informatique , de filtrage des spams , de logiciels malveillants , de reconnaissance optique de caractères et bien d'autres.

Par exemple, dans le cas du filtrage des spams :

Hypothèse : « Le message est un spam ».
Hypothèse nulle : « Le message n'est pas un spam ».
Erreur de type I (faux positif) : Les techniques de filtrage ou de blocage des spams classent à tort un message électronique légitime comme spam et, par conséquent, interfèrent avec sa livraison.
Erreur de type II (faux négatif) : un courriel indésirable n'est pas détecté comme tel, mais est classé comme non indésirable.

Bien que la plupart des techniques anti-spam permettent de bloquer ou de filtrer un pourcentage élevé de courriels indésirables, y parvenir sans générer un nombre important de faux positifs est une tâche bien plus complexe. Un faible taux de faux négatifs est un indicateur de l'efficacité du filtrage anti-spam.