Test d'hypothèse statistique

Statistique de test	Type de test
statistique t	Test t de régression
Statistique F	ANOVA MANOVA ANCOVA
statistique z	test z
statistique x²	Test du chi carré
Quelques-unes des statistiques de test les plus courantes et leurs tests ou modèles statistiques correspondants.

Un test d'hypothèse statistique est une méthode d'inférence statistique utilisée pour déterminer si les données fournissent des preuves suffisantes pour rejeter une hypothèse particulière. Un test d'hypothèse statistique implique généralement le calcul d'une statistique de test . La décision est ensuite prise, soit en comparant la statistique de test à une valeur critique , soit, de manière équivalente, en évaluant la p -valeur calculée à partir de la statistique de test. Environ 100 tests statistiques spécialisés sont utilisés.

Définition des termes

L'objectif d'un test d'hypothèse est de déterminer si certaines propriétés d'une population statistique sont vraies à partir de l'examen des données d'un échantillon . Généralement, la population est modélisée par une variable aléatoire dont la distribution possède des paramètres inconnus. Par exemple, un essai clinique peut chercher à établir l'efficacité d'un médicament particulier dans le traitement de l'hypertension artérielle, la variable aléatoire étant alors « la variation de la pression artérielle observée chez un patient prenant ce médicament ». Une hypothèse pourrait être, par exemple, « la variation moyenne de la pression artérielle est nulle » ou « la variation moyenne de la pression artérielle est négative ». De manière générale, toute affirmation concernant les paramètres décrivant une population peut constituer une hypothèse (mais non une affirmation concernant l'échantillon).

Le test compare deux hypothèses : une hypothèse nulle par défaut (notée H₀ ₎ et sa négation, l’ hypothèse alternative (H₁ ₎ . Généralement, le test sélectionne l’hypothèse nulle selon laquelle l’intervention étudiée est sans effet, ou que le paramètre de population prend une valeur « évidente ». Une statistique de test est calculée à partir des données de l’échantillon, et le chercheur calcule la probabilité conditionnelle d’observer une valeur au moins aussi extrême, en supposant que l’hypothèse nulle est vraie. Si cette probabilité (appelée p-valeur ) est inférieure au seuil de signification du test (noté α ), alors l’hypothèse nulle est rejetée. Le test ne conclut pas que l’hypothèse nulle est fausse, ni que la probabilité qu’elle soit fausse est inférieure à α . ${\displaystyle \alpha <semantics><mrow><mstyle><mi>α</mi></mstyle></mrow><annotation>{\displaystyle \alpha }</annotation></semantics></math><img src=$ ${\displaystyle \alpha <semantics><mrow><mstyle><mi>α</mi></mstyle></mrow><annotation>{\displaystyle \alpha }</annotation></semantics></math><img src=$

Comme il est généralement impossible d'établir avec certitude si l'hypothèse testée est vraie ou fausse à partir d'un échantillon, la conclusion d'un test d'hypothèse n'est pas forcément correcte. Il existe deux types d'erreurs possibles :

Une erreur de type I , où l'hypothèse nulle est rejetée alors qu'elle est vraie, avec une probabilité de 1/2 . Ce seuil est identique au niveau de signification du test. ${\displaystyle \alpha =P({ ext{reject }}H_{0}|H_{0}) <semantics><mrow><mstyle><mi>α</mi><mo>=</mo><mi>P</mi><mo>(</mo><mrow><mtext>rejeter </mtext></mrow><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mrow><mo>|</mo></mrow><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mo>)</mo></mstyle></mrow><annotation>{\displaystyle \alpha =P({ ext{rejeter }}H_{0}|H_{0})}</annotation></semantics></math><img src=$
Une erreur de type II , dans laquelle l'hypothèse nulle est acceptée alors que l'hypothèse alternative est vraie, avec une probabilité donnée, est appelée la puissance du test. ${\displaystyle \beta =P({ ext{accept }}H_{0}|H_{1}) <semantics><mrow><mstyle><mi>β</mi><mo>=</mo><mi>P</mi><mo>(</mo><mrow><mtext>accepter </mtext></mrow><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mrow><mo>|</mo></mrow><msub><mi>H</mi><mrow><mn>1</mn></mrow></msub><mo>)</mo></mstyle></mrow><annotation>{\displaystyle \beta =P({ ext{accepter }}H_{0}|H_{1})}</annotation></semantics></math><img src=$ ${\displaystyle 1-\beta <semantics><mrow><mstyle><mn>1</mn><mo>−</mo><mi>β</mi></mstyle></mrow><annotation>{\displaystyle 1-\beta }</annotation></semantics></math><img src=$

Quelques définitions supplémentaires :

Hypothèse simple : Toute hypothèse qui spécifie complètement la distribution de la population.
Hypothèse composite : Toute hypothèse qui ne spécifie pas complètement la distribution de la population.
Données positives : données permettant au chercheur de rejeter une hypothèse nulle.

Les valeurs critiques d'un test statistique définissent les limites de la région d'acceptation du test. La région d'acceptation est l'ensemble des valeurs de la statistique de test pour lesquelles l'hypothèse nulle n'est pas rejetée. Selon la forme de la région d'acceptation, il peut y avoir une ou plusieurs valeurs critiques.
- Zone de rejet /Région critique : L'ensemble des valeurs de la statistique de test pour lesquelles l'hypothèse nulle est rejetée.
Taille : Pour les hypothèses simples, il s’agit de la probabilité que le test rejette incorrectement l’hypothèse nulle. C’est le taux de faux positifs . Pour les hypothèses composites, il s’agit du supremum de la probabilité de rejeter l’hypothèse nulle pour tous les cas couverts par cette hypothèse. Le complément du taux de faux positifs est appelé spécificité en biostatistique . (« Il s’agit d’un test spécifique. Puisque le résultat est positif, nous pouvons affirmer avec certitude que le patient est atteint de la maladie. ») Voir les définitions complètes de la sensibilité, de la spécificité et des erreurs de type I et de type II .
Test de signification statistique : Précurseur du test d’hypothèse statistique (voir la section Origines). Un résultat expérimental était considéré commestatistiquement significatifsi l’échantillon était suffisamment incompatible avec l’hypothèse nulle. Cette notion était tour à tour perçue comme relevant du bon sens, comme une heuristique pragmatique pour identifier des résultats expérimentaux pertinents, comme une convention établissant un seuil de preuve statistique ou encore comme une méthode d’interprétation des données. Le test d’hypothèse statistique a conféré à ce concept une rigueur mathématique et une cohérence philosophique en explicitant l’hypothèse alternative. Le terme est aujourd’hui employé de manière imprécise pour désigner la version moderne, qui fait désormais partie intégrante des tests d’hypothèses statistiques.
Test conservateur : Un test est conservateur si, lorsqu’il est construit pour un niveau de signification nominal donné, la probabilité réelle de rejeter incorrectement l’hypothèse nulle n’est jamais supérieure au niveau nominal.
Test exact

Un test d'hypothèse statistique compare une statistique de test ( par exemple, z ou t ) à un seuil. La statistique de test (dont la formule figure dans le tableau ci-dessous) est optimale. Pour un niveau donné de risque d'erreur de type I, l'utilisation de ces statistiques minimise le risque d'erreur de type II (ce qui revient à maximiser la puissance). Les termes suivants décrivent les tests en termes d'optimalité :

Test le plus puissant : pour une taille ou un niveau de signification donné , le test ayant la plus grande puissance (probabilité de rejet) pour une valeur donnée du ou des paramètres testés, contenus dans l’hypothèse alternative.
Test uniformément le plus puissant (UMP)

Histoire

Alors que les tests d'hypothèses ont été popularisés au début du XXe siècle, des formes primitives ont été utilisées dans les années 1700. La première utilisation est attribuée à John Arbuthnot (1710), suivi par Pierre-Simon Laplace (années 1770), dans l'analyse du rapport des sexes humains à la naissance ; voir § Rapport des sexes humains .

1778 : Pierre Laplace compare les taux de natalité des garçons et des filles dans plusieurs villes européennes. Il affirme : « il est naturel de conclure que ces possibilités sont presque dans le même rapport ». Ainsi, l’hypothèse nulle, selon laquelle les taux de natalité des garçons et des filles devraient être égaux compte tenu de l’opinion courante, est rejetée.

1900 : Karl Pearson met au point le test du χ² pour déterminer « si une forme donnée de courbe de fréquence décrit efficacement les échantillons prélevés dans une population donnée ». L’hypothèse nulle est donc qu’une population est décrite par une distribution prédite par la théorie. Il utilise comme exemple les nombres de cinq et de six dans les données de lancer de dés de Weldon .

1904 : Karl Pearson développe le concept de « contingence » afin de déterminer si les résultats sont indépendants d’un facteur catégoriel donné. L’hypothèse nulle postule ici, par défaut, que deux éléments sont sans lien (par exemple, la formation de cicatrices et les taux de mortalité dus à la variole). L’hypothèse nulle n’est plus prédite par la théorie ou les idées reçues, mais repose sur le principe d’indifférence qui a conduit Fisher et d’autres à rejeter l’utilisation des « probabilités inverses ».

Origines modernes et controverses initiales

Les tests de signification modernes sont en grande partie le fruit des travaux de Karl Pearson ( valeur p , test du χ² de Pearson ), William Sealy Gosset ( distribution t de Student ) et Ronald Fisher (« hypothèse nulle », analyse de variance , « test de signification »), tandis que les tests d'hypothèses ont été développés par Jerzy Neyman et Egon Pearson (fils de Karl). Ronald Fisher a débuté sa carrière en statistique dans une perspective bayésienne (Zabell, 1992), mais il s'est rapidement désenchanté de la subjectivité inhérente à cette approche (notamment l'utilisation du principe d'indifférence pour la détermination des probabilités a priori) et a cherché à proposer une approche plus objective de l'inférence inductive.

Fisher privilégiait une conception expérimentale rigoureuse et des méthodes permettant d'obtenir des résultats à partir d'un petit nombre d'échantillons, en supposant une distribution gaussienne . Neyman (qui collaborait avec le jeune Pearson) mettait l'accent sur la rigueur mathématique et des méthodes permettant d'obtenir davantage de résultats à partir d'un grand nombre d'échantillons et d'une gamme de distributions plus étendue. Les tests d'hypothèses modernes constituent un hybride hétérogène des formulations, méthodes et terminologies de Fisher et de Neyman/Pearson, développées au début du XXe siècle.

Fisher a popularisé le « test de signification ». Il exigeait une hypothèse nulle (correspondant à une distribution de fréquences de population) et un échantillon. Ses calculs (désormais bien connus) permettaient de déterminer s'il fallait rejeter ou non l'hypothèse nulle. Le test de signification n'utilisant pas d'hypothèse alternative, la notion d' erreur de type II (faux négatif) n'existait pas.

La valeur p a été conçue comme un indice informel, mais objectif, destiné à aider le chercheur à déterminer (en fonction d'autres connaissances) s'il convient de modifier ses expériences futures ou de renforcer sa conviction quant à l'hypothèse nulle. Les tests d'hypothèses (et les erreurs de type I/II) ont été élaborés par Neyman et Pearson comme une alternative plus objective à la valeur p de Fisher , également destinés à déterminer le comportement du chercheur, mais sans nécessiter d' inférence inductive de sa part.

Neyman & Pearson considered a different problem to Fisher (which they called "hypothesis testing"). They initially considered two simple hypotheses (both with frequency distributions). They calculated two probabilities and typically selected the hypothesis associated with the higher probability (the hypothesis more likely to have generated the sample). Their method always selected a hypothesis. It also allowed the calculation of both types of error probabilities.

Fisher and Neyman/Pearson clashed bitterly. Neyman/Pearson considered their formulation to be an improved generalization of significance testing (the defining paper was abstract; Mathematicians have generalized and refined the theory for decades). Fisher thought that it was not applicable to scientific research because often, during the course of the experiment, it is discovered that the initial assumptions about the null hypothesis are questionable due to unexpected sources of error. He believed that the use of rigid reject/accept decisions based on models formulated before data is collected was incompatible with this common scenario faced by scientists and attempts to apply this method to scientific research would lead to mass confusion.

The dispute between Fisher and Neyman–Pearson was waged on philosophical grounds, characterized by a philosopher as a dispute over the proper role of models in statistical inference.

Neyman accepted a position in the University of California, Berkeley in 1938, breaking his partnership with Pearson and separating the disputants (who had previously occupied the same building). The dispute between Fisher and Neyman terminated (unresolved after 27 years) with Fisher's death in 1962. Neyman wrote a well-regarded eulogy. Some of Neyman's later publications reported p-values and significance levels.

Null hypothesis significance testing (NHST)

The modern version of hypothesis testing is generally called the null hypothesis significance testing (NHST) and is a hybrid of the Fisher approach with the Neyman-Pearson approach. In 2000, Raymond S. Nickerson wrote an article stating that NHST was (at the time) "arguably the most widely used method of analysis of data collected in psychological experiments and has been so for about 70 years" and that it was at the same time "very controversial".

Cette fusion résulte d'une confusion chez les auteurs de manuels de statistiques (comme l'avait prédit Fisher) dès les années 1940 (mais la détection du signal , par exemple, utilise encore la formulation de Neyman/Pearson). D'importantes différences conceptuelles et de nombreuses réserves, outre celles mentionnées précédemment, ont été ignorées. Neyman et Pearson ont fourni une terminologie plus rigoureuse, des mathématiques plus précises et une philosophie plus cohérente, mais la méthode enseignée aujourd'hui en statistiques générales présente davantage de similitudes avec celle de Fisher qu'avec la leur.

Aux alentours de 1940, les auteurs de manuels de statistiques ont commencé à combiner les deux approches en utilisant la valeur p à la place de la statistique de test (ou des données) pour tester par rapport au « niveau de signification » de Neyman-Pearson.

Une comparaison entre les approches fisherienne et fréquentiste (Neyman-Pearson)
#	Test d'hypothèse nulle de Fisher	Théorie de la décision de Neyman-Pearson
1	Établissez une hypothèse nulle statistique. L'hypothèse nulle ne doit pas nécessairement être une hypothèse nulle (c'est-à-dire une différence nulle).	Formulez deux hypothèses statistiques, H1 et H2, et déterminez les valeurs de α et β ainsi que la taille de l'échantillon avant l'expérience, en vous basant sur une analyse subjective du rapport coût-bénéfice. Ces éléments définissent une zone de rejet pour chaque hypothèse.
2	Indiquez le niveau de signification exact (par exemple, p = 0,051 ou p = 0,049). N’utilisez pas les termes « accepter » ou « rejeter » les hypothèses. Si le résultat n’est pas significatif, ne tirez aucune conclusion et ne prenez aucune décision ; attendez l’obtention de données supplémentaires avant de vous prononcer.	Si les données se situent dans la zone de rejet de H1, acceptez H2 ; sinon, acceptez H1. Accepter une hypothèse ne signifie pas y croire, mais seulement agir comme si elle était vraie.
3	N’utilisez cette procédure que si l’on connaît peu de choses sur le problème en question, et seulement pour tirer des conclusions provisoires dans le cadre d’une tentative de compréhension de la situation expérimentale.	L'utilité de la procédure est limitée, entre autres, aux situations où vous avez une disjonction d'hypothèses (par exemple, soit μ1 = 8 soit μ2 = 10 est vrai) et où vous pouvez faire des compromis coûts-avantages significatifs pour choisir alpha et bêta.

Philosophie

Paul Meehl a soutenu que l' importance épistémologique du choix de l'hypothèse nulle a été largement négligée. Lorsque l'hypothèse nulle est prédite par la théorie, une expérience plus précise constituera un test plus rigoureux de la théorie sous-jacente. Lorsque l'hypothèse nulle est par défaut « absence de différence » ou « absence d'effet », une expérience plus précise constituera un test moins rigoureux de la théorie qui a motivé la réalisation de l'expérience.

Fisher et Neyman s'opposaient à la subjectivité des probabilités. Leurs points de vue ont contribué à l'élaboration de définitions objectives. Le cœur de leur désaccord historique était d'ordre philosophique.

De nombreuses critiques philosophiques des tests d'hypothèses sont abordées par les statisticiens dans d'autres contextes, notamment l'absence de causalité entre corrélation et causalité et la conception des expériences . Les tests d'hypothèses continuent de susciter l'intérêt des philosophes.

Éducation

Les statistiques sont de plus en plus enseignées dans les écoles, et les tests d'hypothèses en font partie intégrante. De nombreuses conclusions rapportées dans la presse grand public (des sondages d'opinion politique aux études médicales) reposent sur des données statistiques. Certains auteurs affirment que ce type d'analyse statistique permet d'appréhender clairement les problèmes liés aux données massives, ainsi que de rendre compte efficacement des tendances et des conclusions tirées de ces données. Ils soulignent toutefois que les auteurs s'adressant à un large public doivent posséder une solide compréhension du domaine afin d'utiliser correctement la terminologie et les concepts. Un cours d'introduction aux statistiques à l'université accorde une grande importance aux tests d'hypothèses – ils représentent parfois la moitié du programme. Des disciplines telles que la littérature et la théologie intègrent désormais des résultats basés sur l'analyse statistique (voir l' Analyseur biblique ). Un cours d'introduction aux statistiques enseigne les tests d'hypothèses comme une méthode structurée. Les tests d'hypothèses sont également enseignés au niveau master et doctorat. Les statisticiens apprennent à concevoir de bonnes procédures de tests statistiques (comme le test z , le test t de Student , le test F et le test du χ²). Les tests d’hypothèses statistiques sont considérés comme un domaine mature au sein des statistiques, mais un développement limité se poursuit.

Une étude universitaire révèle que la méthode d'enseignement rigide des statistiques introductives ne laisse aucune place à l'histoire, à la philosophie ou aux controverses. Les tests d'hypothèses y sont enseignés comme une méthode unifiée et standardisée. Des enquêtes ont montré que les diplômés de ce cours étaient imprégnés de conceptions erronées d'ordre philosophique (sur tous les aspects de l'inférence statistique), conceptions qui persistaient également chez les enseignants. Bien que le problème ait été abordé il y a plus de dix ans, et que les appels à une réforme de l'enseignement se poursuivent, les étudiants obtiennent encore leur diplôme de statistiques avec des conceptions fondamentalement erronées sur les tests d'hypothèses. Parmi les pistes d'amélioration de l'enseignement des tests d'hypothèses, on peut citer l'incitation des étudiants à rechercher les erreurs statistiques dans les articles publiés, l'enseignement de l'histoire des statistiques et la mise en valeur des controverses inhérentes à une discipline généralement perçue comme aride.

Raymond S. Nickerson a commenté :

Le débat autour des tests d'hypothèses nulles (NHST) trouve son origine dans des désaccords persistants entre les principaux contributeurs au développement des théories de la statistique inférentielle sur lesquelles reposent les approches modernes. Gigerenzer et al. (1989) ont examiné en détail la controverse opposant R.A. Fisher d'une part, à Jerzy Neyman et Egon Pearson d'autre part, ainsi que les divergences entre ces deux points de vue et ceux des disciples de Thomas Bayes. Ils ont constaté avec étonnement que la plupart des manuels d'enseignement des NHST ne font guère mention de cette controverse, historique et actuelle. Ce manque de perspective historique précise et de compréhension de la complexité et des fondements philosophiques, parfois controversés, des différentes approches de l'inférence statistique explique en grande partie la facilité apparente avec laquelle les tests statistiques sont mal utilisés et mal interprétés.

Réaliser un test d'hypothèse fréquentiste en pratique

Les étapes typiques de la réalisation d'un test d'hypothèse fréquentiste en pratique sont les suivantes :

Définir une hypothèse (affirmation vérifiable à l'aide de données).
Sélectionnez un test statistique pertinent avec la statistique de test associée T.
Déterminez la distribution de la statistique de test sous l'hypothèse nulle à partir des hypothèses formulées. Dans la plupart des cas, ce résultat sera connu. Par exemple, la statistique de test peut suivre une loi de Student à nombre de degrés de liberté connu, ou une loi normale à moyenne et variance connues.
Sélectionnez un seuil de signification ( α ), soit le taux de faux positifs maximal acceptable . Les valeurs courantes sont 5 % et 1 %.
Calculer à partir des observations la valeur observée t _obs de la statistique de test T .
_{Décidez soit de rejeter l'hypothèse nulle en faveur de l'hypothèse alternative ,} soit de ne pas la rejeter. La règle de décision de Neyman-Pearson consiste à rejeter l'hypothèse nulle H₀ si la valeur observée t _obs se situe dans la région critique, et à ne pas la rejeter dans le cas contraire.

Exemple pratique

La différence entre les deux processus appliqués à l'exemple de la valise radioactive (ci-dessous) :

"Le compteur Geiger indique 10. La limite est de 9. Vérifiez la valise."
« La valeur relevée par le compteur Geiger est élevée ; 97 % des valises sûres présentent des valeurs inférieures. La limite est de 95 %. Vérifiez la valise. »

Le premier rapport est suffisant, le second fournit une explication plus détaillée des données et des raisons pour lesquelles la valise est contrôlée.

Le fait de ne pas rejeter l'hypothèse nulle ne signifie pas que l'hypothèse nulle est « acceptée » en soi (bien que Neyman et Pearson aient utilisé ce terme dans leurs écrits originaux ; voir la section Interprétation ).

Les processus décrits ici sont parfaitement adaptés au calcul. Ils négligent cependant gravement les considérations relatives à la conception des expériences .

Il est particulièrement important d'estimer la taille appropriée des échantillons avant de mener l'expérience.

L'expression « test de signification » a été inventée par le statisticien Ronald Fisher .

Interprétation

Lorsque l'hypothèse nulle est vraie et que les hypothèses statistiques sont vérifiées, la probabilité que la p-valeur soit inférieure ou égale au seuil de signification est au plus égale à . Ceci garantit que le test d'hypothèse conserve son taux de faux positifs spécifié (sous réserve du respect des hypothèses statistiques). ${\displaystyle \alpha <semantics><mrow><mstyle><mi>α</mi></mstyle></mrow><annotation>{\displaystyle \alpha }</annotation></semantics></math><img src=$ ${\displaystyle \alpha <semantics><mrow><mstyle><mi>α</mi></mstyle></mrow><annotation>{\displaystyle \alpha }</annotation></semantics></math><img src=$

La p -valeur est la probabilité d'obtenir, sous l'hypothèse nulle, une statistique de test au moins aussi extrême que celle obtenue. À un seuil de signification de 0,05, on s'attendrait à ce qu'une pièce équilibrée rejette (à tort) l'hypothèse nulle (selon laquelle elle est équilibrée) en moyenne dans 1 test sur 20. La p -valeur n'indique pas la probabilité que l'hypothèse nulle ou son contraire soit correcte (une source fréquente de confusion).

Si la p -valeur est inférieure au seuil de signification choisi (ou, de manière équivalente, si la statistique de test observée se situe dans la région critique), alors l'hypothèse nulle est rejetée au seuil de signification choisi. Si la p -valeur est supérieure ou égale au seuil de signification choisi (ou, de manière équivalente, si la statistique de test observée se situe en dehors de la région critique), alors l'hypothèse nulle n'est pas rejetée au seuil de signification choisi.

Dans l'exemple de la « dame dégustant du thé » (ci-dessous), Fisher exigeait que la dame classe correctement toutes les tasses de thé pour justifier la conclusion que le résultat était peu susceptible d'être dû au hasard. Son test a révélé que si la dame choisissait au hasard (l'hypothèse nulle), il y avait 1,4 % de chances que les résultats observés (un thé parfaitement classé) se produisent.

Utilisation et importance

Les statistiques sont utiles pour analyser la plupart des ensembles de données. Cela est tout aussi vrai pour les tests d'hypothèses, qui peuvent justifier des conclusions même en l'absence de théorie scientifique. Dans l'exemple de la dame dégustant du thé, il semblait évident qu'il n'y avait aucune différence entre verser du lait dans du thé et verser du thé dans du lait. Or, les données ont contredit cette évidence.

Les applications concrètes des tests d’hypothèses comprennent :

Tester si les hommes sont plus nombreux que les femmes à souffrir de cauchemars
Établir la paternité des documents
Évaluation de l'effet de la pleine lune sur le comportement
Déterminer la portée à laquelle une chauve-souris peut détecter un insecte par écho.
Déterminer si la moquette hospitalière entraîne une augmentation des infections
Choisir le meilleur moyen d'arrêter de fumer
Vérifier si les autocollants de pare-chocs reflètent le comportement du propriétaire de la voiture
Tester les affirmations des analystes graphologues

Les tests d'hypothèses statistiques jouent un rôle important dans l'ensemble des statistiques et dans l'inférence statistique . Par exemple, Lehmann (1992), dans une recension de l'article fondamental de Neyman et Pearson (1933), affirme : « Néanmoins, malgré leurs imperfections, le nouveau paradigme formulé dans l'article de 1933, et les nombreux développements réalisés dans son cadre, continuent de jouer un rôle central dans la théorie et la pratique des statistiques et devraient continuer à le faire dans un avenir prévisible. »

Les tests de signification ont longtemps été l'outil statistique privilégié dans certaines sciences sociales expérimentales (plus de 90 % des articles du Journal of Applied Psychology au début des années 1990) . D'autres domaines ont préféré l'estimation de paramètres (par exemple, la taille de l'effet ). Les tests de signification sont utilisés comme substitut à la comparaison traditionnelle entre la valeur prédite et le résultat expérimental, qui est au cœur de la méthode scientifique . Lorsqu'une théorie ne permet que de prédire le signe d'une relation, un test d'hypothèse unilatéral peut être configuré de sorte que seul un résultat statistiquement significatif confirme la théorie. Cette forme d'évaluation théorique est l'application des tests d'hypothèse la plus critiquée.

Mises en garde

« Si le gouvernement exigeait que les procédures statistiques portent des étiquettes d’avertissement comme celles figurant sur les médicaments, la plupart des méthodes d’inférence auraient en effet de longues étiquettes. » Cette mise en garde s’applique aux tests d’hypothèses et à leurs alternatives.

La réussite d'un test d'hypothèse est associée à une probabilité et à un taux d'erreur de type I. La conclusion peut être erronée.

La conclusion du test n'est valable que si l'échantillon sur lequel elle repose est de qualité. La conception de l'expérience est donc cruciale. Plusieurs effets inattendus ont été observés, notamment :

L' astucieux effet Hans . Un cheval semblait capable d'effectuer des calculs arithmétiques simples.
L' effet Hawthorne . Les ouvriers étaient plus productifs dans un meilleur éclairage, et encore plus productifs dans un éclairage plus faible.
L’ effet placebo . Des pilules sans aucun ingrédient actif se sont révélées remarquablement efficaces.

Une analyse statistique de données trompeuses aboutit à des conclusions erronées. La question de la qualité des données peut être plus complexe. En matière de prévision , par exemple, il n'existe aucun consensus sur une mesure de la précision des prévisions. En l'absence d'une telle mesure, aucune décision fondée sur des mesures ne sera exempte de controverses.

Biais de publication : les résultats statistiquement non significatifs sont moins susceptibles d’être publiés, ce qui peut biaiser la littérature scientifique.

Tests multiples : lorsque plusieurs tests d’hypothèse nulle vrais sont effectués simultanément sans ajustement, la probabilité globale d’erreur de type I est supérieure au niveau alpha nominal.

Ceux qui prennent des décisions cruciales en se basant sur les résultats d'un test d'hypothèse ont intérêt à examiner les détails plutôt que de se fier uniquement à la conclusion. En sciences physiques, la plupart des résultats ne sont pleinement acceptés qu'après confirmation indépendante.

Tests d'hypothèses bootstrap non paramétriques

Bootstrap-based resampling methods can be used for null hypothesis testing. A bootstrap creates numerous simulated samples by randomly resampling (with replacement) the original, combined sample data, assuming the null hypothesis is correct. The bootstrap is very versatile as it is distribution-free and it does not rely on restrictive parametric assumptions, but rather on empirical approximate methods with asymptotic guarantees. Traditional parametric hypothesis tests are more computationally efficient but make stronger structural assumptions. In situations where computing the probability of the test statistic under the null hypothesis is hard or impossible (due to perhaps inconvenience or lack of knowledge of the underlying distribution), the bootstrap offers a viable method for statistical inference.

Examples

Human sex ratio

The earliest use of statistical hypothesis testing is generally credited to the question of whether male and female births are equally likely (null hypothesis), which was addressed in the 1700s by John Arbuthnot (1710), and later by Pierre-Simon Laplace (1770s).

Arbuthnot examined birth records in London for each of the 82 years from 1629 to 1710, and applied the sign test, a simple non-parametric test. In every year, the number of males born in London exceeded the number of females. Considering more male or more female births as equally likely, the probability of the observed outcome is 0.5⁸², or about 1 in 4,836,000,000,000,000,000,000,000; in modern terms, this is the p-value. Arbuthnot concluded that this is too small to be due to chance and must instead be due to divine providence: "From whence it follows, that it is Art, not Chance, that governs." In modern terms, he rejected the null hypothesis of equally likely male and female births at the p = 1/2⁸² significance level.

Laplace considered the statistics of almost half a million births. The statistics showed an excess of boys compared to girls. He concluded by calculation of a p-value that the excess was a real, but unexplained, effect.

Lady tasting tea

Dans un exemple célèbre de test d'hypothèse, connu sous le nom de « Dame dégustant le thé » [ le Dr Muriel Bristol , collègue de Fisher, affirmait pouvoir déterminer si le thé ou le lait avait été versé en premier dans une tasse. Fisher proposa de lui présenter huit tasses, quatre de chaque variété, dans un ordre aléatoire. On pouvait alors se demander quelle était la probabilité qu'elle obtienne le nombre de bonnes réponses par simple hasard. L'hypothèse nulle était que la Dame était incapable de cette capacité. La statistique de test consistait simplement à compter le nombre de réussites dans la sélection des quatre tasses. La région critique correspondait au cas unique de quatre réussites sur quatre possibles, selon un critère de probabilité conventionnel (< 5 %). Une séquence de quatre réussites correspond à une combinaison sur 70 possibles (p ≈ 1,4 %). Fisher affirmait qu'aucune hypothèse alternative n'était (jamais) nécessaire. La Dame identifia correctement chaque tasse , ce qui serait considéré comme un résultat statistiquement significatif.

jeu de cartes Clairvoyant

On teste la clairvoyance d'une personne (le sujet) . On lui montre 25 fois le verso d'une carte à jouer choisie au hasard et on lui demande à quelle couleur elle appartient . Le nombre de bonnes réponses est noté X.

Dans la recherche de preuves de leur clairvoyance, l'hypothèse nulle est pour l'instant que la personne n'est pas clairvoyante. L'hypothèse alternative est : la personne est (plus ou moins) clairvoyante.

Si l'hypothèse nulle est valide, la personne testée ne peut que deviner. Pour chaque carte, la probabilité (fréquence relative) d'apparition d'une couleur donnée est de 1/4. Si l'hypothèse alternative est valide, la personne testée prédira correctement la couleur avec une probabilité supérieure à 1/4. Nous appellerons p la probabilité de deviner correctement . Les hypothèses sont donc les suivantes :

hypothèse nulle (simple supposition) ${\displaystyle { ext{:}}\qquad H_{0}:p={ frac {1}{4 <semantics><mrow><mstyle><mrow><mtext>:</mtext></mrow><mspace></mspace><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mo>:</mo><mi>p</mi><mo>=</mo><mrow><mstyle><mfrac><mn>1</mn><mn>4</mn></mfrac></mstyle></mrow></mstyle></mrow><annotation>{\displaystyle { ext{:}}\qquad H_{0}:p={ frac {1}{4}}}</annotation></semantics></math><img src=$

hypothèse alternative (véritable clairvoyant). ${ frac {1}{4 : H_{1} : p > \frac{1}{4}$ { frac {1}{4

Lorsque le sujet prédit correctement les 25 cartes, nous le considérons comme clairvoyant et rejetons l'hypothèse nulle. Il en va de même avec 24 ou 23 prédictions correctes. En revanche, avec seulement 5 ou 6 prédictions correctes, rien ne justifie de le considérer comme tel. Mais qu'en est-il de 12 ou 17 prédictions correctes ? Quel est le nombre critique, c , de prédictions correctes à partir duquel nous considérons le sujet comme clairvoyant ? Comment déterminer la valeur critique c ? En choisissant c = 25 (c'est-à-dire que nous n'acceptons la clairvoyance que lorsque toutes les cartes sont prédites correctement), nous sommes plus exigeants qu'avec c = 10. Dans le premier cas, presque aucun sujet ne sera reconnu comme clairvoyant ; dans le second, un certain nombre réussiront le test. En pratique, chacun décide du niveau d'exigence. Autrement dit, il décide de la fréquence à laquelle on accepte une erreur de type I ( faux positif ). Avec c = 25, la probabilité d'une telle erreur est de :

{\displaystyle P({ ext{reject }}H_{0}\mid H_{0}{ ext{ is valid}})=P\left(X=25\mid p={\frac {1}{4}} ight)=\left({\frac {1}{4}} ight)^{25}\approx 10^{-15 <semantics><mrow><mstyle><mi>P</mi><mo>(</mo><mrow><mtext>rejeter </mtext></mrow><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mo>∣</mo><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mrow><mtext> est valide</mtext></mrow><mo>)</mo><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mrow><mi>X</mi><mo>=</mo><mn>25</mn><mo>∣</mo><mi>p</mi><mo>=</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow></mrow><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow><mo>)</mo></mrow><mrow><mn>25</mn></mrow></msup><mo>≈</mo><msup><mn>10</mn><mrow><mo>−</mo><mn>15</mn></mrow></msup></mstyle></mrow><annotation>{\displaystyle P({ ext{rejeter }}H_{0}\mid H_{0}{ ext{ est valide}})=P\left(X=25\mid p={\frac {1}{4}} ight)=\left({\frac {1}{4}} ight)^{25}\approx 10^{-15}}</annotation></semantics></math></span><img src=

et donc, très faible. La probabilité d'un faux positif est la probabilité de deviner correctement au hasard à chaque fois sur 25.

En étant moins critique, avec c = 10, on obtient :

{\displaystyle P({ ext{reject }}H_{0}\mid H_{0}{ ext{ is valid}})=P\left(X\geq 10\mid p={\frac {1}{4}} ight)=\sum _{k=10}^{25}P\left(X=k\mid p={\frac {1}{4}} ight)=\sum _{k=10}^{25}{\binom {25}{k}}\left(1-{\frac {1}{4}} ight)^{25-k}\left({\frac {1}{4}} ight)^{k}\approx 0.0713 <semantics><mrow><mstyle><mi>P</mi><mo>(</mo><mrow><mtext>rejeter </mtext></mrow><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mo>∣</mo><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mrow><mtext> est valide</mtext></mrow><mo>)</mo><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mrow><mi>X</mi><mo>≥</mo><mn>10</mn><mo>∣</mo><mi>p</mi><mo>=</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow></mrow><mo>)</mo></mrow><mo>=</mo><munderover><mo>∑</mo><mrow><mi>k</mi><mo>=</mo><mn>10</mn></mrow><mrow><mn>25</mn></mrow></munderover><mi>P</mi><mrow><mo>(</mo><mrow><mi>X</mi><mo>=</mo><mi>k</mi><mo>∣</mo><mi>p</mi><mo>=</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow></mrow><mo>)</mo></mrow><mo>=</mo><munderover><mo>∑</mo><mrow><mi>k</mi><mo>=</mo><mn>10</mn></mrow><mrow><mn>25</mn></mrow></munderover><mrow><mrow><mrow><mo>(</mo></mrow><mfrac><mn>25</mn><mi>k</mi></mfrac><mrow><mo>)</mo></mrow></mrow></mrow><msup><mrow><mo>(</mo><mrow><mn>1</mn><mo>−</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow></mrow><mo>)</mo></mrow><mrow><mn>25</mn><mo>−</mo><mi>k</mi></mrow></msup><msup><mrow><mo>(</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow><mo>)</mo></mrow><mrow><mi>k</mi></mrow></msup><mo>≈</mo><mn>0,0713</mn></mstyle></mrow><annotation>{\displaystyle P({ ext{rejeter }}H_{0}\mid H_{0}{ ext{ est valide}})=P\left(X\geq 10\mid p={\frac {1}{4}} ight)=\sum _{k=10}^{25}P\left(X=k\mid p={\frac {1}{4}} ight)=\sum _{k=10}^{25}{\binom {25}{k}}\left(1-{\frac {1}{4}} ight)^{25-k}\left({\frac {1}{4}} ight)^{k}\approx 0.0713}</annotation></semantics></math></span><img src=

Ainsi, c = 10 entraîne une probabilité de faux positif beaucoup plus élevée.

Avant de réaliser le test, on détermine la probabilité maximale acceptable d'une erreur de type I ( α ). Généralement, on choisit des valeurs comprises entre 1 % et 5 %. (Si le taux d'erreur maximal acceptable est nul, un nombre infini de réponses correctes est requis.) En fonction de ce taux d'erreur de type I, on calcule la valeur critique c . Par exemple, si l'on choisit un taux d'erreur de 1 %, c se calcule comme suit :

{\displaystyle P({ ext{reject }}H_{0}\mid H_{0}{ ext{ is valid}})=P\left(X\geq c\mid p={\frac {1}{4}} ight)\leq 0.01 <semantics><mrow><mstyle><mi>P</mi><mo>(</mo><mrow><mtext>rejeter </mtext></mrow><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mo>∣</mo><msub><mi>H</mi><mrow><mn>0</mn></mrow></msub><mrow><mtext> est valide</mtext></mrow><mo>)</mo><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mrow><mi>X</mi><mo>≥</mo><mi>c</mi><mo>∣</mo><mi>p</mi><mo>=</mo><mrow><mfrac><mn>1</mn><mn>4</mn></mfrac></mrow></mrow><mo>)</mo></mrow><mo>≤</mo><mn>0,01</mn></mstyle></mrow><annotation>{\displaystyle P({ ext{rejeter }}H_{0}\mid H_{0}{ ext{ est valide}})=P\left(X\geq c\mid p={\frac {1}{4}} ight)\leq 0.01}</annotation></semantics></math></span><img src=

Parmi tous les nombres c possédant cette propriété, nous choisissons le plus petit afin de minimiser la probabilité d'une erreur de type II, un faux négatif . Pour l'exemple ci-dessus, nous sélectionnons : . ${\displaystyle c=13 <semantics><mrow><mstyle><mi>c</mi><mo>=</mo><mn>13</mn></mstyle></mrow><annotation>{\displaystyle c=13}</annotation></semantics></math><img src=$

Variantes et sous-classes

Les tests d'hypothèses statistiques constituent une technique fondamentale tant pour l'inférence fréquentiste que pour l'inférence bayésienne , bien que ces deux types d'inférence présentent des différences notables. Ces tests définissent une procédure qui contrôle (fixe) la probabilité de conclure à tort que l' hypothèse nulle (position par défaut ) est incorrecte. Cette procédure repose sur la probabilité d'occurrence d'un ensemble d'observations si l'hypothèse nulle était vraie. Cette probabilité de se tromper ne correspond ni à la probabilité que l'hypothèse nulle soit vraie, ni à la probabilité qu'une hypothèse alternative spécifique soit vraie. Ceci contraste avec d'autres techniques de la théorie de la décision où les hypothèses nulle et alternative sont traitées de manière plus équivalente.

Une approche bayésienne naïve des tests d'hypothèses consiste à fonder les décisions sur la probabilité a posteriori , mais cette approche échoue lorsqu'il s'agit de comparer des hypothèses ponctuelles et continues. D'autres approches de prise de décision, comme la théorie bayésienne de la décision , cherchent à équilibrer les conséquences de décisions incorrectes pour toutes les possibilités, plutôt que de se concentrer sur une seule hypothèse nulle. Plusieurs autres approches permettant de prendre une décision à partir des données sont disponibles via la théorie de la décision et les décisions optimales , dont certaines présentent des propriétés intéressantes. Les tests d'hypothèses restent néanmoins une approche dominante de l'analyse des données dans de nombreux domaines scientifiques. Les extensions de la théorie des tests d'hypothèses incluent l'étude de la puissance des tests, c'est-à-dire la probabilité de rejeter correctement l'hypothèse nulle sachant qu'elle est fausse. Ces considérations peuvent être utilisées pour déterminer la taille de l'échantillon avant la collecte des données.

Test d'hypothèse de Neyman-Pearson

On peut illustrer le test d'hypothèse de Neyman-Pearson (ou test de signification statistique de l'hypothèse nulle) en modifiant l'exemple de la valise radioactive. Si la « valise » est en réalité un conteneur blindé pour le transport de matières radioactives, un test peut être utilisé pour choisir parmi trois hypothèses : absence de source radioactive, présence d'une source, présence des deux sources (ou de toutes les sources). Ce test peut être requis pour des raisons de sécurité, et des mesures doivent être prises dans chaque cas. Le lemme de Neyman-Pearson stipule qu'un bon critère de sélection des hypothèses est le rapport de leurs probabilités ( rapport de vraisemblance ). Une méthode simple consiste à sélectionner l'hypothèse ayant la plus forte probabilité pour les comptages Geiger observés. Le résultat typique est intuitif : peu de comptages impliquent l'absence de source, un nombre élevé de comptages implique deux sources et un nombre intermédiaire implique une seule source. Il est important de noter qu'il est généralement difficile de prouver une hypothèse nulle. Les hypothèses nulles doivent au moins être falsifiables .

La théorie de Neyman-Pearson permet de prendre en compte à la fois les probabilités a priori et les coûts des actions découlant des décisions. Les premières permettent à chaque test de considérer les résultats des tests précédents (contrairement aux tests de signification de Fisher). Les seconds permettent de considérer des aspects économiques (par exemple) ainsi que les probabilités. Le rapport de vraisemblance demeure un bon critère de sélection des hypothèses.

Les deux formes de tests d'hypothèses reposent sur des formulations de problèmes différentes. Le test original est analogue à une question vrai/faux ; le test de Neyman-Pearson s'apparente davantage à un questionnaire à choix multiples. Selon Tukey , le premier aboutit à une conclusion fondée uniquement sur des preuves solides, tandis que le second prend une décision en fonction des preuves disponibles. Bien que les deux tests semblent très différents, tant mathématiquement que philosophiquement, des développements ultérieurs ont conduit à l'affirmation inverse. Prenons l'exemple de nombreuses sources radioactives de très petite taille. Les hypothèses deviennent alors 0, 1, 2, 3… grains de sable radioactif. La distinction entre l'absence ou la présence de radiation (Fisher) et l'absence de radiation par rapport à toutes les alternatives (Neyman-Pearson) est minime. L'article majeur de Neyman-Pearson de 1933 a également examiné les hypothèses composites (celles dont la distribution inclut un paramètre inconnu). Un exemple a démontré l'optimalité du test t de Student : « il ne peut exister de meilleur test pour l'hypothèse considérée » (p. 321). La théorie de Neyman-Pearson a démontré l'optimalité des méthodes fisheriennes dès son origine.

Le test de signification de Fisher s'est avéré un outil statistique flexible et populaire, malgré un potentiel de développement mathématique limité. Le test d'hypothèses de Neyman-Pearson est considéré comme un pilier des statistiques mathématiques , ayant créé un nouveau paradigme dans ce domaine. Il a également stimulé de nouvelles applications en contrôle statistique des processus , en théorie de la détection , en théorie de la décision et en théorie des jeux . Ces deux formulations ont connu un certain succès, mais de nature différente.

Le débat sur les formulations reste ouvert. La science utilise principalement la formulation de Fisher (légèrement modifiée), telle qu'enseignée dans les cours d'introduction aux statistiques. Les statisticiens étudient la théorie de Neyman-Pearson en master. Les mathématiciens s'enorgueillissent d'avoir unifié les formulations. Les philosophes les considèrent séparément. Les avis savants les jugent tour à tour concurrentes (Fisher contre Neyman), incompatibles ou complémentaires . Le débat s'est complexifié depuis que l'inférence bayésienne a acquis une certaine légitimité.

La terminologie est incohérente. Les tests d'hypothèses peuvent désigner n'importe quelle combinaison de deux formulations ayant évolué au fil du temps. Toute discussion sur les tests de signification par rapport aux tests d'hypothèses est donc doublement sujette à confusion.

Fisher considérait les tests d'hypothèses comme une stratégie utile pour le contrôle qualité industriel, mais il contestait fermement leur utilité pour les scientifiques. Les tests d'hypothèses permettent de calculer les statistiques de test utilisées pour les tests de signification. Le concept de puissance est utile pour expliquer les conséquences de l'ajustement du seuil de signification et est largement utilisé pour déterminer la taille de l'échantillon . Les deux méthodes restent philosophiquement distinctes. Elles produisent généralement (mais pas toujours ) le même résultat mathématique. Le résultat privilégié dépend du contexte. Bien que la fusion actuelle des théories de Fisher et de Neyman-Pearson ait été fortement critiquée, une modification de cette fusion pour atteindre des objectifs bayésiens a été envisagée.

Critique

La plupart des critiques formulées à l'encontre des tests d'hypothèses statistiques peuvent se résumer aux points suivants :

L’interprétation d’une valeur p dépend de la règle d’arrêt et de la définition de la comparaison multiple. La première change souvent au cours d’une étude et la seconde est inévitablement ambiguë (c’est-à-dire que les valeurs p dépendent à la fois des données observées et des autres données possibles qui auraient pu être observées mais ne l’ont pas été).
La confusion résulte (en partie) de la combinaison des méthodes de Fisher et de Neyman-Pearson qui sont conceptuellement distinctes.
L’accent est mis sur la signification statistique à l’exclusion de l’estimation et de la confirmation par des expériences répétées.
L’exigence rigide d’une signification statistique comme critère de publication entraîne un biais de publication . La plupart des critiques sont indirectes. Plutôt que d’être erronés, les tests d’hypothèses statistiques sont mal compris, surutilisés et mal utilisés.
Lorsqu'on utilise ce test pour détecter une différence entre des groupes, un paradoxe apparaît. À mesure que la conception expérimentale s'améliore (par exemple, en augmentant la précision des mesures et la taille de l'échantillon), le test devient plus permissif. À moins d'accepter l'hypothèse absurde que toutes les sources de bruit dans les données s'annulent complètement, la probabilité de trouver une signification statistique dans un sens ou dans l'autre tend vers 100 % . Or, cette hypothèse absurde selon laquelle la différence moyenne entre deux groupes ne peut être nulle implique que les données ne peuvent être indépendantes et identiquement distribuées (iid), car la différence attendue entre deux sous-groupes quelconques de variables aléatoires iid est nulle ; par conséquent, l'hypothèse iid est elle aussi absurde.
Plusieurs niveaux de considérations philosophiques entrent en jeu. La probabilité d'une signification statistique dépend des décisions prises par les expérimentateurs/analystes. Si ces décisions reposent sur des conventions, elles sont qualifiées d'arbitraires ou d'irréfléchies , tandis que celles qui ne le sont pas peuvent être qualifiées de subjectives. Afin de minimiser les erreurs de type II, il est recommandé d'utiliser de grands échantillons. En psychologie, on considère que pratiquement toutes les hypothèses nulles sont fausses pour des échantillons suffisamment grands, de sorte qu'« il est généralement absurde de mener une expérience dans le seul but de rejeter l'hypothèse nulle » . « Les résultats statistiquement significatifs sont souvent trompeurs » en psychologie. La signification statistique n'implique pas la signification pratique, et la corrélation n'implique pas la causalité . Remettre en question l'hypothèse nulle est donc loin de soutenir directement l'hypothèse de recherche.
« [Cela] ne nous dit pas ce que nous voulons savoir. » Des listes de dizaines de plaintes sont disponibles.

Les critiques et les partisans s'accordent globalement sur les caractéristiques des tests d'hypothèse nulle (THN) : bien qu'ils puissent fournir des informations cruciales, ils ne constituent pas l'unique outil d'analyse statistique . Le rejet de l'hypothèse nulle ne confirme pas nécessairement l'hypothèse de recherche. La controverse persistante porte sur le choix des meilleures pratiques statistiques à court terme, compte tenu des pratiques actuelles. Cependant, une conception de recherche adéquate peut minimiser ce problème. Les critiques préconisent l'interdiction pure et simple des THN, ce qui impliquerait un abandon complet de ces pratiques , tandis que les partisans suggèrent un changement moins radical

La controverse autour des tests de signification, et notamment leurs effets sur le biais de publication, a eu plusieurs conséquences. L' Association américaine de psychologie (APA ) a renforcé ses exigences en matière de rapports statistiques après examen , les éditeurs de revues médicales ont reconnu l'obligation de publier certains résultats non statistiquement significatifs afin de lutter contre le biais de publication , et une revue ( Journal of Articles in Support of the Null Hypothesis ) a été créée pour publier exclusivement ces résultats . Les manuels scolaires ont intégré certaines mises en garde et approfondi la présentation des outils nécessaires à l'estimation de la taille de l'échantillon requise pour obtenir des résultats significatifs. Peu d'organisations majeures ont abandonné l'utilisation des tests de signification, bien que certaines aient envisagé cette possibilité. Par exemple, en 2023, les rédacteurs du Journal of Physiology « recommandent fortement l’utilisation de méthodes d’estimation pour ceux qui publient dans The Journal » (c’est-à-dire l’ampleur de la taille de l’effet (pour permettre aux lecteurs de juger si une découverte a une pertinence pratique, physiologique ou clinique) et les intervalles de confiance pour communiquer la précision de cette estimation), en disant « En fin de compte, c’est l’importance physiologique des données qui devrait préoccuper le plus ceux qui publient dans The Journal of Physiology, plutôt que la signification statistique. »

Les valeurs p sont des variables aléatoires. Par conséquent, la décision d'un test statistique est une variable aléatoire ; pour comprendre sa stabilité, des approches telles que les suivantes ont été proposées :

Amorçage de la distribution d'échantillonnage des valeurs p

Alternatives

Un consensus se dégage parmi les critiques : les statistiques ne doivent pas aboutir à une conclusion ou une décision d’acceptation ou de rejet, mais à une valeur estimée assortie d’un intervalle de confiance ; cette approche d’analyse des données est généralement désignée sous le terme de statistiques d’estimation . Les statistiques d’estimation peuvent être mises en œuvre par des méthodes fréquentistes .

Les critiques des tests de signification préconisent de fonder l'inférence moins sur les valeurs p et davantage sur les intervalles de confiance pour l'importance des tailles d'effet, les intervalles de prédiction pour la fiabilité, les réplications et les extensions pour la reproductibilité, et les méta-analyses pour la généralité : Cependant, aucune de ces alternatives proposées ne permet de prendre une décision de manière intrinsèque. Lehmann a indiqué que la théorie des tests d'hypothèses peut être présentée en termes de conclusions/décisions, de probabilités ou d'intervalles de confiance : « La distinction entre les différentes approches réside principalement dans la présentation et l'interprétation des résultats. »

L'inférence bayésienne est une alternative proposée aux tests de signification. (Nickerson cite 10 sources la suggérant, dont Rozeboom (1960)). Par exemple, l'estimation bayésienne des paramètres peut fournir des informations riches sur les données, permettant aux chercheurs de tirer des conclusions, tout en utilisant des distributions a priori incertaines qui n'exercent qu'une influence minimale sur les résultats lorsque les données sont suffisantes. Le psychologue John K. Kruschke a suggéré l'estimation bayésienne comme alternative au test t et a également comparé l'estimation bayésienne pour l'évaluation des valeurs nulles à la comparaison de modèles bayésiens pour les tests d'hypothèses. Deux modèles/hypothèses concurrents peuvent être comparés à l'aide des facteurs de Bayes . Les méthodes bayésiennes pourraient être critiquées pour exiger des informations rarement disponibles dans les cas où les tests de signification sont le plus souvent utilisés. Ni les probabilités a priori ni la distribution de probabilité de la statistique de test sous l'hypothèse alternative ne sont souvent disponibles en sciences sociales.

Les partisans de l'approche bayésienne affirment parfois que l'objectif d'un chercheur est le plus souvent d' évaluer objectivement la probabilité qu'une hypothèse soit vraie à partir des données recueillies. Ni le test de signification de Fisher , ni le test d'hypothèse de Neyman-Pearson ne peuvent fournir cette information et ne prétendent d'ailleurs pas le faire. La probabilité qu'une hypothèse soit vraie ne peut être déduite que du théorème de Bayes , ce qui a été jugé insatisfaisant par les deux camps, Fisher et Neyman-Pearson, en raison de l'introduction explicite d'une part de subjectivité dans la probabilité a priori . La stratégie de Fisher consiste à contourner ce problème grâce à la p -valeur (un indice objectif basé uniquement sur les données), suivie d' une inférence inductive , tandis que Neyman-Pearson a développé son approche fondée sur le comportement inductif .