Le paradoxe de Simpson, ou l’art de pouvoir dire tout et son contraire

Le paradoxe de Simpson, aussi appelé effet de Yule-Simpson, est un paradoxe statistique décrit par Edward Simpson en 1951 et George Udny Yule en 19031. Il se produit lorsque la relation entre deux variables change de sens selon que l’on analyse les données globalement ou par sous-groupes. Autrement dit, il arrive que ce que l’on observe dans l’ensemble des données soit contraire à ce que l’on observe dans chacun des groupes qui la composent. Ce résultat, qui semble impossible au premier abord, est lié à la présence de variables cachées ou confondues qui influencent les données.

Un exemple simple

Pour illustrer le paradoxe de Simpson, imaginons que l’on veuille comparer le taux de réussite de deux programmes de formation différents. On collecte des données auprès de 200 élèves, 100 suivant le programme 1 et 100 suivant le programme 2. On constate que le taux de réussite est de 60% pour le programme 1 et de 50% pour le programme 2. On pourrait donc penser que le programme 1 est meilleur que le programme 2.

Cependant, en examinant de plus près les données, on se rend compte qu’il existe deux types d’élèves : ceux qui ont eu une note élevée à l’examen d’entrée et ceux qui ont eu une note faible. On décide alors de regarder les taux de réussite pour chacun de ces sous-groupes. Et là, surprise ! On observe que le programme 2 a un meilleur taux de réussite que le programme 1 dans les deux cas : 80% contre 75% pour les élèves ayant eu une note élevée, et 42.5% contre 0% pour les élèves ayant eu une note faible.

Comment expliquer ce renversement de tendance ? En fait, il s’agit d’un effet de composition : le programme 1 a attiré plus d’élèves ayant eu une note élevée (80 sur 100) que le programme 2 (20 sur 100), et inversement pour les élèves ayant eu une note faible. Or, les élèves ayant eu une note élevée ont plus de chances de réussir que les élèves ayant eu une note faible, quel que soit le programme suivi. Ainsi, le programme 1 bénéficie d’un avantage artificiel lié à la qualité de ses élèves, qui masque son inefficacité relative par rapport au programme 2. Si l’on répartissait les élèves de manière équilibrée entre les deux programmes, on verrait que le programme 2 est plus performant.

Les implications du paradoxe de Simpson

Le paradoxe de Simpson n’est pas qu’un casse-tête mathématique. Il a des implications importantes dans de nombreux domaines, comme la médecine, la sociologie, l’économie ou la politique. Il montre qu’il faut être prudent lorsqu’on interprète des données statistiques, et qu’il ne faut pas se fier aux apparences. Il faut toujours chercher à identifier les variables cachées ou confondues qui peuvent biaiser les résultats, et à contrôler leur effet. Il faut aussi éviter de tirer des conclusions hâtives ou de confondre corrélation et causalité.

Le paradoxe de Simpson nous invite à adopter une démarche scientifique rigoureuse et critique face aux données, et à ne pas nous laisser tromper par des raccourcis simplistes ou des effets d’optique. C’est un outil précieux pour développer notre esprit critique et notre sens de l’analyse.