Incertaines probabilités (2)

17 mai 2011 2 17 /05 /mai /2011 09:30

À la suite de certains billets (le problème des trois portes dans mon livre p. 101-103 le problème des quatre cartes sur ce blog, un problème de naissances sur ce blog,...), voici encore, dans la même veine des "incertaines probabilités", deux sujets contre-intuitifs (extraits de G. Bronner, L'Empire de l'erreur, Élements de sociologie cogintive, P.U.F. 2007).

Problème A . Une ville possède deux maternités, l'une grande avec 45 naissances quotidiennes en moyenne, l'autre plus petite avec 15 naissances quotidiennes en moyenne. Chaque jour où le seuil de 60% de naissances masculines est dépassé, la maternité fait une croix dans son carnet de bord. Au bout d'un an, quelle maternité aura vraisemblablement le plus de croix dans son carnet ? La petite maternité ? La grande ? ou les deux seront-elles à égalité ?

Problème B. Une maladie, qui touche une personne sur mille, peut être détectée par un test. Ce test a un taux d'erreurs positives de 5% (c'est à dire qu'il produit 5% de faux positifs - le test marque la présence de la maladie alors qu'en fait elle n'est pas présente). Un individu est soumis au test. Le résultat est positif. Quelle est la probabilité pour qu'il ait la maladie ?

Partager cet article

Repost0

Published by Alexandre Moatti - dans D'autres quasi-indispensables mathématiques
commenter cet article …

commentaires

Guy MEHEUT

23/06/2011 00:58

Bonjour Mon commentaire ne porte que sur la forme de l'énoncé du problème B. Quand vous écrivez "Un individu est soumis au test...", on est en droit de penser qu'il s'agit d'une personne bien précise (par exemple M. Dupont) et, dans ce cas, cela n'a pas de sens de demander la probabilité qu'elle soit malade. En effet ceci ne doit rien au hasard, c'est un fait : M. Dupont est malade ou bien ne l'est pas. Prenez le sujet de probabilité le plus célèbre de France aujourd'hui (bac S 2011). La question est rédigée ainsi : "...On fait passer le test à une personne choisie au hasard..." et alors le calcul d'une probabilité prend tout son sens. Cette confusion se retrouve souvent dans l'esprit des gens dans un autre domaine. Supposons qu'une enquête indique que 70% des bacheliers de la série X réussisent le concours d'entrée de médecine. Si vous prenez un candidat au hasard parmi les bacheliers X, vous avez une probabilité 0,7 de gagner en pariant qu'il réussira le concours. En revanche si votre pronostic concerne le major de la préparation, votre probabilité de gagner est très proche de 100%.

Répondre

Alexandre Moatti

28/08/2011 13:26

Je vois ce que vous voulez dire. Mais c'est difficile de faire de la vulgarisation en peu de mots. D'autant que chacun peut entendre différemment les choses. Pour moi, le raccourci "un individu" signifie "un individu quelconque, un individu choisi au hasard": le un est ici générique. Pour vous, le raccourci "un individu" signifie "un individu précis". C'est intéressant, merci de votre apport. A.M.

25/05/2011 22:58

Oui : cet article a fait le tour de tous les labos de science dure... C’est également une des pièces maîtresses du dossier que j’ai monté pour demander la création d’un cours de mathématiques générales pour les étudiants de Santé publique :)

Répondre

Ethaniel

25/05/2011 16:37

H > Bravo pour la capitale accentuée, il est tellement rare d’en voir que j’applaudis, mais… nul n’en était besoin ici, je n’ai pas d’accent à mon pseudonyme ;). Concernant le niveau mathématique (pas seulement les stats, mais les maths en général) en médecine, depuis que j’ai entendu parler du « modèle de Tai », plus rien ne me surprend… (Voir par exemple cet article en anglais.) À mon sens, le pire n’est même pas le fait que l’auteur ait réinventé la méthode des trapèzes sans se demander si un truc aussi simple n’existait pas déjà, mais que l’article d’origine de 1994 soit actuellement cité 144 fois (dont 6 fois rien que ces 5 premiers mois de 2011), ce qui suggère donc des centaines d’autres médecins suffisamment formés pour publier des articles médicaux mais ne connaissant pas non plus la méthode des trapèzes !

Répondre

25/05/2011 14:44

« Les deux mon capitaine ! » Certains suivent les cours en parallèle avec leur internat, parfois dans les années qui précèdent, d’autres enfin (en milieu hospitalier plutôt qu’en médecine de ville) suivent les cours en formation continue.

Répondre

25/05/2011 10:47

AM : « selon Bronner, la majorité des médecins répond 95%, sans trop réfléchir sans doute » Les médecins français n’ont aucune formation en stats. J’enseigne (parfois très difficilement) les stats à des médecins qui se destinent à la recherche, on leur apprend ce genre de choses ; ils sont supposés savoir refaire les calcus d’Éthaniel, par exemple : mais par ailleurs on ne juge pas utile de former tous les autres médecins à traiter ce genre de questions...

Répondre

Alexandre Moatti

25/05/2011 13:50

Si ce n'est pas indiscret (et pas top dévoiler de votre anonymat, H), quels types de formation existent pour "des médecins se destinant à la recherche" ? Est-ce en "formation continue" (i.e. pour des médecins ayant déjà exercé et souhaitant se réorienter) ou est-ce en formation initiale ? Merci de votre témoignage sur ce sujets des statistiques. A.M.

Ethaniel

24/05/2011 17:03

> Vous travaillez dans les biostatistiques ou qqch comme çà ? Du tout, je suis juste un ex-pré-physicien des particules qui a donc baigné dans la physique statistique, les déviations à tant de sigma entre le signal attendu et le signal observé, et autres tests du khi-deux ;).

Répondre

planete sfactory

20/05/2011 14:58

Pour le problème B, je crois que 7% est atteint de la maladie.

Répondre

Ethaniel

19/05/2011 20:47

Annexe calculatoire et inutilement pinailleuse sur le problème A (oui, ça m’amuse ^^) : Supposons que la probabilité de naissance d’un garçon soit de 51.2% pour l’année considérée, et ce dans les deux maternités (moyenne française 2005). Supposons en outre que la croix est ajoutée dans le carnet de bord lorsque le taux de garçons dépasse strictement le seuil de 60% (l’énoncé n’est pas précis sur ce point), choix qui a une incidence les jours où le nombre de naissances est un multiple de 5. Il est donné que chaque maternité voit en moyenne N naissances par jour, mais il y a évidemment des jours avec plus de naissances, et des jours avec moins : la loi de Poisson de paramètre N permet alors de calculer la probabilité d’avoir, un jour donné, exactement k naissances. Ensuite, la loi binomiale de paramètres k et p=.512 donne la probabilité d’avoir exactement i naissances de garçons sur le nombre total k de naissances de ce jour donné : il suffit alors de faire la somme des probabilités pour i>k*60% (dépassement strict du seuil) afin d’obtenir la probabilité totale d’inscrire une croix dans le carnet de bord lorsqu’il y a k naissances (cette correspondance entre k et la probabilité est bien sûr la même pour les deux maternités). On pondère alors ces probabilités d’inscrire une croix pour k naissances par la probabilité d’avoir effectivement k naissances un jour donné (cette pondération, donnée par la loi de Poisson, dépendant cette fois du nombre moyen N de naissances dans la maternité) pour obtenir la probabilité globale d’inscrire une croix dans le carnet de bord de la maternité (une sorte de « moyenne de la moyenne », si l’on peut dire). Le calcul précis (merci OOoCalc/Excel !) donne : • 11.49986% pour N=45 (grande maternité), soit pratiquement 42 (!) croix au bout d’un an ; • 23.72299% pour N=15 (petite maternité), soit presque 87 croix au bout d’un an. Le calcul prouve donc numériquement le résultat obtenu précédemment en raisonnant sur l’évolution des écarts types, la petite maternité gagnant largement avec, en moyenne, un peu plus du double de croix que dans la grande maternité (mais ça n’est qu’une moyenne : il y a une probabilité infime mais non nulle que la petite maternité ait moins de croix à son carnet de bord que la grande (non, rassurez-vous, je ne calculerai pas cette proba :p)). ———————— Concernant le problème B, il faudrait en outre connaître le taux de faux négatifs (ou son complément, la sensibilité) pour calculer plus précisément la probabilité d’être effectivement malade quand le test est positif (mais, fondamentalement, ça ne s’éloignera pas beaucoup des 1.96% donnés plus haut) ainsi que celle d’être en fait malade malgré un test négatif. Comme vous avez pu le constater, les calculs impliqués sont triviaux, je vous laisse donc faire vous-mêmes les calculs avec, par exemple, une sensibilité de 97.5% (et toujours une spécificité de 95%) ;)…

Répondre

Alexandre Moatti

20/05/2011 15:40

Bravo pour le problème A, n'en jetez plus; J'avais pour ma part simplement une réponse intuitive, mais là vous faites la démonstration. Pour le problème B, partez duprincipe qu'il n'y a pas de faux négatifs (sinon on l'aurait précisé). Vous travaillez dans les biostatistiques ou qqch comme çà ? A?M?

Ethaniel

19/05/2011 15:24

L’écart-type étant en « racine de N » (1) avec N le nombre total de naissances, l’écart-type relatif (on divise par N) est donc en « 1 sur racine de N » : plus N est grand et plus l’écart-type relatif est petit, donc plus la répartition statistique est piquée (« rassemblée ») autour de la moyenne ; c’est d’ailleurs cela qui justifie la « loi des grands nombres ». La grande maternité restera donc plus proche des 50% de garçons que la petite maternité, laquelle dépassera donc plus souvent le seuil de 60% et aura ainsi plus de croix dans son carnet de bord. À noter que, de manière générale, si vous lisez quelque part une moyenne (par exemple dans les sondages qui commencent déjà à pulluler, et ça ne s’arrêtera pas avant mai prochain…), cette valeur, prise seule, *n’a absolument aucune valeur*, il faut au minimum soit le nombre total de cas soit l’écart-type (ou son carré, la variance) pour que le résultat ait une quelconque signification (non, je n’irai pas jusqu’à demander l’asymétrie et le kurtosis, même si ça n’est pas de refus ^^). (1) On a ici une loi binomiale, donc sigma=sqrt(N×p×(1-p)), soit sqrt(N)/2 si p=1/2… ce qui n’est pas exactement la probabilité observée de naissance d’un garçon ;) (51.2% en France en 2005, cf. http://aix1.uottawa.ca/~vpest283/2779/c2.pdf). ———————— Étudions une population de 20'000 individus : on aura donc *en moyenne* 20 malades et 19'980 bien-portants (avec un écart-type de 4.47, voir note (1) ci-dessus, donc si ça se trouve il y a en réalité moins de 15 malades dans cette population :D ; mais ça n’est pas le sujet, donc on pourrait raisonner avec 20 milliards d’individus pour diviser par 1000 l’écart-type relatif). En supposant (la valeur n’étant pas donnée) un taux de faux négatifs de 0% (donc une sensibilité de 100%, un peu illusoire, mais passons), ces 20 malades seront tous déclarés positifs au test. Par contre, à cause du taux de faux positifs de 5% (donc une spécificité de 95%), 999 bien-portants (5% des 19'980) seront déclarés positifs au test alors qu’ils ne sont pas malades ! On a donc un total de 20+999=1019 résultats positifs pour seulement 20 vrais malades, lesquels représentent donc 20/1019=1.96% des déclarés positifs : l’individu déclaré positif au test n’a donc en réalité que 1.96% de risque d’être réellement malade ! C’est le risque de surdiagnostic, d’autant plus marqué que la maladie est rare : http://fr.wikipedia.org/wiki/Faux_positif#Risque_de_surdiagnostic

Répondre

Alexandre Moatti

22/05/2011 10:51

Je donne mes solutions (sachant que d’excellentes solutions ont été données par plusieurs commentaires). Dans le problème A, plus l’échantillon est petit, plus on a de chances de s’écarter de la norme – c’est donc la petite maternité qui aura le plus de croix. Dans le problème B , comme indiqué ci-dessus : sur 1000 personnes, 1 (en moyenne) sera malade, et 50 (soit 5% de faux positifs) seront faussement malades : sur les 51 personnes positives au test, 1 sera effectivement malade, soit une probabilité cherchée de 1/51°, un peu moins de 2% (selon Bronner, la majorité des médecins répond 95%, sans trop réfléchir sans doute). A.M.

Olivier

19/05/2011 15:19

Pour le premier problème, la petite maternité aura vraisemblablement plus de croix à la fin de l'année. Pour le second problème, la probabilité d'être effectivement malade sachant que le test est positif est de 2% environ.

Répondre

Alexandre Moatti

20/05/2011 15:37

Bravo ! A.M.

Pourquoi ce blog ?

Rechercher

Recherche

Indispensables astronomiques

Communauté de blogs