Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Pourquoi ce blog ?

CouvPocheIndispensables
J'ai créé ce blog lors de la sortie de mon livre "Les Indispensables mathématiques et physiques pour tous", Odile Jacob, avril 2006 ; livre republié en poche en octobre 2011 (achat en ligne) (sommaire du livre).
Je développe dans ce blog des notions de mathématiques et de physique à destination du plus large public possible, en essayant de susciter questions et discussion: n'hésitez pas à laisser vos commentaires!

Rechercher

Indispensables astronomiques

Nouveauté octobre 2013, mon livre "Les Indispensables astronomiques et astrophysiques pour tous" est sorti en poche, 9,5€ (éditions Odile Jacob, éidtion originale 2009). Comme mon premier livre (Les Indispensables mathématiques et physiques), c'est un livre de notions de base illustrées avec des exemples concrets, s'appuyant sur les mathématiques (géométrie notamment) pour l'astronomie, et sur la physique pour l'astrophysique. Je recommande vivement sa lecture.

Communauté de blogs

17 mai 2011 2 17 /05 /mai /2011 09:30

À la suite de certains billets (le problème des trois portes dans mon livre p. 101-103  le problème des quatre cartes sur ce blog, un problème de naissances sur ce blog,...), voici encore, dans la même veine des "incertaines probabilités", deux sujets contre-intuitifs (extraits de G. Bronner, L'Empire de l'erreur, Élements de sociologie cogintive, P.U.F. 2007).

 

Problème A . Une ville possède deux maternités, l'une grande avec 45 naissances quotidiennes en moyenne, l'autre plus petite avec 15 naissances quotidiennes en moyenne. Chaque jour où le seuil de 60% de naissances masculines est dépassé, la maternité fait une croix dans son carnet de bord. Au bout d'un an, quelle maternité aura vraisemblablement le plus de croix dans son carnet ? La petite maternité ? La grande ? ou les deux seront-elles à égalité ?

 

Problème B. Une maladie, qui touche une personne sur mille, peut être détectée par un test. Ce test a un taux d'erreurs positives de 5% (c'est à dire qu'il produit 5% de faux positifs - le test marque la présence de la maladie alors qu'en fait elle n'est pas présente). Un individu est soumis au test. Le résultat est positif. Quelle est la probabilité pour qu'il ait la maladie ?

Partager cet article

Repost 0

commentaires

Guy MEHEUT 23/06/2011 00:58



Bonjour


Mon commentaire ne porte que sur la forme de l'énoncé du problème B. Quand vous écrivez "Un individu est soumis au test...", on est en droit de
penser qu'il s'agit d'une personne bien précise (par exemple M. Dupont) et, dans ce cas, cela n'a pas de sens de demander la probabilité qu'elle
soit malade. En effet ceci ne doit rien au hasard, c'est un fait : M. Dupont est  malade ou bien ne l'est pas.


Prenez le sujet de probabilité le plus célèbre de France aujourd'hui (bac S 2011). La question est rédigée ainsi : "...On fait passer le test à une personne choisie au hasard..." et alors le calcul d'une probabilité prend tout son sens.


Cette confusion se retrouve souvent dans l'esprit des gens dans un autre domaine. Supposons qu'une enquête indique que 70% des bacheliers de la série X réussisent le concours d'entrée de
médecine. Si vous prenez un candidat au hasard parmi les bacheliers X, vous avez une probabilité 0,7 de gagner en pariant qu'il réussira le concours. En revanche si votre pronostic concerne le
major de la préparation, votre probabilité de gagner est très proche de 100%.



Alexandre Moatti 28/08/2011 13:26



Je vois ce que vous voulez dire. Mais c'est difficile de faire de la vulgarisation en peu de mots. D'autant que chacun peut entendre différemment les choses.
Pour moi, le raccourci "un individu" signifie "un individu quelconque, un individu choisi au hasard": le un est ici générique. Pour vous,
le raccourci "un individu" signifie "un individu précis". C'est intéressant, merci de votre apport. A.M.



H 25/05/2011 22:58



Oui : cet article a fait le tour de tous les labos de science dure...  C’est également une des pièces maîtresses du dossier que j’ai monté pour demander la création d’un cours de
mathématiques générales pour les étudiants de Santé publique :)



Ethaniel 25/05/2011 16:37



H > Bravo pour la capitale accentuée, il est tellement rare d’en voir que j’applaudis, mais… nul n’en était besoin ici, je n’ai pas d’accent à mon pseudonyme ;).


 


Concernant le niveau mathématique (pas seulement les stats, mais les maths en général) en médecine, depuis que j’ai entendu parler du « modèle de Tai », plus rien ne me surprend… (Voir par
exemple cet article
en anglais.)


À mon sens, le pire n’est même pas le fait que l’auteur ait réinventé la méthode des trapèzes sans se demander si un truc aussi simple n’existait pas déjà, mais que l’article d’origine de 1994
soit actuellement cité 144
fois (dont 6 fois rien que ces 5 premiers mois de 2011), ce qui suggère donc des centaines d’autres médecins suffisamment formés pour publier des articles médicaux mais ne connaissant pas non
plus la méthode des trapèzes !



H 25/05/2011 14:44



« Les deux mon capitaine ! »


 


Certains suivent les cours en parallèle avec leur internat, parfois dans les années qui précèdent, d’autres enfin (en milieu hospitalier plutôt qu’en médecine de ville) suivent les cours en
formation continue.



H 25/05/2011 10:47



AM : « selon Bronner, la majorité des médecins répond 95%, sans trop réfléchir sans doute »


 


Les médecins français n’ont aucune formation en stats. J’enseigne (parfois très difficilement) les stats à des médecins qui se destinent à la recherche, on leur apprend ce genre
de choses ; ils sont supposés savoir refaire les calcus d’Éthaniel, par exemple : mais par ailleurs on ne juge pas utile de former tous les autres médecins à traiter ce genre de questions...



Alexandre Moatti 25/05/2011 13:50



Si ce n'est pas indiscret (et pas top dévoiler de votre anonymat, H), quels types de
formation existent pour "des médecins se destinant à la recherche" ? Est-ce en "formation continue" (i.e. pour
des médecins ayant déjà exercé et souhaitant se réorienter) ou est-ce en formation initiale ? Merci de votre témoignage sur ce sujets des statistiques. A.M.



Ethaniel 24/05/2011 17:03



> Vous travaillez dans les biostatistiques ou qqch comme çà ?


Du tout, je suis juste un ex-pré-physicien des particules qui a donc baigné dans la physique statistique, les déviations à tant de sigma entre le signal attendu et le signal observé, et autres
tests du khi-deux ;).



planete sfactory 20/05/2011 14:58






Pour le problème B, je crois que  7% est atteint de la maladie.





Ethaniel 19/05/2011 20:47



Annexe calculatoire et inutilement pinailleuse sur le problème A (oui, ça m’amuse ^^) :


Supposons que la probabilité de naissance d’un garçon soit de 51.2% pour l’année considérée, et ce dans les deux maternités (moyenne française 2005).


Supposons en outre que la croix est ajoutée dans le carnet de bord lorsque le taux de garçons dépasse strictement le seuil de 60% (l’énoncé n’est pas précis sur ce point), choix qui a
une incidence les jours où le nombre de naissances est un multiple de 5.


Il est donné que chaque maternité voit en moyenne N naissances par jour, mais il y a évidemment des jours avec plus de naissances, et des jours avec moins : la loi de Poisson de
paramètre N permet alors de calculer la probabilité d’avoir, un jour donné, exactement k naissances.


Ensuite, la loi binomiale de paramètres k et p=.512 donne la probabilité d’avoir exactement i naissances de garçons sur le nombre total k de naissances de ce jour donné : il suffit alors de faire
la somme des probabilités pour i>k*60% (dépassement strict du seuil) afin d’obtenir la probabilité totale d’inscrire une croix dans le carnet de bord lorsqu’il y a k naissances (cette
correspondance entre k et la probabilité est bien sûr la même pour les deux maternités).


On pondère alors ces probabilités d’inscrire une croix pour k naissances par la probabilité d’avoir effectivement k naissances un jour donné (cette pondération, donnée par la loi de Poisson,
dépendant cette fois du nombre moyen N de naissances dans la maternité) pour obtenir la probabilité globale d’inscrire une croix dans le carnet de bord de la maternité (une sorte de « moyenne de
la moyenne », si l’on peut dire).


Le calcul précis (merci OOoCalc/Excel !) donne :


• 11.49986% pour N=45 (grande maternité), soit pratiquement 42 (!) croix au bout d’un an ;


• 23.72299% pour N=15 (petite maternité), soit presque 87 croix au bout d’un an.


Le calcul prouve donc numériquement le résultat obtenu précédemment en raisonnant sur l’évolution des écarts types, la petite maternité gagnant largement avec, en moyenne, un peu plus du double
de croix que dans la grande maternité (mais ça n’est qu’une moyenne : il y a une probabilité infime mais non nulle que la petite maternité ait moins de croix à son carnet de bord que la grande
(non, rassurez-vous, je ne calculerai pas cette proba :p)).


————————


Concernant le problème B, il faudrait en outre connaître le taux de faux négatifs (ou son complément, la sensibilité) pour calculer plus précisément la probabilité d’être effectivement malade
quand le test est positif (mais, fondamentalement, ça ne s’éloignera pas beaucoup des 1.96% donnés plus haut) ainsi que celle d’être en fait malade malgré un test négatif.


Comme vous avez pu le constater, les calculs impliqués sont triviaux, je vous laisse donc faire vous-mêmes les calculs avec, par exemple, une sensibilité de 97.5% (et toujours une spécificité de
95%) ;)…



Alexandre Moatti 20/05/2011 15:40


Bravo pour le problème A, n'en jetez plus; J'avais pour ma part simplement une réponse intuitive, mais là vous faites la démonstration. Pour le problème B, partez duprincipe qu'il n'y a pas de faux
négatifs (sinon on l'aurait précisé). Vous travaillez dans les biostatistiques ou qqch comme çà ? A?M?


Ethaniel 19/05/2011 15:24



L’écart-type étant en « racine de N » (1) avec N le nombre total de naissances, l’écart-type relatif (on divise par N) est donc en « 1 sur racine de N » : plus N est grand et plus l’écart-type
relatif est petit, donc plus la répartition statistique est piquée (« rassemblée ») autour de la moyenne ; c’est d’ailleurs cela qui justifie la « loi des grands nombres ».


La grande maternité restera donc plus proche des 50% de garçons que la petite maternité, laquelle dépassera donc plus souvent le seuil de 60% et aura ainsi plus de croix dans son carnet de bord.


À noter que, de manière générale, si vous lisez quelque part une moyenne (par exemple dans les sondages qui commencent déjà à pulluler, et ça ne s’arrêtera pas avant mai prochain…), cette valeur,
prise seule, *n’a absolument aucune valeur*, il faut au minimum soit le nombre total de cas soit l’écart-type (ou son carré, la variance) pour que le résultat ait une quelconque signification
(non, je n’irai pas jusqu’à demander l’asymétrie et le kurtosis, même si ça n’est pas de refus ^^).


(1) On a ici une loi binomiale, donc sigma=sqrt(N×p×(1-p)), soit sqrt(N)/2 si p=1/2… ce qui n’est pas exactement la probabilité observée de naissance d’un garçon ;) (51.2% en France en 2005, cf.
http://aix1.uottawa.ca/~vpest283/2779/c2.pdf).


————————


Étudions une population de 20'000 individus : on aura donc *en moyenne* 20 malades et 19'980 bien-portants (avec un écart-type de 4.47, voir note (1) ci-dessus, donc si ça se trouve il y a en
réalité moins de 15 malades dans cette population :D ; mais ça n’est pas le sujet, donc on pourrait raisonner avec 20 milliards d’individus pour diviser par 1000 l’écart-type relatif).


En supposant (la valeur n’étant pas donnée) un taux de faux négatifs de 0% (donc une sensibilité de 100%, un peu illusoire, mais passons), ces 20 malades seront tous déclarés positifs au test.


Par contre, à cause du taux de faux positifs de 5% (donc une spécificité de 95%), 999 bien-portants (5% des 19'980) seront déclarés positifs au test alors qu’ils ne sont pas malades !


On a donc un total de 20+999=1019 résultats positifs pour seulement 20 vrais malades, lesquels représentent donc 20/1019=1.96% des déclarés positifs : l’individu déclaré positif au test n’a donc
en réalité que 1.96% de risque d’être réellement malade !


C’est le risque de surdiagnostic, d’autant plus marqué que la maladie est rare : http://fr.wikipedia.org/wiki/Faux_positif#Risque_de_surdiagnostic



Alexandre Moatti 22/05/2011 10:51


Je donne mes solutions (sachant que d’excellentes solutions ont été données par plusieurs commentaires). Dans le problème A, plus l’échantillon est petit, plus on a de chances de s’écarter de la
norme – c’est donc la petite maternité qui aura le plus de croix. Dans le problème B , comme indiqué ci-dessus : sur 1000 personnes, 1 (en moyenne) sera malade, et 50 (soit 5% de faux positifs)
seront faussement malades : sur les 51 personnes positives au test, 1 sera effectivement malade, soit une probabilité cherchée de 1/51°, un peu moins de 2% (selon Bronner, la majorité des médecins
répond 95%, sans trop réfléchir sans doute). A.M.


Olivier 19/05/2011 15:19



Pour le premier problème, la petite maternité aura vraisemblablement plus de croix à la fin de l'année.


Pour le second problème, la probabilité d'être effectivement malade sachant que le test est positif est de 2% environ.



Alexandre Moatti 20/05/2011 15:37


Bravo ! A.M.


Articles Récents

Alterscience (janvier 2013)

Mon livre Alterscience. Postures, dogmes, idéologies (janvier 2013) détails.


CouvertureDéf


Récréations mathéphysiques

RécréationsMathéphysiques

Mon dernier ouvrage est sorti le 14 octobre 2010 : Récréations mathéphysiques (éditions Le Pommier) (détails sur ce blog)

Einstein, un siècle contre lui

J'ai aussi un thème de recherche, l'alterscience, faisant l'objet d'un cours que j'ai professé à l'EHESS en 2008-2009 et 2009-2010. Il était en partie fondé sur mon second livre, "Einstein, un siècle contre lui", Odile Jacob, octobre 2007, livre d'histoire des sciences (voir billet sur ce blog, et notamment ses savoureux commentaires).

Einstein, un siècle contre lui