Entretien de Jean-Paul Jean et René Padieu avec Daniel Schwartz
(Suite et fin de l’entretien dans Pénombre n° 14)
Polytechnicien, professeur émérite à la Faculté de médecine Paris-Sud, Daniel Schwartz a été directeur de la première unité de recherches statistiques de l’Institut national de la santé et de la recherche médicale (INSERM) et fondateur du Centre d’enseignement de la statistique appliquée à la médecine (CESAM). Il a été le pionnier de l’introduction de la statistique dans la médecine en France, et a publié de nombreux ouvrages sur le sujet (2).
René Padieu : Le hasard est-il, selon l’expression célèbre, "l’expression de notre ignorance", ou une caractéristique du monde ?
Daniel Schwatrz : C’est là un vieux débat. Sans doute, dans un lancer de pièce, nous ignorons si le résultat sera pile ou face. Mais s’agit-il là vraiment d’une ignorance, c’est-à-dire d’un état que des connaissances pourraient pallier. C’est ce qu’avançait Laplace, lorsqu’il disait : "le hasard représente seulement l’expression de notre ignorance. Tout phénomène, si minime soit-il, a une cause, et un esprit infiniment puissant, infiniment bien informé des lois de la nature, aurait pu le prévoir dès le commencement des siècles". Mais cette vue n’est pas réaliste, car nous ne sommes pas des esprits infiniment puissants, et rien ne nous permet de prévoir le résultat du pile ou face. Cette incapacité est donc autre chose qu’une ignorance. Disons que le hasard est la dépendance de facteurs si nombreux que leur résultat est imprévisible.
R. P. : La statistique est-elle la description d’une population ou la mise en évidence de lois ?
D. S. : Les deux à la fois. Pour le premier problème que vous évoquez, la description d’une population, une difficulté majeure provient de la variabilité des caractères biologiques selon les individus. Pour l’évolution d’une maladie par exemple, certains individus guérissent et d’autres non. On ne peut donc décrire la population à partir d’un seul malade, il faut connaître la proportion de guéris dans la population des malades de ce type. Or nous ne pouvons disposer de tous ces malades, mais seulement d’échantillons de taille finie. Le taux de guéris estimé sur des échantillons diffère plus ou moins de la vraie valeur, celle de la population, en raison des fluctuations d’échantillonnage, ou fluctuations du hasard. Ces fluctuations font que, par exemple, si on tire un échantillon dans une urne contenant 20% de boules blanches, on n’obtient pas nécessairement ce taux mais un taux fluctuant autour de 20% d’un échantillon à l’autre. Ces fluctuations du hasard sont imprévisibles et peuvent conduire à de grands écarts. Ainsi, voilà la difficulté : on veut décrire une population par un taux et ce taux est hors de portée.
À cette difficulté majeure, le statisticien apporte une solution (partielle). Il peut déclarer que le taux inconnu dans la population est compris dans tel intervalle, une fourchette, à condition d’admettre un risque d’erreur (5%, 1%….). Au constat de l’impossible certitude, il oppose la conclusion avec risque d’erreur contrôlé.
Jean-Paul Jean : Et pour la mise en évidence de lois statistiquement établies ?
D. S. : Les lois qu’on cherche à mettre en évidence sont le plus souvent des associations entre variables : par exemple entre consommation du tabac et cancer des bronches, ou entre administration d’un traitement A et guérison. Dans le cas le plus simple, il s’agit donc d’une description comparée : comparaison pour le cancer entre les fumeurs et les non fumeurs, pour la guérison entre les malades traités par A et des témoins traités différemment. Ici encore, il faut comparer des proportions (probabilités) de cancer, ou de guérison, qui sont hors de portée parce qu’on ne peut avoir accès qu’à des échantillons finis, sujets aux fluctuations d’échantillonnage. Le statisticien apporte une solution, le test statistique. Cette opération permet de savoir si la différence des taux observés sur les échantillons peut raisonnablement être attribuée aux fluctuations d’échantillonnage, ou au contraire être réelle (on dit "significative") ; ceci à condition, ici encore, d’admettre un risque d’erreur.
J.P. J. : Qu’entend-on par "facteurs de risque" d’une maladie ?
D. S. : Une définition du risque d’un événement est la probabilité qu’il se produise, éventuellement au cours d’une période donnée. Le risque d’une maladie est une façon d’exprimer sa fréquence. Les deux mots ont toutefois une connotation différente : la fréquence concerne la population, tandis que le risque s’attache surtout à l’individu. C’est pourquoi l’on recherche une personnalisation maximale du risque, en tenant compte des "facteurs de risque".
Est facteur de risque tout élément corrélé à l’apparition de l’événement. Le taux annuel d’infarctus dans une population augmente avec l’âge : l’âge est un facteur de risque. Supposons que, dans un groupe de sujets, la fréquence annuelle de l’infarctus atteigne quatre pour mille ; pour un sujet dont on ignore tout, le risque annuel d’infarctus est quatre pour mille. Si, dans ce groupe, on sait qu’un sujet a 80 ans, on tiendra compte de cette information en évaluant son risque dans le sous-groupe des sujets de 80 ans. On trouvera ainsi une nouvelle valeur, supérieure à quatre pour mille, mieux adaptée au sujet.
Cette nouvelle valeur semble plus réaliste, mais elle n’est pas pleinement satisfaisante ; on a supposé que le risque est le même pour tous les sujets de 80 ans. Précédemment, on ignorait tout facteur de risque, maintenant on ignore tout facteur de risque autre que l’âge : la frontière de l’inconnu a seulement reculé d’un pas. En prenant en compte de nouveaux facteurs, la cholestérolémie, puis la tension artérielle, puis l’usage du tabac, on pourra placer le sujet dans des sous-groupes de plus en plus réduits. D’étape en étape, le risque changera au gré des informations, cernant de plus en plus près une probabilité personnalisée.
Dans une étude menée il y a quelques années sur une population d’hommes de 50 ans, le risque annuel de l’événement infarctus ou mort subite était de quatre pour mille. Mais considérons par exemple deux sujets dans des situations extrêmes. Le premier a une tension artérielle et une cholestérolémie normale, il ne fume pas et n’est pas diabétique ; le second a une tension artérielle à 200 mm, une cholestérolémie de 300 mg/ml, il fume 40 cigarettes/jour et est diabétique. Le risque annuel du premier était de 1 pour 1000, celui du second de 10%.
Ainsi la prise en compte des quatre facteurs de risque nous permet de calculer des risques très différents. Jusqu’où peut nous mener cette voie ? La connaissance de nouveaux facteurs permettra-t-elle de diviser une population où le risque est de quatre pour mille en deux groupes de sujets, dont l’un comporte les quatre individus qui feront sûrement un infarctus dans l’année, et l’autre les 996 qui n’en feront sûrement pas ? La réponse à une telle question est négative, et ce pour deux raisons. La première est qu’on n’arrivera probablement jamais à connaître tous les facteurs de risque. La seconde est que, même si on les connaissait, on ne parviendrait pas à tenir compte du stress ou autres événements aussi imprévisibles que les raisons conduisant au pile ou face.
Un autre exemple illustrera les limites de la prévision : le conducteur au volant de sa voiture encourt un risque d’accident qu’on estime au mieux en fonction de son âge, de son type de voiture, de l’alcool absorbé… mais sans pouvoir jamais tenir compte des imprévus du parcours.
Ainsi, apparaît-il que le risque résulte à la fois de l’ignorance et du hasard. Pour personnaliser un risque de maladie, l’épidémiologiste réduit la part d’ignorance pour se rapprocher aussi près que possible de la situation où la seule composante du risque est le hasard pur.
R. P. : Le hasard est-il un outil du statisticien pour tenir en respect sa subjectivité et quelles sont les stratégies à mettre en œuvre pour réduire l’incertitude des résultats ?
D. S. : Dans les problèmes évoqués plus haut, la difficulté est qu’on voudrait connaître, ou comparer, des taux vrais - ceux des populations - mais qu’on ne dispose en général que d’estimations observées sur des échantillons qui s’écartent plus ou moins des vraies valeurs en raison des fluctuations d’échantillonnage. Ainsi le hasard rend toute conclusion certaine impossible, il est notre maître, notre ennemi… Grâce à ces lois, nous pouvons énoncer des conclusions à condition d’admettre un risque d’erreur contrôlé.
Cependant l’intervention du hasard ne se limite pas là… L’établissement d’une fourchette dans la description d’une population suppose que l’échantillon considéré soit représentatif. On peut montrer que ceci n’est en principe réalisé que si l’échantillon résulte d’un tirage au sort. De même, dans la description comparée, par exemple dans la comparaison des taux de guéris avec deux traitements A et B. le test statistique permet de savoir si la différence est significative. Mais, dans ce cas, elle ne peut être attribuée aux traitements que si les échantillons des deux groupes sont, à part le traitement, comparables à tous les égards, et là encore on peut montrer que ceci nécessite que les deux groupes aient été constitués par tirage au sort. Ainsi le hasard cette fois nous est utile, ce n’est plus notre ennemi, mais notre allié….
J.P. J. : Pourquoi, dans ces deux situations, la solution est-elle le tirage au sort ?
D. S. : On constitue souvent des échantillons par des procédés commodes, en s’imaginant qu’ils sont "représentatifs". Ainsi, dans la population française, on choisira les sujets dont le nom commence par A. Dans la population des étudiants suivant un cours, on choisira ceux du premier rang dans l’amphithéâtre. Dans un groupe de souris d’une race donnée, quand on souhaite faire une expérience sur 20 souris, on choisira les 20 premières attrapées dans la cage. Ces méthodes sont mauvaises.
Les Français dont le nom commence par A diffèrent de ceux dont le nom commence par une autre lettre. Le nom dépend, entre autres, des ethnies, des régions. Dans un amphithéâtre, les élèves du premier rang (quand il y en a…) diffèrent des autres : souvent ce sont les plus consciencieux, les plus tôt arrivés ou ceux qui entendent ou voient moins bien. Les souris attrapées en premier sont… des nigaudes. L’expérience montre qu’elles sont plus vulnérables aux maladies.
Dans ces exemples, l’échantillon diffère systématiquement de la population par un caractère au moins (la première lettre du nom, la place dans l’amphithéâtre…). Comme un caractère est toujours lié à un écheveau de beaucoup d’autres, l’échantillon risque de différer de la population par de nombreux caractères, peut-être précisément ceux que l’on étudie. Un tel échantillon n’est pas représentatif ; on dit qu’il est "biaisé".
Pour éviter tout biais, on doit introduire dans l’échantillon des sujets choisis indépendamment de toutes leurs caractéristiques. La seule façon d’y parvenir est de recourir au hasard - n’est-ce pas là une de ses définitions ? Le hasard est la rencontre de deux chaînes d’événements indépendantes : le croisement, au même instant, de l’itinéraire choisi par Monsieur N et de la trajectoire d’une tuile qui glisse d’un toit et lui tombe sur la tête est un hasard… Ainsi, un échantillon constitué par tirage au sort sera représentatif. Pour obtenir deux groupes, comparables dans la description comparée, c’est le même raisonnement qui conduit à les constituer par tirage au sort.
J.P. J. : Comment utiliser ces éléments de connaissance pour prendre des décisions ? Pourrions-nous prendre quelques exemples ? D’abord, celui de la mort subite du nourrisson (MSN). Quel est le risque statistique ? Quelles conséquences générales à en tirer sur la prévention ? Quelles mesures particulières pour les sujets les plus exposés ? Que dire à des parents dont l’enfant est mort, alors que le risque était estimé comme minime ? Ainsi, dans le cas d’une famille où un bébé est mort de ce fait, alors que dans la lignée du père, quatre enfants sur 100 étaient décédés de cette façon.
D. S. : Dans le cas que vous m’avez transmis, la mère a demandé au médecin, qui le lui a déconseillé, des mesures comme des monitorings, un télécontrôle. Le risque de MSN qui était autrefois de 1 pour mille est aujourd’hui de 0,5 pour mille. Cette baisse est due probablement au conseil donné aux mères de coucher l’enfant sur le côté et non plus sur le ventre. Je dis probablement, parce que la causalité est difficile à établir, car d’autres conseils ont aussi été prodigués. Y a-t-il un problème héréditaire ? Il n’est pas prouvé. S’il l’était, cela "ne" multiplierait le risque "que" par 2 ou 3, c’est-à-dire que de 0,5 pour mille, il passerait à 1,5 ou à deux pour mille. La différence de risque, malgré la "multiplication par deux ou trois" reste donc très faible. Si l’on prenait ces mesures de monitoring, il faut se dire qu’il y en aurait près de 998 sur 1000 qui ne serviraient à rien, élément dont il faut tenir compte. Il n’est pas sûr non plus que le monitoring serait efficace et il a l’inconvénient d’être très anxiogène pour la mère.
Pour un bénéfice très faible, le coût est très élevé. Le choix raisonnable est donc de prendre uniquement les mesures habituelles : coucher le bébé sur le côté, éviter la fumée de cigarette dans la pièce, bien aérer la chambre, ne pas avoir d’excès de couverture, ceci entre deux et quatre mois, période dans laquelle peut intervenir la MSN.
J.P. J. : Mais comment expliquez-vous ensuite aux parents qu’ils ont eu le malheur de "tomber" dans les deux pour mille ? Le risque était minime, mais ils en sont victimes.
D. S. : Il faut leur expliquer que, sur 1000 bébés, on sait qu’en moyenne deux auront une mort subite et 998 y échapperont. Rien ne permet, à l’heure actuelle, de connaître à l’avance les deux victimes, et même si dans l’avenir on décelait des facteurs de risque (l’hérédité en est peut-être un) il restera toujours des facteurs imprévisibles, un pur hasard. Tomber dans les deux pour mille est une malchance…
La suite de l’entretien porte notamment sur le risque d’être victime d’un attentat dans le RER, la subjectivité du chercheur et du médecin dans l’élaboration des statistiques et l’information transmise à partir de ses constatations, le risque de transmission VIH de la mère à l’enfant, les effets placebo des médicaments, la vache folle, le rapport entre les lignes à haute tension et la leucémie, les risques liés au tabac et la notion de mort prématurée, ainsi que l’apport de la recherche sur le tabac à l’épidémiologie….
Des extraits seront publiés dans un prochain numéro de Pénombre.
(1) Le titre auquel vous avez échappé : le hasard et la née cécité.
(2) Le jeu de la science et du hasard, la statistique et le vivant ; Ed. Flammarion, novembre 1994, 111 pages, 85 francs (présenté dans "Pénombre n° 7 daté de juillet 1995), Le médicament : naissance, vie et mort d’un produit pas comme les autres (avec Gilles Bouvenot et Eveline Eschwège) ; collection "Suivre la science" INSERM, Nathan, 1993.
Lu dans Le journal du CNRS, (n°79-80, juillet - août 1996) : « Près de 170 équipes de chercheurs ont répondu à l’appel que François d’Aubert, secrétaire d’État à la Recherche a lancé en avril dernier, aux directeurs généraux d’organismes des sciences du vivant et de la santé, pour rassembler de nouvelles compétences dans le domaine des prions. Ainsi 76 équipes de l’Inserm, 73 du CNRS et 20 du CEA sont prêtes à réorienter leurs recherches sur les encéphalopathies subaiguës. Jusqu’à présent, seules 16 équipes françaises conduisaient la recherche sur le prion, agent causal de la maladie. » |
Pénombre, mars 1997