--

De l’art de l’estimation à l’unité près (mais à deux millions et trois ans près)

Pendant ses études supérieures, un futur statisticien apprend que lorsqu’une estimation statistique est obtenue par sondage, il est raisonnable de ne garder que les chiffres significatifs selon l’évaluation de la précision. Ce qui se traduira éventuellement par le calcul d’un « intervalle de confiance » avec un risque d’erreur de x %. Si toute la population française était estimée par sondage, le résultat pourrait être présenté ainsi : en 2007, on estimait le nombre d’habitants à 63,60 millions, avec l’intervalle de confiance [63,58 : 63,62] au seuil de 1 % (cet intervalle est donné fictivement puisque l’Insee ne l’a pas communiqué). Or, le Journal officiel annonce 63 601 002 pour la population légale communale totale et l’Insee indique que cela correspond à la population « statistique ». Est-ce le miraculeux produit du mariage du recensement et du sondage ? Les enquêteurs de Pénombre, sans redouter les nuits blanches que cela pouvait leur coûter, se sont plongés dans les fichiers Excel de l’Insee et la vie des collectivités locales. C’est que 1 002 habitant(e)s de plus ou de moins (mille e due pas mille e tre), ce n’est pas forcément négligeable en termes de taxes locales et d’ouvertures d’écoles…

Les populations légales pour 2010 ne sont pas les populations de 2010

Le lecteur pourra se dire : j’ai bien compris ; pour les communes de 10 000 habitants et plus, le nombre d’habitants provient d’un sondage, donc on ne le connaît pas à l’unité près. N’empêche que, pour les autres communes, c’est un dénombrement exhaustif, donc à l’unité près : par sommation on va avoir un résultat à l’unité près. Ceci n’est pas la bonne explication. L’Insee indique dans son communiqué du 31 décembre 2009 que les habitants des communes de 10 000 habitants et plus sont au nombre de 31 529 009 : la précision est là. Et de toute façon, que les populations légales des communes viennent d’un sondage (plus de 10 000 habitants) ou d’un dénombrement (moins de 10 000 habitants) elles sont le plus souvent estimées à partir de valeurs mesurées pour des années variables sur la période du recensement (le premier cycle quinquennal s’est déroulé de 2004 à 2008). Du coup, au terme d’un processus de calcul complexe sur des fichiers importants, des arrondis vont être nécessaires pour que la population des communes ne fasse pas apparaître des demi-portions (arrondis à l’unité supérieure) et des moins-que-rien (arrondis à l’unité inférieure). La précision du résultat légal (1 002 habitants entiers) cacherait-elle une foule de ces habitants tronqués, foule rendue invisible par son éparpillement entre les 36 682 communes du territoire national ?

En principe non ! Utiliser des arrondis, tantôt par défaut, tantôt par excès, mais sur un grand nombre de cas, devrait arriver à une somme à peu près nulle des écarts ainsi produits. Quelle idée saugrenue nos enquêteurs ont-ils eue en voulant vérifier que le hasard faisait bien les choses ? En comparant des fichiers arrondis (valeurs entières) et des fichiers où les valeurs décimales résultant des estimations étaient conservées, ils ont repéré ce qu’ils ont pris d’abord pour un excédent des demi-portions sur les moins-que-rien de 173 ! Après avoir imaginé les choses les plus compliquées, comme des redressements de valeurs aberrantes mal répercutées d’un fichier à un autre ou des bugs informatiques venant d’un changement de version du logiciel statistique, ils ont découvert que ces 173 en excédent proviennent principalement de trois petites communes de 512, 965 et 1 207 habitants respectivement. Écart non expliqué à ce jour par nos aimables correspondants de l’Insee qui vont instruire notre demande. Le seul indice dont disposent nos infatigables enquêteurs est que l’une de ces communes fait partie de la quarantaine de communes dont le code postal et le code officiel géographique ne font pas référence au même département (une autre histoire passionnante que nous laissons aussi en suspens).

En attendant d’être rassurés sur l’origine de ces 173 étranges habitants, revenons à nos moutons. Il s’avère donc que, au risque de quelques petites erreurs qu’on pourra leur pardonner, les statisticiens peuvent sous l’empire de la Loi faire ce que la Science n’ose pas (ou plus) : compter les habitants de France à l’unité près. Il s’agit alors d’une convention bien particulière, d’une convention légale. Et d’une autre source de trouble dans l’esprit des journalistes et de leurs lecteurs car, parallèlement à l’actualisation désormais annuelle de cette convention, légale certes mais vite périmée, le processus d’actualisation des estimations de population continue. Le 63,6 millions de la population municipale « nationale » concerne l’année 2007 (même s’il n’est en application que depuis le 1er janvier 2010) ; il doit cohabiter avec une estimation plus fraîche de la population statistique à cette même date du 1er janvier 2010. Alors tenez-vous bien : à ce jour l’Insee propose un nombre d’habitants France entière de 64,667 millions et donc en arrondissant, 65 millions ! Et l’on ne saura sans doute pas à quel chiffre se référait le Premier ministre (signataire du décret de décembre 2009) dans un discours prononcé le 14 mars 2010, au soir du premier tour des élections régionales : « Nous sommes 65 millions de Français dans un monde de 6 milliards d’êtres humains. » Beaucoup de bruit pour rien ?

La rédaction