Le premier rôle de l’INSEE est de collecter des données de toutes sortes pour les mettre à dispositions de ceux qui en ont besoin. Elle le fait bien et fournit un volume de données considérable, que je suis bien aise d’utiliser. On ne peut être aussi catégorique sur son deuxième rôle qui consiste à interpréter les données.
J’avais déjà montré il y a quelques temps comment les méthodes de prévisions de l’INSEE, assez pertinentes en période normale, l’étaient beaucoup moins dans les périodes de crise ou de retournement brutal. Je viens de vivre un événement complétement anecdotique, mais qui m’interpelle sur les capacités de réflexion de l’organisme.
En lisant le chapitre « Logement » du Portait social 2013 de la France, je suis arrivé page 219 sur le tableau 3 qui présente les caractéristiques du parc de logements français, la première citée étant la proportion des logements construits avant 1949. Cette part est présentée comme ayant évolué de 29.5 en 2005 à 29.8 en 2008 et 28.2 en 2010.
Ma première réaction est de me dire que l’évolution présentée entre 2005 et 2008 n’est possible que si le parc d’avant 1949 s’est maintenu et que celui après 1949 a diminué, c’est à dire qu’on a démoli plus de logements qu’on en a construit. C’est évidemment très improbable (nous ne sommes pas en guerre et nous n’avons pas subi de tsunami ravageur de régions entières !). D’ailleurs, le tableau 1 de la même page me donne l’évolution du parc : il ne renseigne pas les mêmes années que le tableau 3, mais on peut observer que le parc croit d’environ 350 000 logements par an, soit environ 1%. Même sans démolition au sein du parc le plus ancien, la part des logements construits avant 1949 devrait donc diminuer de 0.3 point chaque année. Une hypothèse est donc qu’il y a une erreur de copie dans le document pour l’année 2008, une part de 28.8 au lieu de 29.8 cette année-là étant plus cohérente avec les valeurs pour 2005 et 2010.
Pour en avoir le cœur net, je fais un petit mail à l’adresse contact aimablement mise à disposition par l’INSEE. Comme j’écris le week-end, j’ai d’abord une réponse automatique me disant que ma question a bien été reçue et qu’elle sera traitée. Puis en début de semaine un mail me disant en gros qu’on ne comprend pas la question. Je me fends donc d’un mail un peu plus long pour expliquer pourquoi je pense qu’un des chiffres est faux (je m’étais contenté dans le premier mail de dire qu’il y avait manifestement une erreur). Quelques jours plus tard on me répond que les chiffres sont le résultat d’une enquête sur un échantillon relativement restreint, qu’il y a donc une incertitude sur les chiffres affichés, et qu’on est donc là dans les marges d’incertitude. Sans autre commentaires.
J’avoue être assez surpris. J’imagine avoir eu successivement deux interlocuteurs. Le premier doit être une personne chargée de faire si elle le peut un premier niveau de réponse, et si elle ne le peut pas, de faire suivre au bon service. Le second est une personne qui connaît le sujet spécifique sur lequel il peut donner des explications précises.
Que la première personne n’ait pas bien compris le problème me paraît un peu étonnant, sans plus : j’imaginerais volontiers que les salariés de l’INSEE comprennent les notions de base de manipulation des chiffres, du moins un peu plus que le pékin moyen. Mais on peut avoir de nombreuses explications possibles à son comportement, ne serait-ce que d’avoir voulu que la question soit bien posée avant d’être transmise (après tout, c’est ce qu’on demande à une assistante qui a à transmettre des messages).
La réaction de la deuxième personne est plus surprenante. Les échantillons bâtis par l’INSEE le sont de manière à ce que les résultats fournis soient pertinents. J’ai du mal à imaginer un statisticien construisant une méthode qui ne lui permet pas d’avoir une fiabilité suffisante du premier chiffre après la virgule, mais qui donne cependant le résultat sous cette forme. Or il paraît logique de penser que le chiffre de 2008 n’est pas faux de 0.1 ou 0.2 % (ce qui serait compatible avec une méthode adaptée à un affichage du premier chiffre après la virgule) mais de 0.9 à 1.1 %. Donc je ne crois pas à l’explication fournie. Soit la personne qui m’a répondu me prend pour un imbécile, soit elle ne comprend pas vraiment ce qu’elle fait, soit elle n’avait pas envie de s’embêter avec ce sujet ou de reconnaître qu’il y avait une erreur. J’incline à penser que c’est la troisième explication qui est la bonne. Mais je suis déçu !
Une de mes connaissances, expert en statistiques économiques, m’avait affirmé il y a quelques temps que l’INSEE avait perdu ses meilleurs spécialistes dans ce domaine et qu’elle n’était plus vraiment à la hauteur. Je vais finir par croire qu’elle avait raison !
Les commentaires récents