Les metadonnées : un aspect crucial de la qualité des données foncières-immobilières

Article proposé par :

Qu’est-ce que les métadonnées et en quoi conditionnent-elles la confiance dans les « chiffres de l’immobilier » ? Désignant littéralement « les données sur les données », les métadonnées sont constituées de l’ensemble des informations permettant de connaître les conditions de production des données, et donc les conditions de leur réutilisation. A ce titre, elles sont essentielles pour garantir l’interprétabilité et la recevabilité des conclusions tirées du traitement des données.

Les risques inhérents à l’avalanche de données foncières-immobilières

Dans un monde où les données sont devenues – à tort ou à raison – incontournables, le domaine foncier et immobilier occupe sans doute une place à part. En effet, alors que nombre de domaines économiques ou socio-politiques n’ont recouru que très récemment aux données, ces dernières ont toujours été cruciales pour les acteurs de la filière foncière et immobilière, comme en témoigne la précocité de sociétés spécialisées dans l’information sur les marchés. Ce caractère particulièrement crucial de la donnée s’explique largement par l’opacité traditionnelle du secteur. Les flux de propriétés – et sans doute plus encore le parc – relèvent largement du « secret » du patrimoine, et nombre de caractéristiques du secteur foncier et immobilier n’arrangent en rien l’affaire : les biens, durables et transformables, supportent différents usages, sont très inégalement distribués dans l’espace, et seule une petite fraction de ces derniers est finalement échangée tous les ans.

Ce tableau, historiquement bien sombre, s’éclaircit progressivement depuis une bonne douzaine d’années : nombre de nouvelles entreprises créent et commercialisent des données foncières et immobilières, tandis que plusieurs bases statistiques publiques sont ouvertes au public. A cet égard, l’ouverture des demandes de valeurs foncières (DVF) en 2019 a fortement marqué le public et les acteurs de la filière. Tout en saluant cette modification radicale de l’écosystème des données foncières et immobilières, on fait ici l’hypothèse qu’elle pourrait s’avérer risquée, voire contreproductive, si elle ne s’accompagnait pas d’une ambition similaire en matière de mise à disposition des métadonnées.

En effet, du fait de son opacité traditionnelle que nous mentionnions plus haut, le secteur foncier et immobilier pourrait être particulièrement exposé aux risques inhérents au manque de considération pour les métadonnées de ces data récemment et massivement disponibles. Cela est d’ailleurs très compréhensible : de longues décennies de disette de données ont rendu les acteurs du secteur – chercheurs compris – particulièrement attentifs aux questions relatives à l’exhaustivité des quelques bases disponibles : quel est le taux de recouvrement de telle ou telle source de données ? Permet-il de travailler sur différents contextes spatio-temporels ? En d’autres termes, telle base de données est-elle représentative de la réalité ? Couvre-t-elle la Province ou seulement l’Île-de-France ? L’Outre-mer ou seulement l’Hexagone ? L’immobilier résidentiel aussi bien que l’immobilier de bureaux ? L’individuel aussi bien que le collectif ? On peut multiplier ces questions à l’envi : nous nous les sommes tous posées. Or l’avalanche récente de données a souvent rendu obsolètes ces questions : qu’il s’agisse des données publiques ou des données privées (contenu des plateformes, voire traces laissées par les utilisateurs sur ces dernières), beaucoup d’entre elles sont exhaustives… et donc susceptibles de laisser entendre à leurs utilisateurs qu’elles sont désormais sans risque puisque purgées de tout risque de non-représentativité. Ce serait sans compter sur les enjeux cruciaux liés aux métadonnées.

La partie visible des métadonnées

L’identité des métadonnées est souvent connue, et peu de gens doutent de l’intérêt de disposer d’informations basiques sur les données utilisées : la date de recueil et l’échelle de recueil des données sont, par exemple, des paramètres basiques. En déterminant le niveau de granularité des approches et en circonscrivant le champ de travail (y compris en matière de fraîcheur temporelle des données), ils s’imposent de toute façon à l’utilisateur : nul ne se hasardera pas à inférer les variations à échelle fine pour l’année n + 10 d’une variable dont il dispose seulement à l’échelle nationale pour l’année n – en tout cas sans avoir recours à d’autres jeux de données. D’autres composantes des métadonnées sont peut-être moins immédiates, mais les contraintes auxquelles elles soumettent de toute façon très vite les traitements et leurs auteurs ont tôt fait de les rendre palpables. C’est, entre autres, le cas de la localisation : dépendant non seulement d’un niveau de granularité (à la commune, à la parcelle ou à l’immeuble, par exemple) mais également d’une méthode de localisation (par référencement dans une maille – périmètres administratifs ou carreaux INSEE – ou par géolocalisation – à l’adresse ou en coordonnées XY), elle contraint très fortement des opérations apparemment anodines d’interopérabilité des bases. Quiconque a déjà tenté de rabattre un jeu de donné référencé à l’adresse (évidemment souvent incomplète, obsolète ou ambiguë !) sur un autre référencé au local cadastral comprendra très vite de quoi l’on parle.

Lier ainsi les métadonnées aux possibilités de traitement des données est essentiel. Car, plus que sur le champ des données (dont on prend immédiatement conscience), c’est bien sur les contraintes et les opportunités des données que renseignent les métadonnées. En d’autres termes, et conformément au projet fondamental de la statistique, les métadonnées servent en fait «seulement» (sic) à garantir les conditions permettant de réduire l’incertain au probable. Elles sont aussi nécessaires au contrôle des conditions qui permettent de conclure à l’effet probable de tel phénomène sur tel autre : sans information sur les méthodes d’échantillonnage des variables, il est plus difficile, plus risqué, voire parfois strictement impossible, de conclure à leur impact sur tel territoire ou sur telle dynamique.

La face cachée des métadonnées : le codage

L’impact majeur de la manière dont sont structurées les données sur les résultats obtenus est parfois plus difficile à évaluer. Cela est dû à une confusion majeure, révélée en son temps par le très grand sociologue de la quantification Alain Desrosières : l’assimilation abusive des opérations de « codage » aux opérations de « mesure ». En effet, certaines grandeurs techniques (une surface, une consommation énergétique, une résistance thermique, etc.) ou même socio-économiques (le montant d’un crédit, le nombre de personnes d’un foyer, etc.) sont mesurables au sens strict : à l’instar de grandeurs physico-chimiques, on peut les exprimer selon une quantité objective (pour peu que l’instrument de mesure ne soit, bien sûr, pas biaisé). A l’inverse, certaines variables, y compris dans le monde foncier et immobilier, relèvent en fait d’une opération de codage, c’est-à-dire d’affectation d’un cas à une catégorie : on imagine tout à fait que le même logement puisse être qualifié dans une base de données de « loft », mais d’« appartement » dans une autre. Or ces affectations, pour nécessaires qu’elles soient, sont toujours critiquables : on peut non seulement critiquer les seuils séparant deux catégories (« marché tendu » vs. « marché détendu », par exemple) mais même critiquer les catégories elles-mêmes (« foncier économique », par exemple).

Dans les cas de codage (extrêmement fréquents en foncier et immobilier, puisque la quasi-totalité des catégories administratives, juridiques ou marketing en relève), l’absence de métadonnées est donc très risquée : si l’on ne connaît pas les périmètres de chacune des catégories, ni les règles d’affectation des cas, on ne maîtrise pas le contenu des catégories… et donc le sens des conclusions qu’on tire des données ! A l’inverse, des métadonnées correctement renseignées, explicitant les critères d’affectation des observations à telle ou telle catégorie, permettent de contrôler un discours et des traitements. Dans le cas où les règles du codage ne correspondraient pas à celles qui sont désirées (par exemple, pour des raisons d’interopérabilité entre plusieurs bases), on pourrait alors même envisager de les redresser, ou d’en contrôler l’effet pour en tirer des conclusions maîtrisées.

Conclusion : métadonnées et confiance

Loin d’être une pure question théorique dénuée d’implications pratiques, la question de la qualité des métadonnées est donc essentielle, a fortiori dans le cas des variables encodées. En bornant les conditions d’utilisation des données, les métadonnées garantissent la lisibilité de résultats et conditionnent donc littéralement la confiance qu’on peut avoir dans les traitements. Pour plaisante qu’elle soit, la boutade de Mark Twain (« Il y a trois sortes de mensonges : les mensonges, les gros mensonges, et les statistiques ») n’est pas valable quand les statistiques sont produites dans les règles de l’art, pour la bonne et simple raison qu’une conclusion statistique s’accompagne toujours de paramètres permettant d’évaluer le degré de confiance qu’on peut avoir en ses résultats. Mais toute cette confiance reste in fine conditionnée à la qualité des données et à l’adéquation de ces dernières aux traitements qui les mobilisent !


A propos de l’auteur :
Guilhem Boulay, maître de conférences en géographie à Avignon Université, UMR 7300 ESPACE. Spécialiste de géographie économique, il travaille principalement sur les marchés fonciers et immobiliers, les finances locales et l’économie résidentielle. Avec d’autres universitaires (Laure Casanova Enault et Antoine Peris, géographes ; Delphine Blanke, statisticienne), il anime la Chaire Partenariale GIF (Geodata, Immobilier, Foncier).

Crédit photo : Deemind Unsplash

Réagir à cet article

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

LES DERNIÈRES PUBLICATIONS

Abonnez-vous à la newsletter

Recevez dans votre boite mail toute l’actualité de la data immobilière