Les « Rencontres SIG La Lettre » du 5 mai 2010 à Paris, ont permis de rappeler que la qualité des données faisait toujours débat malgré les travaux menés depuis plus de 30 ans sur le sujet. La mauvaise qualité des données apparaît aujourd'hui comme un frein à la diffusion et au développement des usages de l'information géographique. Même si la qualité interne est assez bien maîtrisée par les grands producteurs de bases de données géographiques, ce n'est pas le cas des la qualité externe. En effet, l'adéquation entre les bases de données des producteurs et le besoin des utilisateurs est rarement au rendez-vous. L'application de la directive Inspire devrait permettre d'améliorer les choses en standardisant les données de référence et en encourageant les producteurs à renseigner des métadonnées. La mise en place d'organisations indépendantes et d'outils pour la certification des données apparaît également indispensable aux utilisateurs de bases de données afin de garantir la qualité des produits.
La recherche travaille depuis plus de 30 ans sur la qualité des données. Malgré tout le sujet reste toujours d’actualité. La mesure de l’inexactitude des données fait toujours l’objet de recherche. Malgré la numérisation des cartes, on observe des décalages géométriques lorsqu’on superpose différentes sources de données.
Lorsqu’on parle de qualité des données, on distingue la qualité interne de la qualité externe. La qualité interne traduit le niveau d’adéquation entre une donnée et ce qu’elle aurait du être si elle avait été parfaite. La qualité externe s’intéresse à l’adéquation entre une donnée et les besoins de son utilisateur.
Les travaux de recherche sur le sujet ont mené à la définition de normes (FGDC, ISO 19113 et 19114) pour décrire la qualité d’un jeu de données (généalogie, précision / exactitude spatiale, sémantique ou temporelle, exhaustivité, cohérence logique). Malgré ces avancées, la recherche bute encore sur la complexité de la définition de méthodes de calcul d’incertitude fiable de la qualité des données et intégrables dans des logiciels SIG en particulier pour la mesure d’erreur. De nombreux travaux de recherche se concentrent sur ce sujet.
Plusieurs pistes sont identifiées par les chercheurs pour faire avancer le sujet. La première concerne le développement de la néogéographie, à savoir la saisie de données collaborative à l’image du projet OpenStreetMap. Elle pourrait bouleverser les pratiques des producteurs de données. La seconde touche au développement de méthodes pour mesurer la qualité externe des données à savoir la compréhension des besoins des utilisateurs, le lien entre qualité interne et usage.
Il apparaît aux utilisateurs de bases de données géographiques que c’est plus la qualité externe qu’interne qui pose aujourd’hui le plus de problème. La relation entre client et producteur de bases de données géographiques est souvent compliquée et conflictuelle en raison :
- de la définition souvent inadéquate et insuffisamment documentée de spécifications techniques par le client, et la mauvaise maîtrise du contexte,
- du décalage entre le besoin du client et les spécifications du producteur,
- de la livraison de métadonnées incomplètes et de données non-conformes aux métadonnées.
Du côté des utilisateurs de données, différentes solutions sont envisagées pour améliorer la qualité des données. Il s’agit en premier lieu de développer les compétences des maîtres d’ouvrage pour améliorer les cahiers des charges pour la production de bases de données. Cela peut passer par l’appel à un AMO.
En second lieu, l’amélioration de la lisibilité des métadonnées et de leur appropriation par les producteurs apparaissent comme des enjeux importants pour informer les utilisateurs sur la qualité des données produites. Pour cela, il faudra sûrement trouver d’autres moyens d’information que les métadonnées, plus accessibles aux non spécialistes.
Ensuite, les utilisateurs de bases de données mettent en avant la nécessité de mettre en place un véritable contrôle qualité des données. Le constat est partagé sur le besoin de déléguer à des organismes indépendants de certification, le contrôle qualité des données ou dans certains cas, d’une mise à disposition des utilisateurs d’outils de certification partagés. L’objectif est de rationnaliser les coûts de contrôle qualité (en général 10 % du prix d’acquisition des données), aujourd’hui trop élevés pour les collectivités s’ils ne sont pas mutualisés. D’autre part, les compétences techniques requises pour réaliser ces travaux ne sont pas forcément maîtrisées par tout le monde. La répartition de la charge de contrôle entre différents partenaires d’organisations locales (plateforme régionale ou départementale), en particulier sur les contrôles non automatisables, parait également une bonne piste à suivre. La mise en place d’outils collaboratifs pourrait permettre de simplifier les choses.
Au niveau des collectivités, les besoins de contrôle qualité sont communs sur de nombreuses thématiques comme sur les référentiels que sont le cadastre, les documents d’urbanisme, les réseaux, … . Mais actuellement, il n’existe pas d’outils disponibles dédiés à la certification de ces données. En tout cas, il y a une grosse demande (SI17, CRIGE PACA, GEOPAL, PPIGE, …) pour la mise en œuvre d’un travail collaboratif sur le sujet.
Enfin, l’application de la Directive Inspire va permettre de normaliser les bases de données de référence et cela va faciliter la compréhension et le partage des données ; en contre partie, la standardisation des modèles de données va entrainer un appauvrissement sémantique. La normalisation des modèles données sur les référentiels comme les documents d’urbanisme ou les réseaux devrait également simplifier la mise en place d’outils de certification.
Le SI17 a présenté (présentation en téléchargement ci-dessous) à l’occasion de l’atelier des Rencontres SIG La Lettre la démarche pragmatique qu’il a mis en place en Charente Maritime pour le contrôle qualité des données comme le cadastre, le domaine public, la voirie ou les PLU. Le pôle SIG a présenté son retour d’expérience sur ce sujet qui l’amène aujourd’hui à réfléchir au développement d’une infrastructure partagée pour la certification de ces référentiels de données.
Pour plus d'informations : http://www.rencontres-sig-la-lettre.fr
et téléchargement de la présentation "Une approche pragmatique de la qualité des données en Charente-Maritime" (format PDF)