Comment améliorer la qualité des données ?

Augmenter la qualité des données : agir sur les causes profondes

Il faut repenser la donnée comme un produit interne :

Une première approche consiste à considérer certaines données comme des produits internes, avec des utilisateurs, un niveau de service attendu et une responsabilité claire.

Cette idée change profondément la manière de traiter la qualité : une donnée client, fournisseur, contrat, équipement ou application n’est pas seulement un champ dans une base, c’est à l'origine un actif utilisé par plusieurs métiers, parfois dans des contextes très différents.
DYNAMAP SI appelle ça un objet métier.

Lorsqu’une donnée est pensée comme un produit, on ne se contente plus de demander si elle est correcte.
On se demande à quoi elle sert, qui la consomme, quelles décisions elle alimente, quel niveau de fraîcheur est acceptable, quelle ambiguïté est tolérable, et quelles conséquences provoque une erreur.
Une donnée peut être suffisamment bonne pour produire un reporting mensuel, mais insuffisante pour automatiser une décision opérationnelle ou réglementaire.
D'où l'importance de cartographier la donnée métier.

Cette approche évite un piège fréquent : vouloir améliorer toute la donnée avec le même niveau d’exigence et la qualité coûte cher.
Il faut donc différencier les données critiques des données secondaires.

La vraie maturité consiste à savoir quelles données ne peuvent pas se permettre d’être médiocres.

Identifier les moments où la donnée change de signification

Une donnée devient rarement mauvaise d’un seul coup, elle se dégrade souvent lorsqu’elle traverse des frontières : entre deux applications, entre deux métiers, entre un référentiel et un outil local, entre une logique commerciale et une logique comptable, entre une vision projet et une vision exploitation.

Ces passages sont des zones de transformation sémantique.
Par exemple, un client actif ne signifie pas toujours la même chose pour le marketing, la facturation, le support ou la conformité.
Un contrat en cours peut désigner un contrat signé, facturable, juridiquement valide, techniquement activé ou simplement non résilié.

Le problème est que plusieurs vérités coexistent sous le même nom.

Un levier puissant consiste donc à cartographier les changements de signification.
Il faut repérer les endroits où une même donnée est réinterprétée, enrichie, résumée, agrégée ou renommée.
C’est souvent là que naissent les écarts les plus coûteux.
La qualité des données dépend autant de la stabilité du sens que de la conformité du format.

Mesurer la qualité par l’impact, pas seulement par le taux d’erreur

Les indicateurs classiques de qualité : complétude, unicité, validité, fraîcheur, cohérence sont nécessaires, mais souvent insuffisants.
Ils décrivent l’état de la donnée, pas son effet sur l’entreprise.
Or une donnée peut être techniquement imparfaite sans conséquence réelle, tandis qu’une petite erreur sur une donnée critique peut bloquer une facturation, fausser une décision d’investissement ou dégrader l’expérience client.

Il est donc utile d’introduire des indicateurs orientés impact.

Combien d’heures sont perdues chaque mois à retraiter des données ?
Combien de décisions sont retardées faute de fiabilité ?
Combien de litiges proviennent d’informations incohérentes ?
Combien d’automatisations sont impossibles parce que les données d’entrée ne sont pas suffisamment fiables ?
Combien de contrôles manuels subsistent uniquement pour compenser une mauvaise qualité de données ?

Cette mesure par l’impact permet de sortir d’une logique abstraite et aide à prioriser les efforts et à justifier les investissements.
Une anomalie est grave parce qu’elle coûte, ralentit, expose ou empêche.

Créer des boucles de retour vers les producteurs de données

En général, ceux qui subissent les mauvaises données ne sont pas ceux qui les produisent.
Le service financier corrige des informations saisies par le commerce.
Les équipes BI retraitent des données issues des opérations.
Les équipes support compensent des informations incomplètes venues de l’avant-vente.

Cette séparation crée une irresponsabilité structurelle : les producteurs ne voient pas les conséquences de leurs erreurs.

Créer des boucles de retour courtes entre consommateurs et producteurs de données : Lorsqu’une donnée génère un retraitement, une ambiguïté ou une erreur, l’information doit revenir vers le point de production.

Non pas sous forme de reproche, mais sous forme de signal opérationnel : voici le type d’erreur, voici sa fréquence, voici son impact, voici la correction attendue.

La qualité progresse quand les équipes comprennent les conséquences réelles de la donnée qu’elles créent.
Une donnée n’est pas seulement saisie, elle est transmise à d’autres acteurs qui l’utilisent pour décider, facturer, planifier, contrôler ou automatiser.

Rendre cette chaîne visible change les comportements : la chaîne de valeur de la donnée (concept DYNAMAP SI)

Réduire la liberté inutile dans les processus de saisie

Une grande partie de la mauvaise qualité provient d’une liberté excessive laissée aux utilisateurs : champs texte libres, nomenclatures locales, contournements tolérés, options trop nombreuses, absence de valeurs par défaut intelligentes, ou écrans construits selon la logique de la base de données plutôt que selon la logique métier.
Et maintenant intégration de la donnée générée par IA dans les repositories des entreprises (folie ou suite logique, je vote pour une forme de folie).

Améliorer la qualité des données passe donc parfois par une réduction volontaire des degrés de liberté.

Cela ne signifie pas rigidifier tous les processus, mais distinguer les zones où la liberté est utile de celles où elle produit du désordre.

Un champ libre peut être pertinent pour un commentaire, mais dangereux pour une catégorie métier structurante.

Une liste déroulante peut être utile, mais seulement si sa gouvernance est réelle.

Une règle de saisie peut éviter des erreurs, mais elle doit être compréhensible par l’utilisateur au moment de l’action.

La qualité de données dépend beaucoup de l’ergonomie des processus : une donnée fiable est souvent une donnée que le système rend facile à produire correctement et difficile à produire incorrectement.

Introduire une responsabilité économique de la donnée

Chaque grande famille de données devrait pouvoir être associée à des coûts de non-qualité : temps de correction, pertes de chiffre d’affaires, retards de facturation, erreurs de stock, risques réglementaires, mauvaise allocation de ressources, perte de confiance dans les tableaux de bord.

Cette traduction économique transforme le sujet.

Cette responsabilité économique peut aussi modifier les arbitrages.
Lorsqu’un métier demande une nouvelle donnée, une nouvelle application ou un nouveau reporting, il devrait être capable de préciser le niveau de qualité attendu et le coût acceptable pour l’obtenir.

La qualité n’est jamais gratuite et doit être proportionnée à l’usage.

DYNAMAP SI intègre la donnée au coeur du framework et donc sa qualité, sa gouvernance et bien sûr le gain généré par la qualité et le coût de sa non qualité en termes d'image et de perte par exemple.

Yann-Eric DEVARS DSI et Architecte d'entreprise

Retour au blog

Le framework DYNAMAP

Boutique DYNAMAP - Architecture d'Entreprise

BUNDLE Complet

Retrouvez la méthode d'architecture d'entreprise complète DYNAMAP comprenant le manuel de cartographie du système d'information ainsi que le guide des livrables et le manuel de survie de l'architecte du système d'information dans un BUNDLE :