Qu'est-ce que Microsoft Purview et pourquoi l'adopter ?
Microsoft Purview regroupe les anciennes solutions Azure Purview et Microsoft 365 Compliance sous une plateforme unique. Cette consolidation apporte trois composantes majeures :
Data Map : cartographie automatisée de l'ensemble du patrimoine de données via des connecteurs natifs vers Azure (Synapse, SQL, Blob Storage), AWS S3, Google Cloud, Snowflake, et plus de 120 sources tierces. Le scan automatique détecte et classifie les données selon leur sensibilité (informations personnelles identifiables, données financières, secrets commerciaux).
Catalogue unifié : interface centralisée où les équipes métier et techniques recherchent, comprennent et exploitent les données via un glossaire métier personnalisable. Contrairement aux catalogues classiques limités à la documentation, Purview enrichit automatiquement les métadonnées avec des informations de qualité, de fraîcheur et de propriété.
Solutions de conformité et sécurité : gestion du cycle de vie des données, étiquetage de confidentialité, prévention des pertes de données (DLP), gestion des risques internes et surveillance des activités utilisateurs sur Microsoft 365, Teams et applications métier.
L'avantage principal : une instance unique au niveau organisationnel qui élimine les silos de gouvernance et centralise les politiques de sécurité. Pas de multiplication de comptes, une seule source de vérité.
Les piliers de la gouvernance des données avec Microsoft Purview
Découverte et classification automatiques
Purview scanne automatiquement vos sources de données pour identifier le contenu et appliquer des classifications prédéfinies ou personnalisées. Plus de 200 types de données sensibles sont détectés par défaut : numéros de carte bancaire, NIR, passeports, emails, données de santé.
Le moteur de classification utilise le pattern matching et le machine learning pour réduire les faux positifs. Vous pouvez créer vos propres règles de classification métier (codes produits internes, identifiants clients spécifiques).
Traçabilité de bout en bout (Data Lineage)
La lineage visualise les flux de données depuis leur source jusqu'à leur utilisation finale dans les rapports Power BI, les modèles d'IA ou les applications métier. Cette traçabilité est cruciale pour :
- Analyser l'impact des modifications sur les chaînes de traitement
- Identifier les dépendances entre systèmes lors de migrations
- Répondre aux audits de conformité en démontrant l'origine et les transformations des données
Purview capture automatiquement la lineage depuis Azure Data Factory, Synapse Pipelines, Power BI et peut être enrichie manuellement via API pour les outils tiers.
Gestion des métadonnées et glossaire métier
Le glossaire métier structure la terminologie de l'entreprise : définitions partagées, hiérarchies de concepts, synonymes. Cela réduit les incompréhensions entre équipes et accélère l'adoption des données par les utilisateurs non-techniques.
Les conservateurs de données (data stewards) assignent des propriétaires, des experts et des certifications aux actifs de données. Le catalogue devient un référentiel vivant, pas une documentation figée.
Sécurité et conformité : RGPD, HIPAA et au-delà
Protection des données sensibles et DLP
Les étiquettes de confidentialité Microsoft Purview (héritées de Microsoft Information Protection) se propagent automatiquement depuis la source jusqu'aux copies, exports et visualisations. Une donnée étiquetée "Confidentiel - RH" dans SQL Server conserve son étiquette dans Excel, SharePoint et Power BI.
La prévention des pertes de données (DLP) bloque les fuites : interdiction d'envoyer des fichiers contenant des données personnelles hors de l'organisation, chiffrement automatique des pièces jointes sensibles, alertes en temps réel sur les partages non autorisés.
Conformité RGPD et droits des personnes
Purview facilite la réponse aux demandes de droit d'accès (DSAR) : recherchez toutes les mentions d'un individu à travers Azure, Microsoft 365, SharePoint et bases tierces via une requête unifiée. Exportez ou supprimez les données en masse.
Le rapport d'impact sur la protection des données (DPIA) s'appuie sur l'inventaire automatisé des traitements pour documenter les flux de données personnelles, les durées de conservation et les mesures de sécurité.
Gestion des risques internes et surveillance
Le module Insider Risk Management détecte les comportements anormaux : téléchargement massif de fichiers avant un départ, accès à des données sensibles non liées aux fonctions habituelles, exfiltration vers des comptes personnels. Les alertes permettent aux équipes de sécurité d'intervenir avant la fuite.
Communication Compliance surveille les échanges Microsoft Teams, Outlook et Yammer pour identifier les violations de politiques : harcèlement, informations privilégiées (trading), langage discriminatoire.
Déploiement et intégration dans les environnements multicloud
Architecture et tarification
Purview adopte un modèle pay-as-you-go basé sur :
- Les Data Governance Processing Units (DGPU) consommées lors des scans et analyses
- Le volume de données scannées et cataloguées
- Les fonctionnalités de conformité activées (certaines nécessitent Microsoft 365 E5)
Une version gratuite permet de démarrer avec des fonctionnalités limitées. La mise à niveau vers l'édition entreprise déverrouille toutes les sources, la lineage avancée et les rapports personnalisés.
Déploiement : compte unique au niveau du tenant Azure / Microsoft 365. Pas de gestion multi-comptes complexe. Les métadonnées sont stockées dans votre région Azure pour respecter la souveraineté des données.
Connectivité et sécurité réseau
Purview supporte les points de terminaison privés Azure Private Link pour isoler le trafic de scan du réseau public. Les pare-feu doivent autoriser les nouveaux endpoints :
- Portail : purview.microsoft.com
- API : api.purview-service.microsoft.com
Les anciennes URLs (web.purview.azure.com) sont en cours de dépréciation, préparez la migration.
Intégration avec l'écosystème Microsoft et tiers
Natif avec Azure Synapse, Data Factory, Databricks sur Azure, Power BI, Microsoft Fabric. Les métadonnées circulent automatiquement entre ces services.
Pour les environnements multi-cloud : connecteurs vers AWS (S3, RDS, Redshift, Glue), Google Cloud (BigQuery, Cloud Storage), Snowflake, Oracle, SAP HANA, Teradata. Les scans utilisent des credentials gérés via Azure Key Vault ou des service principals.
L'API REST permet d'étendre Purview à vos outils propriétaires : pipelines de données custom, applications métier, outils de data science.
ROI et cas d'usage concrets : au-delà du buzzword
Cas d'usage 1 : Accélération des projets data grâce au self-service
Avant Purview : les data analysts passent 60% de leur temps à chercher les bonnes données, à comprendre leur structure et à contacter les propriétaires.
Avec Purview : recherche en quelques secondes via le catalogue, documentation automatique (schémas, statistiques, exemples de valeurs), approbations d'accès via workflow intégrés. Time-to-insight divisé par 3.
Cas d'usage 2 : Réduction des risques de non-conformité
Une entreprise du secteur santé doit prouver la conformité HIPAA. Purview identifie automatiquement les 47 bases contenant des données patients, applique les étiquettes de confidentialité, bloque les exports non chiffrés et génère les rapports d'audit. Coût d'une mise en conformité manuelle : 6 mois, 200k€. Avec Purview : 6 semaines, économie de 150k€.
Cas d'usage 3 : Migration cloud sans rupture
Migration d'un data warehouse on-premise vers Azure Synapse. Purview mappe les dépendances : 230 tables, 1200 vues, 450 rapports Power BI. Identification des données obsolètes (30% non utilisées depuis 2 ans) = réduction des coûts de migration de 40%. La lineage garantit que tous les flux critiques sont testés avant coupure.
Limites et points de vigilance
Courbe d'apprentissage : la richesse fonctionnelle impose une formation des équipes. Les rôles (administrateur de gouvernance, conservateur de données, créateur de domaine) doivent être clairement définis.
Performance sur volumes massifs : les scans de pétaoctets peuvent être longs et coûteux en DGPU. Optimisez en ciblant les sources critiques, excluez les données temporaires.
Couverture des connecteurs : certains systèmes legacy ou applications SaaS nichées nécessitent du développement custom. Vérifiez la disponibilité des connecteurs pour vos outils avant engagement.
Dépendance à l'écosystème Microsoft : si votre stratégie est 100% AWS ou GCP, des solutions comme AWS Glue Data Catalog ou Google Dataplex peuvent offrir une meilleure intégration native. Purview brille dans les environnements hybrides centrés sur Azure.
Conclusion : Microsoft Purview, investissement stratégique ou effet de mode ?
Microsoft Purview n'est pas un gadget mais une nécessité pour les organisations dépassées par la prolifération des données. La valeur réside moins dans les fonctionnalités individuelles (qu'on trouve chez des concurrents comme Collibra, Alation, DataGalaxy) que dans l'intégration native avec l'écosystème Microsoft : Azure, Microsoft 365, Power BI, Fabric.
Le choix se résume à votre stack technologique : si vous êtes déjà engagé avec Microsoft, Purview élimine les frictions. Si vous cherchez une solution agnostique ou privilégiez l'expérience utilisateur métier, explorez les alternatives.
L'erreur à éviter : déployer Purview sans stratégie de gouvernance claire. L'outil ne remplace pas la réflexion organisationnelle sur la propriété des données, les processus de validation et la culture data. Commencez par un domaine métier pilote, mesurez les gains (temps économisé, risques évités), puis industrialisez.
Prochaines étapes recommandées :
- Activez la version gratuite pour explorer les fonctionnalités sur un sous-ensemble de données
- Identifiez 2-3 cas d'usage à ROI rapide (conformité RGPD, accélération BI, migration cloud)
- Formez une équipe de gouvernance transverse (IT + métier)
- Déployez par itérations : ne visez pas l'exhaustivité immédiate, priorisez les sources à forte valeur
Microsoft Purview est un investissement sur 3-5 ans, pas une solution miracle instantanée. Mais dans un contexte de durcissement réglementaire et d'explosion des volumes de données, différer la gouvernance coûte plus cher que l'adopter.