Enjeux des Dark analytics : aux frontières du Big data

Dark analyticsLes Dark analytics semblent promettre la gestion technico-économique la plus efficiente des données pour l’entreprise.

La notion de Dark data

Gartner définit les « Dark data » ou « données sombres » comme les données qui constituent la base de la valeur informationnelle d’une organisation, collectées, traitées et stockées dans le cadre de ses activités commerciales régulières, mais qui, de manière générale, ne sont pas exploitées pour d’autres finalités (par exemple, les analyses, les relations d’affaires et la monétisation directe) (1).

Le poids important des « Dark data » est souvent négligé dans les organisations, alors qu’il recouvre un très grand nombre de données en état de « latence », qui ne sont prises en compte, ni dans le cadre de stratégies économiques, ni de transformation digitale, pourtant dans le contexte du déploiement de projets Big data dans tous les secteurs d’activité (2).

Gartner et IBM estiment ainsi que la plupart des organisations n’utilisent que 10%, en moyenne, des données qu’elles collectent (3).

L’enjeu pour les entreprises, revient à déterminer comment analyser et exploiter ces données afin de révéler leur valeur en tant qu’actifs, par l’utilisation des technologies d’analyse et de croisement des données (aujourd’hui la catégorie prioritaire d’investissement IT (4)), en particulier, l’intelligence artificielle, les algorithmes prédictifs, et le « Deep learning » ou « Machine learning ».

Une opportunité économique

L’introduction de Dark analytics consistant à faire parler les « Dark data », constitue un enjeu d’autant plus important et stratégique que leur collecte, stockage et sécurisation entraîne généralement plus de monopolisation de ressources, de temps, et donc de frais, que de valeur.

A travers le monde, les organisations procédant à l’analyse de l’ensemble des données pertinentes pour leur activité pourraient atteindre un gain de productivité de 430 milliards de dollars par rapport à celles qui n’y procèdent pas, d’ici à 2020 (5).

Par ailleurs, les Dark analytics devraient être portées par les « Data brokers », acteurs de l’achat-vente ou revente de données inter-entreprises (en particulier les données marketing), dans la mesure notamment où les organisations qui ne les analysent pas elles-mêmes pourront les vendre à ceux qui en ont les moyens technologiques.

Une « zone des bermudes » juridique

Le déploiement de technologies de Dark analytics est confronté à des risques important en termes de responsabilité de l’organisation et notamment du DSI, tenant à la nature même des données en question puisqu’il s’agit d’analyser des informations « dormantes » de l’entreprise, qui n’ont a priori pas fait l’objet d’une analyse ou qui seront analysées pour des finalités différentes à l’avenir :

  • des données non structurées (images, photos ou vidéos) qui peuvent aujourd’hui être exploitées par des technologies d’analyse ou de data mining (par exemple l’analyse de la satisfaction client au moyen de la photographie ou vidéo de visages) ;
  • des données semi-structurées (donnés issues de textes, méls, notes et documents, logs) généralement non exploitées par les entreprises ;
  • des données accessibles sur le web invisible (« deep web ») qui ne sont pas indexées par les moteurs de recherche;
  • l’ensemble des données issues de capteurs (issues de l’IOT ou « Internet of things »).

Ce n’est pas parce que ces données n’ont pas été exploitées, ou l’ont déjà été, qu’elles ne sont pas moins protégées juridiquement dans le cadre de leur traitement ultérieur.

Au contraire, les enjeux juridiques classiquement liés au déploiement d’un projet Big data sont décuplés, notamment au regard des risques de violation :

  • des droits de propriété intellectuelle sur les données en question, notamment lorsque l’auteur et/ou le producteur disposent de droits sur les bases de données dans lesquelles figurent les données utilisées ;
  • des droits de propriété intellectuelle des outils utilisés pour l’analyse des données, en particulier s’agissant des outils sous licence open source ;
  • des conditions contractuelles encadrant l’utilisation des données ;
  • du droit à la vie privée ou du droit à l’image des personnes concernées ;
  • de la confidentialité attachée aux données ou du devoir légal de secret (secret médical ou secret professionnel) ;
  • ainsi qu’un risque majeur de violation de la règlementation Informatique et libertés :
  • par un détournement de ces données au regard de la finalité du traitement initialement invoqué et porté à l’information des personnes concernées ;
  • par l’interconnexion et le rapprochement de fichiers ;
  • par la collecte indirecte des données à caractère personnel (par exemple lors de l’aspiration des données du « deep web » ou sur les réseaux sociaux).

Présentées comme l’une des opportunités technologique ou « Trend tech » incontournable de 2017 (5), les Dark analytics n’en décuplent pas moins l’ensemble des risques juridiques liés au Big data (6), puisque précisément il s’agit d’exploiter le Big data à son efficience maximale à partir des données qui, initialement, n’y étaient pas destinées.

Dans ces conditions il convient donc d’être attentif, en amont, aux problématiques suivantes :

  • quelles données sont/peuvent être traitées?
  • quels mécanismes peuvent être mis en œuvre afin de s’assurer du respect de la règlementation et minimiser les risques ?

Il convient par ailleurs de tenir compte de la règlementation sectorielle et du modèle contractuel à adopter (7).

Un traitement de données de masse ? RGPD Versus Dark analytics

Le Règlement européen relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel (« RGPD ») adopté le 27 avril 2016 marque un tournant majeur dans la régulation et sera directement applicable dans les Etats membres de l’Union européenne le 25 mai 2018.

Le traitement de données en masse inhérent aux Dark analytics est susceptible de tomber notamment sous l’application de son article 35 (8), dans la mesure où il présenterait un risque élevé pour les droits et libertés des personnes physiques. Cet article prévoit :

« Lorsqu’un type de traitement, en particulier par le recours à de nouvelles technologies, et compte tenu de la nature, de la portée, du contexte et des finalités du traitement, est susceptible d’engendrer un risque élevé pour les droits et libertés des personnes physiques, le responsable du traitement effectue, avant le traitement, une analyse de l’impact des opérations de traitement envisagées sur la protection des données à caractère personnel. Une seule et même analyse peut porter sur un ensemble d’opérations de traitement similaires qui présentent des risques élevés similaires ».

Si cet article apporte une liste non-exhaustive des traitements présentant un « risque élevé », le G29 précise au sein de ses lignes directrices sur l’analyse d’impact relative à la protection des données (9) que doivent être notamment pris en compte les éléments suivants qui caractérisent plus communément le projet Big data de Dark analytics :

  • les données sont traitées à grand échelle, au regard notamment du nombre de personnes concernées, du volume de données traitées, la durée ou permanence des traitements et leur étendue géographique ;
  • plusieurs ensembles de données ont été fusionnées ou combinées ;
  • les traitements sont opérés au moyen de l’application de solutions technologiques ou organisationnelles innovantes.

Aussi dans le ce cadre, le principe d’ « Accountability » pourra imposer la réalisation d’une étude ou analyse d’impact préalablement à la mise en œuvre des traitements concernés, de sorte à pouvoir être communiquée à la Cnil à sa demande et à rapporter la preuve, de la mise en place des mesures de protection appropriées.

Dans le cadre d’un projet Big data ambitieux, surtout lorsqu’il est orienté Dark analytics, les entreprises doivent dès à présent repenser leurs pratiques politique de conformité Informatique et libertés, sous peine de se voir exposées à des risques d’atteinte à leur réputation et de condamnations financières.

Il s’agit d’un enjeu crucial au regard des sanctions encourues (de 2 à 4% du chiffre d’affaires mondial) d’une part, en termes de compétitivité d’autre part.

Jean-François Forgeron
Benjamin-Victor Labyod
Lexing Droit de l’informatique

(1) Site Gartner, IT Glossary « Dark data » ;
(2) Jean-François Forgeron & Jennifer Knight, « Big data agricole » : quel encadrement contractuel ?, Alain-Bensoussan.com 3-5-2016 ;
(3) Silicon Angle : “Digging up dark data: What puts IBM at the forefront of insight economy”, 11-3-2015;
(4) “Dark analytics, Illuminating opportunities hidden within unstructured data”, Deloitte Tech Trends 2017, 7-2-2017 ;
(5) “IDC FutureScape: Worldwide big data, business analytics, and cognitive software 2017 predictions,” December 2016, International Data Corporation ;
(6) Avocat Big Data Alain-Bensoussan.com ;
(7) Jean-François Forgeron « Vous avez dit Big Data ? », Alain-Bensoussan.com 3-5-2012 ;
(8) Article 35 du Règlement UE 2016/679 du 27-4-2016, Règlement général sur la protection des données « Analyse d’impact relative à la protection des données » ;
(9) G29, “Guidelines on Data Protection Impact Assessment (DPIA) and determining whether processing is “likely to result in a high risk” for the purposes of Regulation 2016/679”, 4-4-2017.

Retour en haut