Nos téléphones, nos ordinateurs, nos cartes bancaires collectent chaque jour de nombreuses données. Ce réservoir inépuisable que l’on appelle big data est le nouvel or noir d’Internet. Alors qu’il est la matière première de cette économie de l’information, certains utilisateurs s’interrogent sur la protection de leur vie privée.

L’avènement du numérique et des nouvelles technologies mobiles ont sensiblement augmenté la quantité et la nature des données circulant dans l’écosystème numérique. En 2016, une statistique livrée par IBM révélait que 90 % du volume des données en circulation avait été collecté en moins de 2 ans seulement. Preuve que le secteur du Big Data connaît une croissance exponentielle. Ces informations proviennent de partout : des messages que nous nous envoyons, des vidéos que nous publions, des signaux GPS, de nos objets connectés, etc. Elles représentent l’activité opérée par un utilisateur sur Internet. Elles sont le reflet de notre personnalité, de nos préférences d’achats, de nos goûts, de notre état de santé, de nos opinions politiques, de nos préoccupations et bien plus encore. Alors que se passe-t-il quand, par exemple, nous postons une photo sur un réseau social ? Qui utilise ces données et de quelle manière ? Comment cette information circule-t-elle ?

Comment définir le big data ?

Définition du big data

Le big data (ou mégadonnées en français) désigne l’extraction, la manipulation et l’analyse d’un ensemble de données trop volumineux pour être traité avec un outil classique de gestion. Pour cette raison, des logiciels spéciaux sont utilisés. En général, ces données sont analysées de manière statistique. C’est sur cette base statistique que des prédictions comportementales de certains groupes de personnes ou d’autres entités sont établies. Ainsi, les besoins, les tendances ou les évolutions comportementales des individus peuvent être identifiés. Les géants du web, aussi appelés GAFAM (Google, Apple, Facebook, Amazon et Microsoft), ont été les tous premiers à développer ce type de technologie et à en tirer profit.

Comment ça marche ?

Les données sont partagées et stockées sur des serveurs via l’interaction entre l’utilisation d’un smartphone par exemple et le système de stockage. Au sein de ce système, les big data peuvent être classés en systèmes actifs (les données sont envoyées directement au système de stockage) ou en systèmes passifs (les données sont collectées par un intermédiaire, par exemple un commerçant, avant d’être introduites dans le système). Ces données sont ensuite traitées grâce à des technologies qui utilisent l’Intelligence Artificielle (IA) et le Machine Learning pour générer des statistiques.

En général, le big data est caractérisé par ce qui est appelé la théorie des 5 V :

Volume (cela représente la masse d’informations produites, et donc à traiter)

(cela représente la masse d’informations produites, et donc à traiter) Variété (produits de différentes sources dans différents formats)

(produits de différentes sources dans différents formats) Vitesse (rapidité d’analyse des données en ligne)

(rapidité d’analyse des données en ligne) Véracité (les données doivent être vérifiées)

(les données doivent être vérifiées) Valeur (toutes les données n’ont pas la même valeur. Certaines sont plus fiables que d’autres, il faut donc les analyser)

Les différents types de données et la façon dont elles sont collectées

80% des données collectées par le big bata sont non structurées

On distingue deux types de données.

les données dites “structurées” : elles ont un format défini et sont organisées de sorte à faciliter le traitement (par exemple les formulaires en ligne)

: elles ont un format défini et sont (par exemple les formulaires en ligne) données dites “non structurées” : elles représentent 80% des données du big data et n’ont pas de format défini (par exemple les posts des réseaux sociaux : photos, vidéos, etc.)

Le choix de la méthode dépend de la stratégie de collecte des données, du type de variable, de la précision souhaitée, du point de collecte et des compétences de l’agent recenseur. Dans son livre Data and Goliath, Bruce Schneier, spécialiste de la sécurité informatique, distingue 6 types de données et explique comment celles-ci sont récoltées :

● les données de service (les informations fournies afin d’obtenir un service, par exemple toutes les données que détient un commerçant lorsque vous souscrivez à une carte de fidélité);

● les données révélées (ce sont celles que vous partagez consciemment sur le web en acceptant les modalités d’accès d’un site internet, comme les cookies);

● les données confiées (celles qui sont postées sur une plateforme comme Facebook, Twitter ou Instagram et que vous ne contrôlez pas nécessairement);

● les données annexes (les données partagées par d’autres qui vous identifient ou vous mentionnent, à l’image d’une photo publiée par un ami ou une connaissance. Elles sont elles aussi difficiles à contrôler);

● les données comportementales (elles sont créées par l’interaction entre vous et les machines et services comme vos comportements de navigation sur un site web ou lorsque vous achetez quelque chose en ligne);

● les données dérivées (qui sont des données vous concernant résultant d’autres données, et qui permettent aux sociétés publicitaires de dresser des profils des consommateurs dans leur globalité).

Et ceci n’est qu’une liste exhaustive. Il est impossible aujourd’hui d’inventorier tous les modes de collecte de données tant les techniques pour y parvenir s’affinent et se développent.

Des algorithmes de prédiction

Le big data peut-il prédire le futur ?

Quand la science-fiction devient réalité

On comprend bien l’intérêt qu’ont les entreprises à récolter des données personnelles précises qui leur permettent de prendre des décisions qui correspondent aux besoins du client. Alors que ces informations vendues et échangées valent de l’or et permettent d’anticiper les comportements des usagers, elles ne sont aujourd’hui plus seulement utilisées dans un contexte commercial ou sanitaire mais aussi gouvernemental. Dans des pays comme l’Allemagne, l’Angleterre ou les États-Unis, la police a décidé de s’emparer du big data et a commencé des expérimentations sur ses citoyens. Le but ? Prédire la criminalité. À l’image du film Minority report où le profil d’un criminel est déterminé avant même que les faits aient lieu, les forces de l’ordre sont déjà en place pour arrêter le délinquant.

C’est ce monde, où l’ordre et la sécurité seraient assurés à moindre frais, que nous promet la police prédictive grâce au big data. Des entreprises comme IBM ou SAP sont pionniers en la matière, mais des entreprises spécialisées comme PredPol sont aussi en train d’offrir ce service qui ont des effets juridiques bien réels sur les citoyens. Ont été alors mis au point des logiciels armés de puissants algorithmes qui viennent se servir dans des “puits de données” : la variété, le volume des informations et la vélocité de leur analyse sont sans précédent. Les résultats sont obtenus au travers de deux méthodes principales :

Le crime hotspots qui se concentre sur la répétition des faits dans un même lieu et permet d’organiser une réponse ciblée aux risques futurs.

qui se concentre sur la répétition des faits dans un même lieu et permet d’organiser une réponse ciblée aux risques futurs. Le risk terrain modeling qui prétend aller plus loin en dégageant des circonstances à risque, susceptibles de se reproduire ailleurs que dans les points sensibles déjà identifiés.

L’outil est suffisamment pris au sérieux pour que les forces de police de métropoles comme New York, Los Angeles ou Chicago s’en équipent et que le budget fédéral soutienne à hauteur de 800 000 dollars une partie des expérimentations. En Europe, des pays comme l’Allemagne semblent suivre la tendance.

Des lois inadaptées et opaques

Avec Internet, la collecte, l’utilisation et le commerce de données privées ne connaissent pas de frontières. La rapidité et les particularités de circulation des données favorisent cette internationalisation. Dans ce contexte, comment revendiquer la législation communautaire de manière légitime et efficace face au reste du monde ? Cela pousse à s’interroger sur l’efficacité d’une régulation inadaptée en raison du caractère planétaire de la circulation des données. La France est pionnière dans la protection des données personnelles et du droit des personnes, la Loi Informatique et Libertés précède le Règlement sur la protection des données (RGPD) entré en vigueur en Europe en 2018.

Malgré les lois censées nous protéger, on peut se demander si le phénomène “minority report” pourrait arriver en France. La police française est très contrôlée en termes d’accès aux données personnelles. En revanche, la DGSI (la Direction Générale de la Sécurité Intérieure) s’était tournée en 2016 vers la société privée américaine Palantir (financée par la CIA) et avait même renouvelé leur contrat. De nombreuses polémiques ont eu lieu, et même si depuis la DGSI s’est émancipée de Palantir, de nombreuses entreprises étrangères similaires continuent de faire leur nid jusqu’au sein d’administrations françaises sensibles. De plus, ces sociétés américaines dominent le monde numérique et collaborent étroitement avec les nombreuses agences de renseignements étasuniennes. Une surveillance qui semble déjà se généraliser et qui ne laisse rien présager de bon.