Nos téléphones, nos ordinateurs, nos cartes bancaires collectent chaque jour de nombreuses données. Ce réservoir inépuisable que l’on appelle big data est le nouvel or noir d’Internet. Alors qu’il est la matière première de cette économie de l’information, certains utilisateurs s’interrogent sur la protection de leur vie privée.
Réussir à éliminer toutes traces de vos informations sur internet tient aujourd’hui de l’exploit. C’est pour cette raison qu’il existe des services d’aides à la suppression de données. Incogni propose pour 5,79€ par mois de retirer à votre place toutes les informations collectées sur vous que vous souhaitez effacer. C’est le meilleur moyen d’éviter les vols de données, leur partage ou leur diffusion en ligne. En savoir plus.
L’avènement du numérique et des nouvelles technologies mobiles ont sensiblement augmenté la quantité et la nature des données circulant dans l’écosystème numérique. En 2016, une statistique livrée par IBM révélait que 90 % du volume des données en circulation avait été collecté en moins de 2 ans seulement. Preuve que le secteur du Big Data connaît une croissance exponentielle. Ces informations proviennent de partout : des messages que nous nous envoyons, des vidéos que nous publions, des signaux GPS, de nos objets connectés, etc. Elles représentent l’activité opérée par un utilisateur sur Internet. Elles sont le reflet de notre personnalité, de nos préférences d’achats, de nos goûts, de notre état de santé, de nos opinions politiques, de nos préoccupations et bien plus encore. Alors que se passe-t-il quand, par exemple, nous postons une photo sur un réseau social ? Qui utilise ces données et de quelle manière ? Comment cette information circule-t-elle ?
La définition et l’histoire du big data
Le big data (ou mégadonnées en français) désigne l’extraction, la manipulation et l’analyse d’un ensemble de données trop volumineuses pour être traitées avec un outil classique de gestion. Pour cette raison, des logiciels spéciaux sont utilisés. En général, ces données sont analysées de manière statistique. C’est sur cette base statistique que des prédictions comportementales de certains groupes de personnes ou d’autres entités sont établies. Ainsi, les besoins, les tendances ou les évolutions comportementales des individus peuvent être identifiés. Les géants du web, aussi appelés GAFAM (Google, Apple, Facebook, Amazon et Microsoft), ont été les tout premiers à développer ce type de technologie et à en tirer profit.
L’histoire du Big Data
Les technologies du Big Data, bien qu’elles soient relativement récentes, remontent à plus longtemps qu’on ne le pense. L’utilisation de la récolte de données pour en faire des ensembles à analyser remonte aux années 80. Mais, c’est dans les années 2000 avec l’avènement de l’informatique et de l’intelligence artificielle qu’on a vu naître des véritables outils de gestion de données tel que Hadoop (Spark) ou NoSQL. Ces logiciels open sources permettent la récolte et le traitement de données de Big Data. Leur intérêt n’a fait que croitre et notamment avec l’apparition des objets connectés et la multiplication de données et leur analyse.
Comment ça marche ?
Les données sont partagées et stockées sur des serveurs via l’interaction entre l’utilisation d’un smartphone par exemple et le système de stockage. Au sein de ce système, les big data peuvent être classés en systèmes actifs (les données sont envoyées directement au système de stockage) ou en systèmes passifs (les données sont collectées par un intermédiaire, par exemple un commerçant, avant d’être introduites dans le système). Ces données sont ensuite traitées grâce à des technologies qui utilisent l’Intelligence Artificielle (IA) et le Machine Learning pour générer des statistiques.
En général, le big data est caractérisé par ce qui est appelé la théorie des 5 V :
- Volume (cela représente la masse d’informations produites, et donc à traiter)
- Variété (produits de différentes sources dans différents formats)
- Vitesse (rapidité d’analyse des données en ligne)
- Véracité (les données doivent être vérifiées)
- Valeur (toutes les données n’ont pas la même valeur. Certaines sont plus fiables que d’autres, il faut donc les analyser)
Les différents types de données et la façon dont elles sont collectées
On distingue deux types de données :
- les données dites “structurées” : elles ont un format défini et sont organisées de sorte à faciliter le traitement (par exemple les formulaires en ligne)
- les données dites “non structurées” : elles représentent 80% des données du big data et n’ont pas de format défini (par exemple les posts des réseaux sociaux : photos, vidéos, etc.)
Le choix de la méthode dépend de la stratégie de collecte des données, du type de variable, de la précision souhaitée, du point de collecte et des compétences de l’agent recenseur. Dans son livre Data and Goliath, Bruce Schneier, spécialiste de la sécurité informatique, distingue 6 types de données et explique comment celles-ci sont récoltées :
● les données de service (les informations fournies afin d’obtenir un service, par exemple toutes les données que détient un commerçant lorsque vous souscrivez à une carte de fidélité);
● les données révélées (ce sont celles que vous partagez consciemment sur le web en acceptant les modalités d’accès d’un site internet, comme les cookies);
● les données confiées (celles qui sont postées sur une plateforme comme Facebook, Twitter ou Instagram et que vous ne contrôlez pas nécessairement);
● les données annexes (les données partagées par d’autres qui vous identifient ou vous mentionnent, à l’image d’une photo publiée par un ami ou une connaissance. Elles sont elles aussi difficiles à contrôler);
● les données comportementales (elles sont créées par l’interaction entre vous et les machines et services comme vos comportements de navigation sur un site web ou lorsque vous achetez quelque chose en ligne);
● les données dérivées (qui sont des données vous concernant résultant d’autres données, et qui permettent aux sociétés publicitaires de dresser des profils des consommateurs dans leur globalité).
Et ceci n’est qu’une liste exhaustive. Il est impossible aujourd’hui d’inventorier tous les modes de collecte de données tant les techniques pour y parvenir s’affinent et se développent.
Des algorithmes de prédiction avec le traitement de données
On comprend bien l’intérêt qu’ont les entreprises à récolter des données personnelles précises qui leur permettent de prendre des décisions qui correspondent aux besoins du client. Alors que ces informations vendues et échangées valent de l’or et permettent d’anticiper les comportements des usagers, elles ne sont aujourd’hui plus seulement utilisées dans un contexte commercial ou sanitaire mais aussi gouvernemental.
Dans des pays comme l’Allemagne, l’Angleterre ou les États-Unis, la police a décidé de s’emparer du big data et a commencé des expérimentations sur ses citoyens. Le but ? Prédire la criminalité. À l’image du film Minority report où le profil d’un criminel est déterminé avant même que les faits aient lieu, les forces de l’ordre sont déjà en place pour arrêter le délinquant.
Quand la science-fiction devient réalité
C’est ce monde, où l’ordre et la sécurité seraient assurés à moindres frais, que nous promet la police prédictive grâce au big data. Des entreprises comme IBM ou SAP sont pionniers en la matière, mais des entreprises spécialisées comme PredPol sont aussi en train d’offrir ce service qui a des effets juridiques bien réels sur les citoyens. Ont été alors mis au point des logiciels armés de puissants algorithmes qui viennent se servir dans des “puits de données” : la variété, le volume des informations et la vélocité de leur analyse sont sans précédent. Les résultats sont obtenus au travers de deux méthodes principales :
- Le crime hotspots qui se concentre sur la répétition des faits dans un même lieu et permet d’organiser une réponse ciblée aux risques futurs.
- Le risk terrain modeling qui prétend aller plus loin en dégageant des circonstances à risque, susceptibles de se reproduire ailleurs que dans les points sensibles déjà identifiés.
L’outil est suffisamment pris au sérieux pour que les forces de police de métropoles comme New York, Los Angeles ou Chicago s’en équipent et que le budget fédéral soutienne à hauteur de 800 000 dollars une partie des expérimentations. En Europe, des pays comme l’Allemagne semblent suivre la tendance.
Une vidéo qu’on l’on vous conseille traite du sujet de prédictions des crimes avec le big data : Peut-on prédire les futurs crimes ? — par Fouloscopie.
Des lois inadaptées et opaques
Avec Internet, la collecte, l’utilisation et le commerce de données privées ne connaissent pas de frontières. La rapidité et les particularités de circulation des données favorisent cette internationalisation. Dans ce contexte, comment revendiquer la législation communautaire de manière légitime et efficace face au reste du monde ? Cela pousse à s’interroger sur l’efficacité d’une régulation inadaptée en raison du caractère planétaire de la circulation des données. La France est pionnière dans la protection des données personnelles et du droit des personnes, la Loi Informatique et Libertés précède le Règlement sur la protection des données (RGPD) entré en vigueur en Europe en 2018.
Malgré les lois censées nous protéger, on peut se demander si le phénomène “minority report” pourrait arriver en France. La police française est très contrôlée en termes d’accès aux données personnelles. En revanche, la DGSI (la Direction Générale de la Sécurité Intérieure) s’était tournée en 2016 vers la société privée américaine Palantir (financée par la CIA) et avait même renouvelé leur contrat. De nombreuses polémiques ont eu lieu, et même si depuis la DGSI s’est émancipée de Palantir, de nombreuses entreprises étrangères similaires continuent de faire leur nid jusqu’au sein d’administrations françaises sensibles. De plus, ces sociétés américaines dominent le monde numérique et collaborent étroitement avec les nombreuses agences de renseignements étasuniennes. Une surveillance qui semble déjà se généraliser et qui ne laisse rien présager de bon.
Qu’est-ce que l’identité numérique ?
L’identité numérique représente l’ensemble des traces numériques qui sont laissées par une personne ou par une sur Internet. Une identité numérique est constituée par : un pseudo, un nom, des images, des vidéos, des adresses IP, des favoris, des commentaires, etc.
Qu’est-ce qu’une donnée personnelle ?
Selon la CNIL, une donnée personnelle est « toute information qui se rapporte à une personne physique identifiée ou identifiable ». Tout individu a le droit de conserver sur internet son anonymat et tout individu a aussi le droit de maîtriser l’exploitation de ses données, surtout sur les réseaux sociaux.
Est-ce possible de récupérer ses données personnelles ?
Sachez que si vous le souhaitez, vous avez la possibilité de récupérer l’ensemble de vos données personnelles sur une plateforme numérique qui les utilise. Les sites seront obligés de vous les fournir. Ce droit vous permet de vous faire une idée sur le type de données qui sont en la possession de ces sites. Cela vous permet aussi de connaître la réutilisation et l’exploitation des données qui est faite sur d’autres plateformes pour de nouveaux usages, voire de nouvelles valorisations.
Comment naviguer de façon plus sécurisée ?
Pour naviguer de façon plus sécurisée nous vous conseillons de privilégier d’autres moteurs de recherche que Google, de configurer votre historique de navigation et de l’effacer régulièrement, de paramétrer vos cookies, d’utiliser un VPN sécurisé,
vous pouvez aussi installer sur votre navigateur le logiciel Lightbeam (qui vous permet de visualiser sur un site tous les partenaires qui viennent se servir en données), nous vous recommandons également d’effacer les informations d’identification (que Windows conserve) et enfin d’utiliser des outils comme DoNotTrackMe.
Depuis combien de temps les données sont-elles collectées ?
À partir du XVIème siècle, le travail d’architectures de données s’est développé de façon importante avec l’essor des structures administratives gouvernementales. Les états pouvaient ainsi développer une meilleure connaissance de leurs populations, en décrivant leurs caractéristiques suivant des variables spécifiques (âge des individus, profession, situation géographique,etc.). Les éléments ainsi réunis transformaient la population en données. Ces premières bases de données, issues des premiers recensements, étaient faites à la main et conservées sur papier.