Politique
RGPD

Contrôleur de données

Administrateur du système réseau et internet interne. Contrôle du RGPD.

 

Données personnelles collectées

 

Qu’est-ce qu’une donnée personnelle ?

          Les données personnelles se définissent comme « toutes informations se rapportant à une personne physique identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale » selon l’article 4 du Règlement européen sur la protection des données.

Lors de l’utilisation d’applications mobiles, de services en ligne ou encore d’objets connectés, vous laissez derrière vous des « traces » informatiques. Celles-ci permettent donc de fournir les entreprises en données personnelles : vos préférences de sites, vos habitudes d’achat, votre quotidien, votre état de santé, etc… Déjà regardés avec méfiance et crainte, mais aussi avec fascination, les acteurs numériques se doivent désormais de se conformer à quelques règles et limitations pour regagner votre confiance.

Les différents scandales relatifs aux données personnelles usurpées par les entreprises soulèvent des interrogations sur la collecte de vos données et surtout de leur réutilisation. Le traitement monétisé (location de bases de données ou encore routages des informations) des données personnelles permet à certains acteurs en quasi-monopole d’en retirer des milliards de dollars, car ils donnent la possibilité aux annonceurs d’utiliser vos informations et d’effectuer des publicités ciblées, parfois très intrusives.

La nouvelle structure dans la gestion des données apportée par le RGPD permettra d’assainir les échanges entre les particuliers et les entreprises. La relation sera facilitée grâce à des principes simples comme, par exemple, la minimisation des données ainsi que leur mise à jour par le responsable du traitement des données, ou encore par la transparence dans la gestion de vos données personnelles par vos fournisseurs.

Quelles sont les données personnelles les plus collectées ?

Si vous savez désormais que de nombreuses informations personnelles sont reprises et collectées par les entreprises, vous ne savez pas lesquelles en particulier, ce qui reste assez difficile à définir encore aujourd’hui.

Que ce soit via les réseaux sociaux (Facebook, Instagram ou Twitter), ou des moteurs de recherche comme Google, les informations les plus souvent collectées sont celles ayant un « atout publicitaire » pour pouvoir être retravaillées par les annonceurs. Vous êtes de plus en plus préoccupés par la question de la protection de votre vie privée sur internet, cela est avant tout une question de confiance envers le type d’entreprise. En effet, selon une étude du CSA 2017, vous êtes plus de 50% à faire confiance aux banques pour la gestion de données personnelles, contre seulement 10% à faire confiance aux réseaux sociaux.

 

Les données les plus souvent collectées par les organismes sont les suivantes :


          – les informations démographiques : nom, prénom, âge, sexe, marié ou célibataire…
          – les informations comportementales : les habitudes d’achats, les sites visités, la durée de session…
          – les centres d’intérêts : si l’internaute s’intéresse aux posts sportifs, s’il affiche une quelconque couleur politique ou s’il est           intéressé par du Do-It-Yourself…
          – les données relatives à la navigation : Le type d’appareil utilisé, la localisation précise ou encore le numéro de portable                 ou le numéro IMEI (International Mobile Equipment Identity)

Cette collecte massive et systématique de données, qu’on appelle le Big Data, vit ses derniers jours en ce qui concerne les données personnelles. En effet, l’entrée en vigueur du RGPD le 25 mai 2018 impose le principe de « minimisation des données ». Concrètement, une entreprise _ou n’importe quelle organisation utilisant des données personnelles_ sera contrainte de ne collecter que les données personnelles « adéquates et pertinentes au regard des finalités pour lesquelles elles sont traitées » (art. 5).

Au-delà de la minimisation des données, le RGPD renforce les obligations de transparence des entreprises vis-à-vis des particuliers : il leur faudra fournir une information complète sur les traitements de vos données, et cette information se devra ENFIN d’être claire. Finies les petites lignes dissimulées au milieu de dizaines de pages illisibles, place aux informations fournies « […] d’une façon concise, transparente, compréhensible et aisément accessible, en des termes clairs et simples ».

 

Sous ce principe de transparence, et selon l’article 13 du RGPD, quel que soit le mode de collecte utilisé, l’entreprise devra vous informer en outre de :


          – Son identité, de ses coordonnées, et de celles du DPO (délégué à la protection des données)
          – La finalité du traitement et de la base juridique (consentement, contrat, etc.)
          – L’identité des destinataires des données
          – L’existence de transferts en dehors de l’UE
          – La durée de conservation des données
          – Etc…

          Accessibles au moment de la collecte des données personnelles, ces informations peuvent également être obtenues dans le cadre de l’exercice de votre droit d’accès. Tiers de confiance entre les particuliers et les entreprises pour les échanges de données personnelles, la plateforme Myfairdata facilite l’exercice de ce droit et favorise la plus grande transparence dans les services numériques.

 

Objectif de la collecte des données :

Comprendre les objectifs de l’étude

          La première étape de la collecte de données consiste à comprendre les objectifs de l’étude. Cela implique de définir les questions de recherche que l’analyse de données devra répondre. Les objectifs de l’étude peuvent être très variés, allant de la compréhension des habitudes de consommation des clients à l’analyse de la performance des employés.

Une fois que les questions de recherche ont été définies, il est important d’identifier les types de données nécessaires pour y répondre. Par exemple, pour comprendre les habitudes de consommation des clients, il peut être nécessaire de collecter des données sur leurs achats, leur âge, leur sexe, leur lieu de résidence, etc.

Enfin, il est important de déterminer les critères de qualité des données, tels que la fiabilité, la validité et la pertinence. Les critères de qualité aideront à évaluer la qualité des données collectées et à garantir qu’elles répondent aux objectifs de l’étude.

 

Identifier les types de données nécessaires

          Pour identifier les types de données nécessaires, il est important de revenir aux questions de recherche qui ont été définies. Les données nécessaires dépendent de l’objectif de l’étude.

Par exemple, si l’objectif de l’étude est de comprendre les habitudes de consommation des clients, les données nécessaires pourraient inclure :

  • Les transactions d’achat (date, heure, produit acheté, montant, etc.)
  • Les informations démographiques (âge, sexe, lieu de résidence, etc.)
  • Les données comportementales (fréquence d’achat, produits achetés ensemble, etc.)
  • Les commentaires ou les évaluations laissés par les clients sur les produits ou les services

En général, les types de données nécessaires pour répondre à une question de recherche sont déterminés en fonction de la nature de la question et des hypothèses de l’étude. Il est important de s’assurer que les données collectées répondent aux questions de recherche et qu’elles sont de qualité suffisante pour l’analyse.

 

Déterminer les critères de qualité des données

Déterminer les critères de qualité des données est une étape cruciale de la collecte de données. Les critères de qualité permettent d’évaluer la qualité des données collectées et de s’assurer qu’elles sont fiables, valides et pertinentes pour répondre aux questions de recherche.

Voici quelques critères de qualité des données :

  • Fiabilité : Les données doivent être cohérentes et reproductibles. Cela signifie que si les mêmes données sont collectées plusieurs fois, elles doivent donner les mêmes résultats.
  • Validité : Les données doivent mesurer ce qu’elles sont censées mesurer. Par exemple, si vous collectez des données sur le poids des gens, les mesures doivent être précises et fiables.
  • Pertinence : Les données doivent être pertinentes pour répondre aux questions de recherche. Les données qui ne sont pas pertinentes peuvent biaiser les résultats de l’analyse.
  • Exhaustivité : Les données doivent couvrir toutes les variables nécessaires à l’étude. Si des variables importantes sont manquantes, cela peut biaiser les résultats de l’analyse.
  • Consistance : Les données doivent être cohérentes dans leur format et leur structure. Cela facilite l’analyse et la compréhension des données.
  • Précision : Les données doivent être précises et exactes. Si les données sont imprécises, cela peut biaiser les résultats de l’analyse.

En déterminant les critères de qualité des données, les analystes de données peuvent évaluer la qualité des données collectées et s’assurer qu’elles sont appropriées pour répondre aux questions de recherche.

 

Nettoyage des données :

Identifier et corriger les erreurs de données

Il existe plusieurs méthodes pour identifier et corriger les erreurs de données, que ce soit dans le cloud ou pas dans le cloud. Voici quelques-unes des méthodes couramment utilisées :

  • Vérification manuelle : La vérification manuelle consiste à examiner les données à la recherche d’erreurs en utilisant des outils de traitement de texte, des feuilles de calcul ou des logiciels spécialisés. Cette méthode est relativement simple, mais elle peut prendre beaucoup de temps pour des ensembles de données importants.
  • Statistiques descriptives : Les statistiques descriptives peuvent être utilisées pour identifier les valeurs aberrantes ou les incohérences dans les données. Cette méthode implique l’utilisation de moyennes, de médianes, de modes et d’autres statistiques pour détecter les erreurs de données.
  • Méthodes de machine learning : Les méthodes de machine learning, telles que les arbres de décision et la régression, peuvent être utilisées pour identifier les erreurs de données en se basant sur des modèles prédictifs. Cette méthode est efficace pour traiter des ensembles de données importants et peut être utilisée dans le cloud.
  • Nettoyage de données automatique : Les outils de nettoyage de données automatique peuvent être utilisés pour identifier et corriger les erreurs de données. Ces outils sont souvent basés sur des algorithmes de machine learning et peuvent être exécutés dans le cloud ou sur des ordinateurs locaux.
  • Recodage des données : Le recodage des données consiste à modifier les valeurs de données en utilisant des règles prédéfinies pour corriger les erreurs de données. Cette méthode peut être utilisée pour corriger les erreurs de typographie, de formatage ou de codage.

Ces méthodes peuvent être utilisées individuellement ou combinées pour identifier et corriger les erreurs de données. Il est important de choisir les méthodes les plus appropriées en fonction des besoins de l’étude et des caractéristiques de l’ensemble de données.

voici quelques exemples de logiciels ou méthodes les plus populaires pour identifier et corriger les erreurs de données :

  • OpenRefine : OpenRefine est un outil de nettoyage de données open source qui permet d’explorer, de nettoyer et de transformer de grands ensembles de données. Il utilise des algorithmes de clustering pour identifier les erreurs de données et permet de les corriger manuellement ou automatiquement.
  • Trifacta : Trifacta est un outil de nettoyage de données qui utilise l’apprentissage automatique pour identifier les erreurs de données et propose des suggestions de correction. Il peut être utilisé pour nettoyer et préparer des données structurées et non structurées.
  • Talend : Talend est un outil d’intégration de données qui peut être utilisé pour identifier les erreurs de données et les corriger. Il peut également être utilisé pour nettoyer les données, les fusionner, les transformer et les enrichir.
  • Python : Python est un langage de programmation populaire qui offre de nombreuses bibliothèques pour le nettoyage de données, telles que Pandas, NumPy et SciPy. Ces bibliothèques peuvent être utilisées pour identifier et corriger les erreurs de données, ainsi que pour effectuer d’autres tâches de prétraitement de données.
  • SQL : SQL est un langage de requête de base de données couramment utilisé pour nettoyer et préparer des données. Les fonctions de SQL, telles que DISTINCT, GROUP BY et ORDER BY, peuvent être utilisées pour identifier les erreurs de données et les corriger.

Ces outils et méthodes peuvent aider à identifier et à corriger efficacement les erreurs de données, ce qui peut améliorer la qualité et la fiabilité des résultats d’analyse. Il est important de choisir les outils et les méthodes les plus appropriés en fonction des besoins de l’étude et des caractéristiques de l’ensemble de données.

Éliminer les données dupliquées ou inutiles et vérifier la cohérence et la précision des données

Une fois que les erreurs de données ont été identifiées et corrigées, il est important d’éliminer les données dupliquées ou inutiles afin de simplifier et d’alléger l’ensemble de données. Les données dupliquées ou inutiles peuvent fausser les résultats d’analyse et entraîner une surcharge de stockage de données. Par conséquent, il est important d’éliminer ces données avant de poursuivre le traitement de l’ensemble de données.

En outre, il est essentiel de vérifier la cohérence et la précision des données avant d’effectuer une analyse. La vérification de la cohérence des données implique de s’assurer que les données sont logiques et conformes aux attentes de l’étude. Par exemple, si l’étude porte sur la santé des patients, il est important de s’assurer que les données de santé des patients sont cohérentes avec les normes médicales en vigueur. La vérification de la précision des données implique de s’assurer que les données sont exactes et qu’elles reflètent la réalité.

Pour garantir la cohérence et la précision des données, il est possible de comparer les données avec d’autres sources, de réaliser des analyses statistiques pour détecter les anomalies et de vérifier la qualité des données auprès de professionnels de l’industrie concernée. Il est également possible de recourir à des algorithmes d’apprentissage automatique pour effectuer une analyse prédictive et détecter les erreurs potentielles.

En somme, éliminer les données dupliquées ou inutiles et vérifier la cohérence et la précision des données sont des étapes importantes pour garantir la qualité des données et obtenir des résultats d’analyse précis et pertinents.

 

Nous avons besoin de votre consentement pour charger les traductions

Nous utilisons un service tiers pour traduire le contenu du site web qui peut collecter des données sur votre activité. Veuillez consulter les détails dans la politique de confidentialité et accepter le service pour voir les traductions.