Revenir
Revenir

Cours

Une donnée est une valeur brute privée de contexte : c’est un des éléments caractéristiques d’un objet,...

Sommaire

Les données et l'informationQu'est-ce qu'une donnée ?Qu'est-ce qu'une information ?Qu'est-ce qu'une métadonnée ?
Les données personnelles et leur protectionQu'est-ce qu'une donnée personnelle ?Qu'est-ce que le RGPD ?Liens utiles
La structuration des données : objet et table de donnéesQu'est-ce qu'un objet ?Qu'est-ce qu'une table de données ?Liens utilesDifférents formats de tables de données
Quels sont les formats de tables de données les plus répandus ?
Focus sur le format CSV
Le stockage des donnéesComment stocker localement des données ?Qu'est-ce que le stockage dans le cloud ?
La révolution du big dataQu'est-ce que le big data ?Impacts positifs du big data sur la sociétéImpacts négatifs du big data sur la sociétéQuel est l'impact environnemental du big data ?Qu'est-ce que l'open data ?Liens utiles

Les données et l'information

Qu'est-ce qu'une donnée ?

Une donnée est une valeur brute privée de contexte : c’est un des éléments caractéristiques d’un objet, d’une personne, ou d’un événement digne d’intérêt pour celui qui choisit de la conserver.
Les données sont généralement collectées afin d’être traitées, analysées ou stockées pour une utilisation ultérieure. Les données peuvent être produites par des machines, des capteurs, des utilisateurs humains ou tout autre source d’information. Par exemple la valeur de la température mesurée et affichée par un thermomètre électronique à un instant t quelconque est une donnée.

Qu'est-ce qu'une information ?

Une information est une donnée qui a été traitée et interprétée pour en extraire une signification pour les utilisateurs dans un contexte particulier.
Exemples de données :
  • une date : 19 mars 2023 ;
  • un nombre de visiteurs : 500 ;
  • un code postal : 75007 ;
  • une taille : 1,75 m ;
  • une vitesse : 100 km/h.
Exemples d'informations :
  • la date est le jour de l’équinoxe de printemps ;
  • le nombre de visiteurs est en hausse de 20 % par rapport à la même période de l’année dernière ;
  • le code postal correspond à l’arrondissement de la tour Eiffel à Paris ;
  • la taille correspond à la moyenne pour un homme adulte en France ;
  • la vitesse est supérieure à la limite de vitesse autorisée sur cette route.

Qu'est-ce qu'une métadonnée ?

Les métadonnées sont des données qui en décrivent d'autres.
Elles fournissent des renseignements sur les caractéristiques et les propriétés d’une donnée : son nom, son format, son auteur, sa date et son heure de création ou de modification, etc.
Les métadonnées sont utilisées afin de faciliter la gestion, la recherche, l’analyse et l’utilisation des données. Par exemple les moteurs de recherche utilisent les métadonnées afin d’indexer et classer les pages web.
Les métadonnées, codées à l’intérieur d'un fichier image, fournissent de nombreuses informations supplémentaires relatives à la photographie. Elles peuvent être utilisées pour organiser, classer, rechercher et trier une collection de photos, ainsi que pour en savoir plus sur les circonstances de leur prise de vue. Par exemple la géolocalisation peut être utilisée afin d’afficher une photo sur une carte, les mots clés peuvent être utilisés pour la retrouver plus facilement lors d’une recherche et les informations du propriétaire peuvent être utilisées pour respecter les droits d’auteur.
Exemple de métadonnées dans un fichier image :
________________________________
Nom du fichier :vacances1.jpg
Date et heure de prise de vue :17 juillet 2023 à 14:31:57
Ouverture et vitesse d’obturation :f/4, 1/125 s
Géolocalisation :latitude : 48.85824000000008 ; longitude : 2.2945000000000277
Taille et résolution de l’image :1920x1080 pixels, 300 dpi
Propriétaire :David L
Mots clés :paris, vacances, été
________________________________
Remarque :
Sous Microsoft Windows © les métadonnées peuvent être affichées en faisant un clic droit sur le nom du fichier puis en sélectionnant dans le menu contextuel le sous-menu "Propriétés". La fenêtre « pop-up » qui s’ouvre contient les métadonnées dans l’onglet "Détails".

Les données personnelles et leur protection

Qu'est-ce qu'une donnée personnelle ?

Une donnée personnelle est une information permettant d’identifier une personne physique soit directement soit indirectement.
Par exemple le prénom, le nom, l’âge, le genre, le numéro de téléphone, les adresses postales et électroniques, le numéro de sécurité sociale, la signature, l’empreinte digitale, la voix, l’image d’une personne, sont des données personnelles.
Certaines données personnelles sont qualifiées de sensibles : religion, orientation sexuelle, opinion politique ou syndicale, santé. Sont également concernées les données génétiques et biométriques dont la finalité est d’identifier une personne physique de manière unique. Il est interdit de collecter les données sensibles sauf dans certains cas précis (exemple : dossier médical) encadrés par la législation.
L’identification d’une personne physique peut-être réalisée à partir d’une seule donnée personnelle, par exemple son empreinte digitale ou à partir du croisement d’un ensemble de celles-ci.
Supposons qu’une société détienne une liste de clients contenant les informations suivantes : 
  • nom ;
  • prénom ;
  • date de naissance ;
  • adresse postale ;
  • adresse e-mail ;
  • numéro de téléphone.
Ces informations, prises individuellement, ne permettent pas d’identifier une personne de manière certaine. Cependant si on croise ces données par le biais d’un traitement informatisé, on peut obtenir une combinaison unique permettant d’identifier avec certitude une personne.
Par exemple, si on sait que le client s’appelle « Jean Martin » et que sa date de naissance est le 01/01/1970, cette combinaison de données personnelles ne suffit pas à l’identifier d’une manière certaine. En effet, si le fichier contient un très grand nombre de clients, il peut exister plusieurs personnes ayant le même nom, le même prénom et la même date de naissance. En revanche si on sait en plus que cette personne habite au 10 rue des Lilas, 75019 Paris et que l’on connait son numéro de téléphone, alors on obtient une combinaison unique permettant d’identifier avec certitude cette personne.

Qu'est-ce que le RGPD ?

Il est important de comprendre que le croisement des données personnelles peut permettre d’identifier une personne de manière précise ce qui soulève des enjeux de confidentialité et de protection de celles-ci.
LeRGPD(Règlement Général sur la Protection des Données) entré en application le 25 mai 2018, offre un cadre juridique établissant les règles relatives à la protection des données à caractère personnel des personnes physiques.
Le RGPD oblige les organisations qui hébergent des données à mettre en place des politiques de confidentialité qui expliquent aux utilisateurs d’une manière transparente, comment celles-ci sont collectées, stockées et traitées.
Chaque utilisateur peut exercer son droit à l’effacement, à la portabilité, à la rectification et à l’accès à de ses données personnelles conformément au RGPD.

Liens utiles

https://www.cnil.fr/rgpd-de-quoi-parle-t-on

https://www.cnil.fr/rgpd-de-quoi-parle-t-on

La structuration des données : objet et table de données

Qu'est-ce qu'un objet ?

En informatique un objet permet de modéliser des entités ou des concepts du monde réel dans un programme.
Par exemple un contact dans un carnet d’adresses peut-être modélisé sous la forme d’un objet regroupant plusieurs données associées à  des descripteurs.
Une collection regroupe des objets possédant les mêmes descripteurs.

Qu'est-ce qu'une table de données ?

Les données structurées peuvent être organisées sous la forme de tableaux à deux dimensions appelés tables de données. Une table de données permet de stocker de façon persistante une collection d’objets dans un fichier ou une base de données.
Les tables de données sont organisées en lignes et en colonnes. À l’intersection des deux, on trouve une donnée. En particulier :
  • la première ligne du tableau correspond aux descripteurs permettant de caractériser les données ;
  • chaque ligne suivante correspond à un objet qui contient la valeur des différents descripteurs ;
  • chaque colonne correspond à un descripteur commun à tous les objets de la collection.
 Un tableur tel que Calc de la suite bureautique libre et gratuiteLibreOffice permet le traitement des tables de données. Dans l’exemple au début de cette page, chaque élève est un objet caractérisé par huit valeurs de données associées aux huit descripteurs (Nom, Prénom, Sexe, Date de naissance, Classe, Demi-pension, LV1, LV2) de la collection.
Les tables de données sont couramment utilisées dans les applications de gestion de bases de données pour stocker et gérer de grandes quantités d’informations structurées, telles que des données de clients, des informations de produits, des enregistrements de ventes, des données de compte, etc. 
Les tables de données permettent de rechercher et trier facilement les informations en fonction de différents critères. Elles permettent aussi de les filtrer, les analyser et les manipuler à l’aide de requêtes et de fonctions spécifiques.

Liens utiles

https://fr.libreoffice.org/

https://fr.libreoffice.org/

Différents formats de tables de données

Il existe plusieurs formats de tables de données en fonction des différents contextes rencontrés. On donne ci-dessous à titre indicatif quelques-uns des formats de tables de données les plus courants.
  • XLS et XLSX (eXceL Spreadsheet)
Format de fichier de feuilles de calcul créées à l’aide du logiciel (tableur) Microsoft Excel. Ce format est souvent utilisé pour stocker des tables de données complexes comprenant du texte, des graphiques, des formules, des nombres.
  • ODS (Open Document Spreadsheet)
Format de fichier de feuilles de calcul OpenDocument créées à l’aide du logiciel (tableur) LibreOffice Calc. Ce format est souvent utilisé pour stocker des tables de données complexes comprenant du texte, des graphiques, des formules, des nombres.
  • CSV (Comma Separated Values)
Format de fichier texte utilisant des virgules pour séparer les colonnes et des retours à la ligne pour séparer les lignes. Les fichiers CSV sont faciles à créer et éditer et sont compatibles avec de nombreux logiciels de feuilles de calcul.
  • JSON (Javascript Object Notation)
Format de fichier texte léger utilisé pour représenter des données structurées en JavaScript. Les données JSON peuvent être facilement converties en objets JavaScript ce qui en fait un format très utilisé dans le domaine des applications web.
  • XML (eXtensible Markup Language)
Format de fichier texte structuré pouvant être utilisé pour stocker des tables de données. Les données XML sont souvent utilisées pour l’échange de données entre applications, notamment pour les services web.
  • SQL (Structured Query Language)
Format de tables de données stockées dans une base de données relationnelle. Le langage SQL est utilisé afin de créer et interroger les tables de données dans ce type de base de données.

Quels sont les formats de tables de données les plus répandus ?

Les formats XLS, XLSX et ODS sont les plus utilisés par le grand public. Ils permettent d’afficher une table de données sous la forme conventionnelle d’un tableau à deux dimensions. Il est d’usage de faire correspondre à chaque objet un identifiant unique noté « id » afin de faciliter les traitements ultérieurs.
Remarque : afin d’éviter les erreurs d’encodage de caractères lors de la conversion d’un format de table de données en un autre, il est recommandé de ne pas accentuer les caractères latins des noms des descripteurs.

Focus sur le format CSV

Un fichier CSV utilise comme séparateur de champ la virgule. Dans un fichier CSV, la première ligne est composée des descripteurs, chacun d’entre eux étant séparés par une virgule.
Les lignes suivantes correspondent aux objets eux-mêmes : les valeurs des données associées aux descripteurs sont séparées par une virgule. On passe d’un objet à un autre par un retour à la ligne.
Le format CSV est le plus simple et le plus commun pour l’importation et l’exportation de feuilles de calculs et de bases de données.
Remarque : les fichiers CSV créés sur des machines dont le réglage linguistique est le français peuvent utiliser le point-virgule comme séparateur de champ au lieu de la virgule, en raison de la norme française qui utilise la virgule pour séparer la partie entière de la partie décimale (ou fractionnaire) des nombres décimaux.

Le stockage des données

Comment stocker localement des données ?

Il existe de nombreux supports pour le stockage des données chacun ayant ses avantages et ses inconvénients en termes de capacité de stockage, de vitesse de lecture/écriture, de fiabilité, d’encombrement et de coût. Un utilisateur peut stocker des données sur différents supports physiques internes (disque dur ou disque SSD) ou externes amovibles (disque dur externe, clé USB, carte SD…) connectés directement à son ordinateurviaun port spécifique.
Notons qu'il est nécessaire de réaliser des sauvegardes (backups) régulières de ses données sur différents supports car les données peuvent être facilement corrompues ou détruites.
Disque dur (HDD) :les disques durs sont des dispositifs de stockage magnétiques très répandus pour stocker des données sur les ordinateurs de bureau, les serveurs et les data centers. Ils ont une grande capacité de stockage (jusqu’à 8 To), mais une vitesse de lecture/écriture relativement lente, de l’ordre de 50 à 100 Mo/s. Ils possèdent un disque en rotation, généralement tournant à 5400 ou 7200 tours par minute, sur lesquels les données sont stockées. Une tête de lecture permet de lire ou d’écrire des données sur le disque. Les disques durs embarquent une mémoire tampon (16, 32, 64, 128 ou 256 Mo en fonction des modèles) permettant de stocker temporairement les données afin d’en accélérer le traitement. Les disque durs possèdent toujours à l’heure actuelle le rapport capacité de stockage/prix le plus intéressant du marché.
Disque SSD :les disques SSD sont des dispositifs de stockage électroniques qui sont de plus en plus répandus pour le stockage des données. Ils ont une vitesse de lecture/écriture, de l’ordre de 500 Mo/s pour les SSD SATA et 7000 Mo/s pour les SSD NVMe, beaucoup plus rapide que les disque durs, mais une capacité de stockage généralement inférieure et un coût plus élevé. Ils sont dépourvus de pièces mécaniques en mouvement ce qui les rend plus fiables que les disques durs.
Mémoire vive (RAM) :la mémoire vive est un dispositif de stockage électronique temporaire utilisé par les ordinateurs afin de stocker les données en cours d’utilisation. La RAM (Random Access Memory) est très rapide, son débit est de l’ordre de 6,4 Go/s pour la norme DDR5, mais elle n’est pas permanente et toutes les données qu’elle abrite sont perdues lorsque l’ordinateur est éteint.
Clé USB (Universal Serial Bus)  :les clés USB sont des dispositifs électroniques portables de stockage des données très répandus. Elles sont petites donc facilement transportables et sont dotées d’un débit d’environ 600 Mo/s pour la norme USB 3.0. Leur capacité de stockage est limitée (8 à 256 Go).
Carte SD :les cartes SD sont des supports de stockage électroniques amovibles, miniaturisés, couramment utilisés pour stocker des photos et des vidéos sur des smartphones ou des appareils photos numériques. Leur capacité de stockage ne dépasse pas 512 Go pour un débit maximum de 100 Mo/s.

Qu'est-ce que le stockage dans le cloud ?

Le stockage distant dans le cloud consiste à stocker des données, des fichiers, des informations sur des serveurs distants accessiblesviaInternet et gérés par des fournisseurs spécialisés dans ce type de service en ligne.
Le stockage dans le cloud offre plusieurs avantages.
  • Accès facilité :les données peuvent être accessibles de n’importe où et à tout moment avec une connexion Internet ; un logiciel client installé sur les différentes machines d’un utilisateur permet une synchronisation des données.
  • Évolutivité :les utilisateurs peuvent facilement adapter leur capacité de stockage à la baisse ou à la hausse en fonction de leurs besoins.
  • Sécurité :les fournisseurs de service cloud offrent généralement une sécurité améliorée pour les données qu’ils hébergent en particulier des sauvegardes régulières et la protection contre les pertes (redondance des données sur plusieurs sites par exemple).
  • Collaboration :plusieurs utilisateurs peuvent accéder et travailler sur les mêmes fichiers de manière synchrone ou asynchrone ce qui facilite le travail en équipe.
Néanmoins, le stockage dans le cloud peut également présenter certains risques, tels que la sécurité des données, la dépendance à l’égard de tiers et les coûts à moyen et long terme. Il est important de rechercher des fournisseurs de stockage qui sont conformes au RGPD. Ils doivent :
  • être transparent sur la façon dont les données des utilisateurs sont collectées, stockées et traitées ;
  • respecter les normes de sécurité permettant de protéger les données personnelles ; les données stockées doivent être cryptées ou protégées contre les accès non autorisés afin d’éviter des violations ;
  • être hébergées dans des pays couverts par le RGPD c’est-à-dire membres de l’Union européenne afin que les lois locales ne se substituent pas à ce règlement ;
  • être conforme aux exigences de confidentialité en ne partageant pas les données avec des tiers ou à des fins publicitaires sans le consentement des utilisateurs ;
  • permettre aux utilisateurs d’exercer leurs droits à l’accès, l’effacement, la rectification, la portabilité de leurs données personnelles, conformément au RGPD.

La révolution du big data

Qu'est-ce que le big data ?

Le big data est un terme utilisé pour décrire de grands ensembles de données complexes dont le traitement est difficile à réaliser avec des méthodes traditionnelles.
Le big data peut être caractérisé par la règle des trois V : volume, vitesse, variété.
  • Le volume fait référence à la quantité gigantesque de données générées et collectées chaque jour par des millions d’utilisateurs, de capteurs, de réseaux sociaux, d’appareils connectés, de transactions commerciales ou boursières… Le volume des données suit ces dernières années une croissance quasi exponentielle à cause de la multiplication des objets connectés et de la généralisation des smartphones notamment.
  • La vitesse fait référence à la rapidité avec laquelle les données sont générées, collectées et stockées.
  • La variété fait référence à la diversité des sources de données et à la multitude des formats rencontrés (texte, image, audio, vidéo…).
Le big data a un impact non négligeable sur la société tant d’un point de vue positif que négatif.
On rencontre le big data dans de nombreux secteurs d’activités, tels que dans la science des données (data science), la gestion des chaînes d’approvisionnement en logistique, l’analyse des comportements des utilisateurs utilisant des réseaux sociaux, la publicité ciblée, la recherche scientifique, la médecine, la sécurité informatique…
Le traitement du big data nécessite l’emploi de technologies et d’outils spécifiques tels que le stockage distribué des données, le traitement en temps réel, l’apprentissage automatique (machine learning), l’analyse prédictive…
Ces technologies permettent d’extraire les informations pertinentes à partir des données brutes leurs conférant au passage une forte valeur ajoutée faisant la richesse des sociétés en capacité d’effectuer ce type de traitement complexe.
Le big data permet aux entreprises et aux organisations de prendre les meilleures décisions lors de la résolution d’un problème donné contribuant ainsi à l’amélioration de leur performance.

Impacts positifs du big data sur la société

Santé
Le big data peut être utilisé pour collecter, d’une manière très encadrée juridiquement, des données de santé afin que des médecins puissent appliquer des modèles prédictifs pour anticiper les facteurs liés à des risques de maladies chez un patient. Un traitement préventif peut alors être envisagé. Il permet aussi un diagnostic plus rapide de certaines pathologies et donc une meilleure prise en charge d’une personne malade.
Gestion de la ville
Le big data peut être utilisé pour améliorer la gestion d’une ville en analysant les données de circulation, de consommation d’eau et d’énergie ou de production de déchets. L’analyse de ces données aide à la planification et à la mise en œuvre de politiques de la ville plus respectueuses de l’environnement.
Environnement
Le big data peut être utilisé pour surveiller et analyser les tendances environnementales, telles que la température et la qualité de l’air et de l’eau, les émissions de gaz à effet de serre... L’analyse de ces données aide à la planification et à la mise en œuvre de politiques environnementales.
Catastrophes naturelles
Le big data permet à partir des données collectées par des capteurs ou des caméras, de prévoir et prévenir les catastrophes naturelles telles que les inondations, les tremblements de terre et les ouragans. L’analyse de ces données permet aux autorités de protéger les populations en mettant en place les mesures de prévention visant à minimiser les dégâts potentiels.

Impacts négatifs du big data sur la société

Violation de la vie privée
Les entreprises peuvent collecter et stocker des données de personnes sans leur consentement ce qui peut porter atteinte à leur vie privée. En outre, ces données peuvent être utilisées à des fins malveillantes telles que le vol d’identité, la cybercriminalité et le profilage par exemple.
Discrimination
Les algorithmes d’apprentissage automatique qui utilisent une base de données comportant des biais peuvent conduire à des prises de décisions discriminatoires. Par exemple si l’algorithme a été entraîné sur des données qui montrent que les hommes ont été plus souvent recrutés que les femmes pour un poste spécifique, alors le programme prédira avec une probabilité plus grande que les hommes seront de meilleurs candidats, même si ce n’est pas le cas. Le choix de la base de données servant à l’apprentissage d’une intelligence artificielle est donc crucial afin de ne pas induire de biais.
Réduction de l’empathie
Les réseaux sociaux utilisent souvent des algorithmes pour recommander des contenus qui correspondent aux centres d’intérêts des utilisateurs ce qui peut renforcer les biais et les opinions préexistantes ou détriment de la confrontation constructive d’idées divergentes.
Les impacts négatifs du big data soulignent l’importance de réglementer l’utilisation des données et de promouvoir l’utilisation éthique et responsable de celles-ci.

Quel est l'impact environnemental du big data ?

Le big data a un impact environnemental important notamment en raison de la quantité d’énergie consommée pour stocker et traiter de grandes quantités de données. Voici quelques exemples d’impacts du big data sur l’environnement.
Consommation d’énergie
Les centres de données ou data centers consomment beaucoup d’énergie en raison de la dégradation en chaleur d’une partie de l’énergie électrique qui les alimente. Les études récentes montrent que les centres de données représentent 2 % à 3 % de la consommation électrique mondiale. Cette consommation devrait doubler d’ici 2030 en raison de la multiplication des objets connectés et de la numérisation généralisée des informations. Cette consommation d’énergie peut avoir un impact climatique et accélérer l’épuisement des ressources énergétiques.
Émission de gaz à effet de serre
La consommation d’énergie des data centers entraîne l’émission de gaz à effet de serre qui contribuent au changement climatique. Les spécialistes estiment que les émissions de dioxyde de carbone liées à l’industrie du numérique représentent actuellement environ 4 % des émissions mondiales.
Production de déchets électroniques
Le cycle de vie des appareils électroniques (disques durs, serveurs, switchs, onduleurs…) utilisés dans les data centers conduit à devoir les remplacer régulièrement ce qui génère des déchets potentiellement dangereux pour l’environnement.
Consommation d’eau
Les data centers utilisent de grandes quantités d’eau pour refroidir les équipements (« watercooling »). Ceci peut être problématique dans les régions où l’eau est rare. 
Les industriels du big data essayent de plus en plus lors de la construction de nouveaux data centers de rechercher des solutions techniques permettant de minimiser l’impact environnemental de ceux-ci lors de leur fonctionnement.

Qu'est-ce que l'open data ?

L’open data (données ouvertes) est une initiative visant à rendre accessible aux citoyens, gratuitement et sans restriction, certaines données numériques d’intérêt public, généralement détenues par des gouvernements ou des entreprises.
L’idée de l’open data est apparue dans les années 1990, lorsque la communauté du logiciel libre a commencé à promouvoir l’importance des normes ouvertes tant en termes de sécurité que de développement collaboratif.
La croissance d’Internet et l’accès facilité à l’information a conduit, dans les années 2000, des citoyens et des organisations militantes à demander aux gouvernements plus d’ouverture et de transparence  au niveau de l’accès aux données publiques pouvant revêtir une importance cruciale pour l’ensemble de la communauté.
On peut citer par exemple les données géographiques, hydrométriques, météorologiques, énergétiques… En 2011, l’open government partnership mis en place par le gouvernement du président américain Barack Obama a permis a de nombreux pays d’adhérer à ce concept. Depuis lors, les bases de données en accès ouverts connaissent une très forte croissance.
Pour que des données soient considérées comme ouvertes, elles doivent être disponibles gratuitement, sous une licence ouverte, dans un format facilement accessible et réutilisable, et être mises à jour régulièrement.
La France s’est par exemple dotée d’une plateformedata.gouv.frrecueillant l’ensemble des données publiques françaises accessibles en open data.
Aujourd’hui, l’open data est considérée comme un élément essentiel de la transparence et de l’ouverture gouvernementale et contribue fortement à la promotion de l’innovation et de la croissance économique.

Liens utiles

https://www.etalab.gouv.fr/ogp/

https://www.etalab.gouv.fr/ogp/

https://www.data.gouv.fr/fr/

https://www.data.gouv.fr/fr/