# Traitement de données en tables

De nombreuses données en tables sont disponibles sur les sites de données ouvertes. Les plus simples à utiliser par programme sont celles enregistrées aux formats `TXT` tabulé ou `CSV` ou `JSON`. La première étape consiste à lire les fichiers pour charger les données en mémoire.

Extrait du programme de première : 
> Les données organisées en table correspondent à une liste de p-uplets nommés qui partagent les
mêmes descripteurs. La mobilisation de ce type de structure de données permet de préparer les élèves
à aborder la notion de base de données qui ne sera présentée qu’en classe terminale. Il s’agit d’utiliser
un tableau doublement indexé ou un tableau de p-uplets, dans un langage de programmation ordinaire
et non dans un système de gestion de bases de données.

## Lecture de fichiers

Plusieurs méthodes permettent de lire de tels fichiers en utilisant ou non des bibliothèques adaptées.

### Fonction élémentaires de lecture/écriture de fichiers

Les fonctions élémentaires de lecture écriture des fichiers textes sont adaptées à la lecture ligne à ligne :

* Ouverture en lecture : `f = open('nom.txt','r')`
* Ouverture en écriture : `g = open('nom.txt','w')`
* Fermeture : `f.close()`
* Ouverture et fermeture avec une structure de bloc : `with open('nom.txt','r') as f :`
* Lire la ligne suivante : `ligne = f.readline()`
* Parcourir toutes les lignes : `for ligne in f:`
* Écrire dans le fichier : `g.write('message')`
* Écrire dans le fichier avec passage à la ligne : `g.write('message\n')`

Dans le cas d'un fichier tabulé ou avec séparateur, le décodage d'une ligne nécessite de séparer les différentes valeurs des champs en précisant le séparateur utilisé. La méthode `split` permet de faire ce traitement sur une chaîne de caractères.

Il suffit de lui préciser le séparateur à utiliser : `'\t'` pour tab, `';'`, `':'` ou `','` par exemple.

La méthode strip permet de supprimer les blancs en début et en fin de ligne.

In [None]:
ligne = '  12.5, 2018, Nantes, 253000, 23.4  '
ligne.split(',')

In [None]:
ligne.strip()

* **Activité** : Le fichier [nat2017.txt](https://www.insee.fr/fr/statistiques/fichier/2540004/nat2017_txt.zip)
recense les prénoms donnés en France hors Mayotte sur la période 1900 à 2017. 

La première ligne présente les libellés des données : `code_sexe    prenom    annee    nb`.
Le séparateur utilisé est la tabulation.
1. `code_sexe` vaut 1 si le prénom a été donné à garçon et 2 pour une fille
2. `prenom` est le prénom donné (en majuscules) ou `_PRENOMS_RARES` 
3. `annee` est l'année sur quatre caractères ou `XXXX`
4. `nb` le nombre de fois que le prénom a été donné cette année là.

Une première lecture rapide du fichier peut être effectuée par les instructions suivantes : 

In [None]:
with open('data/nat2017.txt') as f:
        f.readline()
        nblignes = 0
        for ligne in f:
            sexe, prenom, annee, nb = ligne.split()
            nblignes += 1
        print(nblignes, "lignes lues")
        print('Dernière ligne :', sexe, prenom, annee, nb)

### Mémorisation d'une table sous forme de tableau de tableau

Les enregistements peuvent être mémorisés dans un tableau de tableau en ajoutant à chaque lecture de ligne du fichier une ligne dans le tableau.

In [None]:
tableau = []
with open('data/nat2017.txt') as f:
        f.readline()
        for ligne in f:
            tableau.append (ligne.split())

In [None]:
tableau

* **Remarque**: toutes les informations manipulées par les fonctions standard de lecture, ainsi que la fonction `split` manipulent uniquement des chaînes de caractères. Si certains champs contiennent des nombres, il faut les convertir explicitement avec les fonctions `int` ou `float`.

### Mémorisation dans un tableau de p-uplets nommés

Pour mémoriser la table dans un tableau de p-uplets ayant tous la même structure avec des champs nommés, il suffit à chaque lecture d'une ligne de construire le p-uplet correspondant. On a pris le soin de convertir en `int` les champs dont toutes les valeurs sont entières.

In [None]:
tableau = []
with open('data/nat2017.txt') as f:
        f.readline()
        for ligne in f:
            sexe, prenom, annee, nb = ligne.split()
            tableau.append ({'sexe':int(sexe), 'prenom':prenom, 'annee':annee, 'nb':int(nb)})

In [None]:
tableau

### Lecture d'une table avec la bibliothèque CSV

La bibliothèque `csv` fournit des fonctions permettant simplement de lire l'ensemble des lignes d'un fichier `CSV` en séparant les champs selon le séparateur indiqué.

La méthode `reader` permet de lire la table ligne à ligne et renvoit successivement pour chaque ligne un tableau des champs de chaque ligne. La première ligne contient les noms des champs.

In [None]:
import csv
f = open("data/nat2017.txt", "r")
c = csv.reader(f, delimiter='\t')
tableau = []
for ligne in c:
    tableau.append(ligne)
f.close()

In [None]:
tableau

La méthode `DictReader` permet de lire la table ligne à ligne et renvoit successivement pour chaque ligne un dictionnaire des champs de cette ligne. La première ligne du fichier a servi à obtenir les clés utilisés pour chaque enregistrement.

In [None]:
import csv
f = open("data/nat2017.txt", "r")
c = csv.DictReader(f, delimiter='\t')
tableau = []
for ligne in c:
    tableau.append(ligne)
f.close()

In [None]:
tableau

**Remarque** : les clés des enregistrements ont été obtenus à partir de la 1ere ligne du fichier.

### Lecture et écriture avec le format JSON

Le format JSON (Java Script Object Notation) permet de mémoriser dans un fichier texte et de relire, les principaux types de données utilisés en python : listes, tuples, dictionnaire et biensur les types de base entiers, flottants, chaînes et booléens.

C'est une alternative intéressante aux formats tabulés quand l'information à mémoriser a une structure plus complexe qu'une table à double entrées. L'intérêt est aussi de fournir une représentation externe des informations manipulées, dans un format normalisé pouvant être utilisé par d'autres programmes écrits dans d'autres langages.

In [None]:
repertoire = [{'Nom':'Dupont', 'Prenom':'Jean', 'Naissance':{'Jour':10, 'Mois':2, 'Annee':1984}},
      {'Nom':'Durand', 'Prenom':'Marie', 'Naissance':{'Jour':21, 'Mois':12, 'Annee':1964}},
      {'Nom':'Dupond', 'Prenom':'Pierre', 'Naissance':{'Jour':1, 'Mois':8, 'Annee':1960}}]


La fonction `json.dump` permet d'écrire dans un fichier au format `JSON` une structure de données calculée par programme.

In [None]:
import json
f = open('repertoire.json', 'w')
json.dump(repertoire, f)
f.close()

Le fichier texte généré est lisible avec un éditeur de texte et peut aussi être relu par programme avec la fonction `json.load`. 

In [None]:
g = open('repertoire.json', 'r')
nouveaurep = json.load(g)
nouveaurep

On a ainsi avec le format `JSON` une technique performante pour mémoriser dans des fichiers des informations structurées et les retrouver sans perte d'information.

## Conclusion

La maîtrise de la lecture d'un fichier de données est un préalable à son traitement. L'écriture est aussi importante pour garder une trace pérenne des informations calculées.

Pour les données ouvertes obtenues sur des sites spécialisés, il convient d'être vigilant en cas de données manquantes ou de données particulières, et de prévoir un prétraitement adapté.

Equipe pédagoqique DIU EIL, ressource éducative libre distribuée sous [Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International](http://creativecommons.org/licenses/by-nc-sa/4.0/) ![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)