Comment nous avons réalisé la page Data Match sur la police municipale






Pour le Paris Match du 16 avril, nous avons réalisé cette page de data journalisme :

3439SEM Data Police municipale copie

« Oui, bon bah ils ont fait une carte ». Hum, en fait c’est un tout petit peu plus compliqué que cela.

Le traitement des données

Au départ, ça commençait bien : le fichier des effectifs de police municipale par commune était disponible sur data.gouv.fr, en format tableur, et publié par une source que l’on pouvait considérer comme fiable, le Ministère de l’Intérieur.

1. Nettoyer le fichier
Une fois le fichier récupéré, ça se complique : l’open data n’est pas toujours synonyme de clean data. Pour être traité correctement (filtrer par nombre de policiers municipaux par exemple), le fichier devait au préalable être un peu nettoyé : suppression des lignes vides entre certaines communes, des communes dont la colonne « effectifs » mentionnait « 0 », correction des colonnes quand des annotations étaient entrées directement dans les cellules, etc.
Etape classique, qui offre également l’avantage de passer au peigne fin les 4 000 communes constituant la base et d’appréhender ainsi la matière.

Fichier_Source

2. Réunir en un fichier les effectifs de police et les populations légales
Pour cette étape, nous avons utilisé Google Fusion qui permet de fusionner deux fichiers, si tant est qu’une colonne est similaire dans les deux sources (dans notre cas, le nom des communes). Nous avons donc fusionné le fichier de data.gouv.fr et le fichier des populations légales 2012 par commune, publié par l’Insee.

Ce genre de manipulation est toujours l’occasion de se rappeler à quel point la diversité de la langue et des intitulés de communes françaises est probablement une richesse, mais surtout une plaie pour le data journalisme. En effet, si la fusion a fonctionné pour les 3/4 du fichier, il restait un certain nombre de communes dont le libellé différait entre les deux fichiers, du fait de la présence ou non d’accents, de tirets ou une orthographe incomplète : Crepy en-Valois au lieu de Crépy-en-Valois ou Saint-Laurent au lieu de Saint-Laurent-du-Var, par exemple.

La population des communes manquantes ont donc été complétées à la main. Chouette.

PM_Fusion

3. Sélectionner les informations
Ce fichier unique nous a permis d’obtenir facilement le nombre de policiers municipaux par habitant et d’appliquer les filtres choisis. Nous avons ensuite décidé de ne conserver que les villes de plus de 4 000 habitants et comptant plus de 10 policiers municipaux, pour avoir un classement éditorialement et statistiquement satisfaisant. Si nous nous étions cantonnés strictement au classement initial, toutes les petites communes seront remontées en tête du classement, comme le Mont-Saint-Michel qui arrivait n°1 : 3 policiers municipaux y exerçaient leurs fonctions en 2012 alors que la commune ne comptait que… 41 habitants.

TWITTER

4. Calculer le taux de criminalité atteintes aux biens + atteintes aux personnes
La direction de la police judiciaire publie, par département, deux taux de criminalité distincts : un pour les atteintes aux biens et un pour les atteintes aux personnes. Faire la moyenne des deux taux aurait été bien plus simple, mais aussi bien plus faux, car l’opération aurait lissé les résultats. Nous avons donc repris l’ensemble des faits constatés pour ces deux indicateurs, par département, et divisé le total par le nombre d’habitants pour arriver à notre taux global.

5. Evaluer le nombre de communes de droite
Au-delà de la comparaison avec la délinquance, nous souhaitions savoir si les 100 villes isolées par notre classement étaient plutôt de droite ou de gauche. Nos données « police municipale » datent de 2012 : il fallait donc savoir quel parti avait remporté les élections municipales en 2008.

Le ministère de l’intérieur publie ces données dans un fichier excel dans lequel chaque commune de plus de 3 500 habitants dispose d’une ligne avec les résultats entiers, ainsi que via une interface de consultation.
Dans les deux cas, il fallait isoler la commune puis repérer quel candidat avait obtenu le plus gros score et à quel bord politique il se rattachait (LSOC pour socialiste, DVD pour divers droite, etc.). L’interface de consultation s’est finalement avérée plus simple à utiliser que le fichier excel. Nous avons donc collecté ces informations à la main pour les 100 villes et accordé une place importante dans notre page, avec un graphique de 3 centimètres environ.

TWITTER

 

Le choix et la création de la visualisation

La cartographie nous semblait la représentation graphique la plus adaptée à ce sujet, car la localisation des villes contenait une information en elle-même et permettait de montrer la forte concentration sur la côté méditerranéenne.

La contrainte du papier nous oblige à sélectionner le nombre d’informations représentées. Nous nous sommes donc limitées aux 100ères villes du classement.

Comme cela nous arrive (parfois) de penser à nos graphistes, le fichier contenant ces 100 villes a été passé dans Google Fusion une nouvelle fois, pour utiliser la fonction de localisation automatique cette fois-ci.

CarteFusion

Nos petits regrets

Nous voulions comparer les effectifs de police municipale avec ceux déployés à proximité par la police nationale. Cependant, la police nationale publie les statistiques de ses effectifs par « zone » uniquement. C’est un niveau géographique trop élevé pour être intéressant : la zone Nord comprend ainsi les départements du Nord, Pas-de-Calais, de l’Aisne, de la Somme et de l’Oise.

Nous aurions aussi voulu comparer la localisation des effectifs de police municipale avec des données plus fines sur les faits de délinquance enregistrés. Si nous disposions, grâce à un document de la police judiciaire publié en 2012 (non republié depuis) des faits constatés par zone gendarmerie ou police, nous ne pouvions pas obtenir les contours géographiques de ces zones ou effectuer un comparatif pertinent.

Mais on y arrivera, un jour :)

Comments are closed.

 
Back to top