Il nous faut de meilleures données d’impact environnemental
J’ai essayé de comparer l’impact environnemental des trajets en train avec celui de l’envoi des billets électroniques associés. L’article que vous lisez maintenant rentre dans le détail des difficultés à trouver et traiter les données, et décrit les (fortes) limites de l’analyse.
J’ai fait le choix d’éclater en deux pour limiter la durée du premier article et ne pas m’imposer le même niveau de finition pour celui-ci. Il n’y aura pas d’illustrations et je fais l’hypothèse d’un lectorat à l’aise avec le traitement de la donnée. Si vous voulez plutôt lire les résultats de l’analyse, rendez-vous ici :
Estimer l‘impact carbone d’un trajet en train
Je vais commencer par les difficultés à estimer l’impact environnemental des trajets en train, car j’ai le sentiment que le sentiment général chez les habitué‧e‧s des données est que celles concernant la mobilité seraient plus fiables et plus accessibles que celles concernant le numérique… et que ça n’est en réalité que moyennement le cas.
Sources visitées
Le jeu de données le plus accessible dont je disposais était celui de mes trajets effectués avec Trainline : l’export de mes données obtenu par RGPD comporte en effet une propriété co2_emission
pour chaque trajet, exprimée semble-t-il en gCO₂e. J’ai fait l’hypothèse que ces données étaient fournies directement par le transporteur.
Pour tester cette hypothèse, j’ai exploré le portail Open Data SNCF. Première surprise : celui-ci ne donne les émissions CO₂e que pour les « principales liaisons TGV », alors même que la méthodologie référencée décrit bien qu’il s’agit simplement de multiplier la distance par l’émission par voyageur-kilomètre, et qu’il semblerait donc trivial de publier le jeu de données pour l’intégralité des trajets. Inversement, il semble impossible de le reconstituer en l’absence de données sur les distances de gare à gare.
La validité temporelle du jeu de données n’est pas certaine non plus, puisque les métadonnées ne sont pas claires : faut-il s’appuyer sur la date de dernière modification (2014) ou de dernier traitement (2019) ?
Dans tous les cas, je remarque que sur quelques trajets test, les écarts sont non négligeables, et systématiquement du côté d’une surévaluation d’environ 200gCO₂e par Trainline.
Autant on peut expliquer certaines différences par une augmentation d’efficacité en quelques années puisque certains trajets sont anciens (par exemple, mon trajet Paris–Reims date de 2016), autant 45% de gain semble énorme, et cet écart persiste pour des trajets en 2019 (Paris–Dijon).
Je décide donc de privilégier les données SNCF, mais il me faut trouver des données pour d’autres liaisons que les « principales liaisons TGV ». Le lien dans la description du jeu de données mène à…
Bon. En cherchant ailleurs, j’ai fini par trouver les données de base du calcul d’émission pour 2019 sur Oui.sncf. Comparons l’évolution 2018 à 2019 :
Même si c’est bien décrit dans la méthodologie, on ressent mieux en voyant la variabilité d’une année sur l’autre la sensibilité de ces calculs à des facteurs extérieurs à l’efficacité du train : comment expliquer autrement la baisse d’environ 20% des émissions sur TGV et Intercités ? Si on observe une hausse majeure en 2020 à cause des restrictions de mouvement liées à la pandémie de coronavirus, cela voudra-t-il dire que les trains ont plus pollué, alors même que beaucoup moins auront circulé ? Ces chiffres sont obtenus pour l’année N en divisant le mix d’émissions nationale N-2 par le nombre de voyageurs N-1, et agrégés pour tout le territoire. Mais peut-on sincèrement prétendre que la variable principale va être le nombre de kilomètres entre un trajet sur la ligne alpine TER Nice–Breil, non électrifiée, atteignant des pentes de 25‰ et avec un taux de remplissage extrêmement variable selon l’heure, et un trajet sur la ligne Rennes–Saint-Malo avec son maximum de déclivité de 7‰ ?
Par ailleurs, les données sont fournies par offre commerciale et non par mode de traction ou d’aménagement. Cela signifie par exemple que tous les TGV sont réunis dans la même catégorie, qu’ils soient Réseau, POS ou Duplex, alors qu’on comprend bien que la quantité d’émissions par voyageur va varier si le train a un ou deux étages…
Base carbone
En continuant à chercher, j’ai trouvé la Base carbone de l’ADEME, parfois encore référencée comme « Bilans GES ». Plus précisément, je suis tombé sur une page de documentation comprenant une typologie des trains, des données d’émission 2004 pour de nombreux pays européens, et une source :
Les données relatives au TGV, aux trains grandes lignes et au TER ont été fournies par la SNCF.
Partant de là, j’ai découvert le reste du site… et je me suis demandé comment j’avais pu le louper jusque-là ! Sur le papier, c’est génial :
La Base Carbone est une base de données publiques de facteurs d’émissions nécessaires à la réalisation d’exercices de comptabilité carbone. Elle est administrée par l’ADEME, mais sa gouvernance est multiacteur et son enrichissement est ouvert.
Et puis, j’ai petit à petit compris pourquoi cette base de données n’était pas mieux référencée.
En réalité, ces « données ouvertes » dont la consultation est « gratuite » nécessitent la création d’un compte personnel (au passage, il y a une petite faille puisque la documentation est accessible sans authentification — encore heureux, c’est bien le seul contenu qui en permet le référencement…). Pire encore : si vous voulez télécharger les jeux de données (donc, concrètement, les utiliser), il faut signer une licence qui n’est accessible qu’aux personnes morales, sur présentation d’un Kbis, et dans laquelle doivent être indiqués les nom, prénom, fonction et email des personnes qui consulteront les données 🙃
Et tout ça pour quoi ? Même avec une licence, les mêmes contraintes que dans les CGU s’appliquent :
Donc, concrètement, même avec une licence, reste interdit (2 de l’article L.342–1 du CPI) :
La réutilisation, par la mise à la disposition du public de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu’en soit la forme.
…et l’ADEME précisant bien « même pour des éléments pris isolément », je comprends que je n’ai pas le droit de publier, par exemple, la donnée d’émission d’un TER obtenue dans la Base carbone.
Je ne suis pas le premier à m’étonner de cet état de fait, et on peut donc trouver un export de la base sur data.gouv.fr. Mais franchement, la consolidation effectuée ne rend pas l’exploration des plus aisées, et l’appréciation juridique reste à valider. Sur le fond, il est tout simplement scandaleux que de telles données d’intérêt général consolidées par des acteurs publics ne soient pas librement accessible et réutilisables. Cette situation doit évoluer. D’ici-là, si vous voulez accéder à la Base carbone en ligne, vous pouvez utiliser ces identifiants : basecarbone2@yopmail.com
/ totototo
.
Modalités de calcul
Au final, j’ai retenu les données SNCF 2019 (donc basées sur fréquentation et consommation 2018 et émissions nationales 2017, avec une incertitude inconnue) pour les TGV et Intercités, et les données de la Base carbone (fournies par l’ADEME avec « source SNCF » sans référence, avec une « période de validité » d’un mois, et une incertitude de 60%) pour les TER.
J’espère qu’à ce stade il est clair qu’avant même d’entrer dans les modalités de calcul de l’impact environnemental des mails, la comparaison a déjà abandonné tout espoir de précision.
Estimer l‘impact environnemental d’un mail
Sources visitées
J’ai cherché en français et en anglais, sur plusieurs moteurs de recherche dont Google Scholar. On trouve quelques articles grand public, mais à part CleanFox qui affirme qu’un mail vaut 10 gCO₂e sans aucune source, que ce soit The Guardian en 2010 ou OVO energy en 2019, tous convergent vers trois sources.
- Le livre How Bad are Bananas?: The Carbon Footprint of Everything de Mike Berners-Lee, datant de 2010.
- L’étude Analyse comparée des impacts environnementaux de la communication par voie électronique de l’ADEME, datant de 2011.
3. Une autre étude de l’ADEME introuvable mais qui daterait de 2014, et dont on peut retrouver les données sur la Base Carbone. Malheureusement, la date de dernière mise à jour est toujours novembre 2014, son statut est encore « en discussion », et on n’a aucune information sur le poids de la pièce jointe considéré.
La seule étude dont j’ai pu trouver la méthodologie étant celle de 2011, c’est celle que j’ai retenue.
Modalités de calcul de l’étude 2011 de l’ADEME
Cette étude a été réalisée par la société Bio Intelligence Services. Remarquons déjà que les hypothèses retenues ne correspondent pas vraiment au cas d’usage d’un envoi de mails automatisé :
Envoi d’un mail de 1 Mo à une personne dans un contexte d’utilisation « particulier » et un contexte géographique français
Jusque-là, ok.
Lecture du document à l’écran par le destinataire — Pas d’impression. Un temps de lecture de 5 minutes est considéré.
Non : le billet n’est pas lu, en tous cas pas pendant 5 minutes, et peut être imprimé. Accessoirement, cette description est incohérente avec ce qu’on trouve p. 11, où le scénario de référence considère non pas 5 mais 8 minutes de lecture à l’écran. Il n’y a aucun moyen de déterminer la valeur réellement retenue.
La durée de stockage du mail par le destinataire est estimée à 1 an.
Bof : je ne crois pas que les mails soient effacés au bout d’un an, mais plutôt qu’ils sont généralement soit effacés immédiatement après réception, soit conservés pour toujours. Dans le cas du billet de train, il est forcément conservé quelques jours à quelques semaines (délai entre achat et voyage), donc on peut supposer qu’il reste pour toujours, d’autant plus vu les volumes de stockage fournis aujourd’hui.
Un mix représentatif du parc français d’ordinateurs est pris en compte (composé de PC à écran CRT, LCD, et de PC portables) pour modéliser les équipements informatiques de l’émetteur et du destinataire.
1. L’émetteur n’est pas un particulier mais un datacenter.
2. Le parc a très fortement évolué depuis 2011.
Un mix électrique français a été considéré pour l’ensemble des équipements hors centres de données. Pour ces derniers un modèle électrique mondial moyen a été considéré.
Ok, mais ce modèle électrique mondial moyen est-il stable depuis 2011 ? Dans tous les cas, la consommation des datacenters n’a plus rien à voir aujourd’hui avec celle d’il y a 10 ans : ils sont de plus en plus souvent reliés à des sources renouvelables, et commencent à optimiser leur charge en fonction de l’intensité carbone de l’électricité.
La durée de vie retenue de chaque équipement constitutif des ordinateurs considérés dans le mix du parc français est de 4 ans : pour l’unité centrale, l’ordinateur portable, le clavier, la souris et le chargeur de portable, de 6 ans : pour les écrans de type CRT et LCD. Les étapes de fin de vie des équipements électriques et électroniques ont été prises en compte conformément à la réglementation en vigueur dans l’Union Européenne sur les Déchets Electriques et Electroniques (DEEE).
Ok, mais est-ce stable depuis 2011 ?
Les choses empirent page 6 :
Les données rassemblées pour évaluer l’impact de la phase de production des équipements et produits utilisés sont représentatives des technologies récentes (2000 à 2007) utilisées en Europe, Chine et dans le monde.
L’étude de 2011 s’appuie donc sur des données de 2000 à 2007 ! On a donc 15–20 ans d’évolution plutôt que 10… Les profils de consommation et de production n’ont plus rien à voir.
Incertitude
L’incertitude absolue est de 10g, indiquée p.11 sous la forme d’un intervalle :
L’équivalent de 20 g de CO₂ [10–30 g éq.CO₂] est émis par mail de 1 Mo envoyé.
La valeur obtenue par l’application directe du calcul est 22, donc on a 45% d’incertitude (on pourrait considérer uniquement le résultat p.11 et aboutir à 50%, mais la valeur 22 est retenue pour les calculs de proportion dans le document, je préfère donc la conserver comme référence).
Hypothèse de linéarité
La taille de la pièce jointe faisant partie des hypothèses, on ne peut pas déterminer l’impact selon le poids. Malheureusement, très peu des pièces jointes envoyées pèsent exactement 1024ko… J’ai donc fait une hypothèse forte, et sans aucun doute erronée : celle d’une linéarité du potentiel de changement climatique en fonction du poids de la pièce jointe. Pour en minimiser l’impact sur les calculs, j’ai focalisé l’analyse sur des pièces jointes qui avaient un poids comparable au seul pour lequel des données sont fournies.
Cycle de vie vs consommation
Les données fournies se basent sur le calcul du cycle de vie, c’est-à-dire la rentabilisation des appareils sur toute leur durée de vie, depuis l’extraction des ressources juqu’au recyclage. Or, nous n’avons pas les mêmes données pour les émissions des trajets. Pour comparer plus correctement les émissions des trajets et des mails, il faudrait donc extraire les valeurs de consommation. J’ai envisagé de corriger le résultat total en retirant :
- Le « bloc émetteur », c’est-à-dire l’impact de l’utilisation d’un ordinateur avec écran pour la rédaction du mail.
- Les impacts autre que consommation, en évaluant visuellement la part « production » sur le graphe de répartition des impacts :
J’aboutis au calcul suivant : (16%×29% + 0,78% + 26%×2×97%) × 22, soit 12,3gCO₂e pour un mail d’1 Mo au lieu de 22.
C’est à ce moment-là que j’ai réalisé que ces tentatives de correction étaient absurdes. Pourquoi essayer de réparer à cet endroit-là des données clairement obsolètes et inadaptées, en rendant le raisonnement d’autant plus complexe à suivre ? J’en étais à zoomer sur un graphe pour évaluer si la barre rouge faisait plutôt 83% ou 84%, alors même que les hypothèses de base ne correspondaient pas…
Publier ou ne pas publier
À ce stade, je me suis posé la question d’abandonner la publication. Le moins qu’on puisse dire, c’est que les conditions d’une bonne analyse de données n’étaient pas remplies.
Et puis j’ai réfléchi à ce que j’avais déjà appris en faisant ce travail. J’ai repensé au scandale des « données ouvertes » de la Base carbone. Je me suis demandé si vraiment, des valeurs exactes en grammes de CO₂ étaient nécessaires pour déterminer si oui ou non envoyer 1,4 Mo de pièce jointe sans valeur d’usage pour un billet de train était profondément débile ; si une incertitude de 10% au lieu de 60% était une précondition à exiger d’inclure la part du numérique dans les efforts environnementaux ; si on devait attendre encore 10 ans les bras ballants que « les bonnes données » sortent pour réfléchir à ce qu’on peut faire pour réduire notre impact.
J’ai conclu que si les recommandations auxquelles j’arrivais ne dépendaient pas de la valeur absolue des émissions, alors l’effet d’une mesure même très approximative pouvait être positif, en premier lieu par le débat qu’elle apporterait.
Je crois qu’il était de notoriété publique au sein des expert‧e‧s de la donnée que l’étude ADEME 2011 sur les mails n’était plus très adaptée. Pour autant, je continue à la voir utilisée régulièrement et j’étais curieux de l’examiner de plus près. J’espère que cet article en montre les limites de manière plus fine (et plus appuyée) que par son simple millésime : au-delà de données obsolètes, elle a des incohérences internes mineures, très peu des résultats intermédiaires sont réutilisables, et les hypothèses qui y sont faites me semblent très arbitraires.
J’aboutis également à la conclusion que la mesure par passager me semble inadaptée, et qu’elle relève d’une vision politique où l’on voudrait individualiser la responsabilité de l’impact environnemental. Parler des émissions par voyageur-kilomètre et par type d’offre commerciale plutôt que des émissions globales d’un tronçon et du nombre de passagers transportés, ça permet de ne pas mettre en regard l’utilité du transport sur un bassin géographique et de montrer un bilan resplendissant pour le TGV. En attendant, ce sont les seules qu’on produit. Et vous savez où on les retrouve, du coup ? Dans le rapport de la Cour des comptes sur l’ouverture du TER à la concurrence, par exemple.
Nos décisions seront prises sur la base des données disponibles, peu importe leur qualité ou leur pertinence. J’espère que ces deux articles participeront à la prise de conscience des limites des données actuelles mais aussi du potentiel qu’il y aurait à en produire de nouvelles de meilleure qualité.
Recommandations
Ces recommandations sont complémentaires de celles proposées dans l’article grand public, et visent en particulier les producteurs de données.
- SNCF devrait publier sur son portail open data les émissions historisées par voyageur-kilomètre, par tronçon et par type de train. Le seul jeu de données actuellement disponible ne présente que les émissions pour les principales liaisons TGV, en voyageur-kilomètre et seulement pour une année spécifique.
- SNCF devrait séparer les émissions TER électrique et diesel. Même si les automoteurs peuvent être bimodes, cela permettrait de séparer les émissions pour les lignes n’utilisant que l’un ou l’autre mode.
- L’ADEME devrait respecter son affirmation de données ouvertes pour la Base carbone. C’est une perte d’opportunité folle de ne pas permettre la réutilisation de telles données d’intérêt général. Par ailleurs, comme la majeure partie en est consolidée par des acteurs publics, ce choix est probablement illégal.
- L’ADEME devrait mener une analyse au moins tous les deux ans sur l’impact environnemental des communications numériques. Il faut applaudir l’existence du rapport 2011, qui semble être la seule référence publique existante, mais les modalités évoluent trop rapidement pour que la temporalité actuelle soit suffisante.
- Trainline devrait mettre à jour ses données d’émissions. Celles présentées actuellement n’incluent pas les dernières versions des données fournies par SNCF, et indique par exemple 900 gCO₂e pour un Paris–Dijon au lieu des 756 gCO₂e donnés par SNCF.
Si le lien entre numérique et justice climatique vous intéresse, vous pourriez également être intéressé·e par le lien entre numérique et justice sociale dans Les conditions d’adoption du numérique dans le service social ou par mon livre blanc Construire des communs numériques.
Merci à Marie pour le soutien et l’échange sur la sociologie de la quantification 💖