Accueil
Le quotidien du droit en ligne
Envoyer à un ami-A+A
Le droit en débats

Jurisprudence en open data : pas si compliqué

Par Bernard Lamon le 18 Janvier 2018

L’accès à la jurisprudence est important pour tous les professionnels du droit et plus généralement pour les citoyens et l’État du droit.

L’accès le plus large possible à la jurisprudence est utile pour asseoir l’autorité de la justice en tant qu’administration. Les citoyens voient ainsi la masse et la qualité des décisions rendues.

Un large accès sert aussi d’outil de contrôle par les citoyens du bon fonctionnement de la justice. Il se rattache alors au principe de publicité des débats. Jusqu’à récemment, l’accès à la jurisprudence se faisait de manière limitée. Seuls les professionnels en bénéficiaient, et cet accès était limité en volume, ce qui était compensé par la qualité. Les arrêts de la cour de cassation publiés étaient soigneusement sélectionnés pour en faire un corpus cohérent, participant ainsi à la constitution d’une quasi-source du droit. Le rédacteur de ces lignes se souvient ainsi avec nostalgie de son sujet d’examen d’entrée à l’école des avocats : la jurisprudence, source de droit ?

Depuis les années 1990, plusieurs nouveautés sont apparues.

Tout d’abord, les décisions de justice ont commencé à être élaborées dans un format numérique, en fichier informatique. Le logiciel retenu est, semble-t-il, un traitement de texte qui a été très répandu (Wordperfect) mais qui a depuis été éclipsé par un autre logiciel.

Ensuite, le gouvernement français a ouvert un portail assez général : Légifrance, et des portails spécialisés (par ex., ArianeWeb pour les décisions de droit administratif). Ces portails ne sont pas exhaustifs. Il est par exemple très étonnant que les décisions rendues par le tribunal de grande instance et la cour d’appel de Paris soient si peu nombreuses dans Légifrance.

Parallèlement, les grands éditeurs juridiques ont mis à disposition de leurs clients, moyennant abonnements, des portails parfois plus complets, et surtout, enrichis de fonctions de recherche, et de liens vers des commentaires doctrinaux.

Récemment, on a vu apparaître de nouveaux acteurs, soit éditeurs classiques avec des méthodes d’indexation innovantes ou prétendues telles (doctrine.fr) et surtout, des sociétés qui promettent une forme de justice prédictive ou quantitative (caselawanalytics.fr, predictice.com).

L’efficacité de ces nouveaux outils suppose de disposer de grandes quantités de décisions de justice pour pouvoir établir des statistiques pertinentes. Dans ce contexte, la loi n° 2016-1321 du 7 octobre 2016 pour la République numérique prévoit aux articles 20 et 21 un principe général d’ouverture des données de jurisprudence. Ces articles renvoient à un décret les détails de cette ouverture, et notamment la conciliation entre ce principe d’ouverture et le droit au respect de la vie privée.

La lettre de mission de Jean-Jacques Urvoas mentionne aussi un autre élément de complexité : l’entrée en vigueur en mai 2018 du règlement européen sur la protection des données (RGPD). Dès lors, comment concilier les principes ? L’ancien garde des Sceaux, Jean-Jacques Urvoas, a confié à une commission le soin de déminer le terrain. On peut raisonnablement supposer qu’il a été confronté à une opposition forte au sein de son ministère.

Le rapport – Cadiet (V. not., Dalloz actualité, 10 janv. 2018, art. T. Coustet ) – publie les contributions reçues : certaines montrent bien cette opposition de principe. Et les travaux de cette commission, si on lit le rapport avec attention, portent la marque de ces tensions très fortes. On retiendra aussi que la publication du rapport a été plusieurs fois annoncée et reportée.

Enfin, la lettre de remise du rapport est datée du 29 novembre 2017, alors qu’il n’a été publié que le 9 janvier 2018. Il s’agit probablement d’un signe de la gêne du ministère sur ce sujet.

Le présent article est un article d’opinion. Il est donc consacré à deux points seulement : tout d’abord, le pouvoir politique doit trancher la question de l’étendue de l’exigence d’anonymisation. D’autre part, une difficulté paraît très surestimée par la commission.

Avant tout, il faut publier le décret d’application. Le rapport émet plusieurs recommandations en ce sens. La plupart de ces recommandations sont indiscutables, et elles serviront à la rédaction la plus efficace possible du décret. Restent deux nœuds gordiens qu’il faudra trancher : faut-il publier le nom des magistrats ? Faut-il publier le nom des avocats ?

Pour les avocats, le Conseil national des barreaux (CNB) s’est exprimé très clairement en faveur de cette publication par principe, et il semble que la commission s’en remette à cette position. L’auteur de ces lignes partage l’opinion du CNB sur ce sujet (ayant suffisamment critiqué le CNB sur plusieurs points, l’auteur a acquis la liberté de mentionner son accord. Sans liberté de blâmer… disait Beaumarchais).

Pour les magistrats, la commission n’est pas parvenue à un consensus.

L’opinion de l’auteur de ces lignes est ferme : aucun argument raisonnable ne peut être soulevé pour censurer le nom des magistrats ou des avocats. Il faut bien sûr prévoir quelques exceptions raisonnables : nom des magistrats siégeant en matière de terrorisme, ou de sujets touchant à la défense nationale. Bref, il faut un choix politique clair.

Surtout, le rapport mentionne à plusieurs reprises la nécessité d’assurer une anonymisation parfaite des décisions publiées, ce qui devrait prendre plusieurs années. Ce pronostic de délai est trop pessimiste. En tenant compte de la puissance des outils informatiques les plus récents, notamment de l’apprentissage profond, il devrait être possible de programmer un outil permettant d’anonymiser quelques centaines de jugements de manière manuelle puis, progressivement, que la machine apprenne la meilleure méthode d’anonymisation. On peut rétorquer que la machine ne peut pas faire mieux que l’être humain. Tout au contraire, sur ce type de traitements de grands volumes avec des règles de gestion finalement assez simples, la machine est très puissante quand elle fonctionne avec l’humain.

Ce type de défi a déjà fait l’objet de travaux importants et efficaces par le biais du groupe de travail au sein de l’État, la mission ETALAB (mission créée en 2011 chargée de la politique d’ouverture et de partage des données publiques), qui a été auditionnée par la commission (p. 121). La mission ETALAB précise qu’un prototype (un « proof of concept » en langage de développeur et d’innovation) a été déjà mis au point, et qu’il n’est pas besoin de réinventer la roue. En fait, tout va dépendre du perfectionnisme attendu du traitement. Si le pouvoir politique exige que le traitement soit efficace à 100 %, on ne pourra pas dépasser les volumes actuels, car la Chancellerie n’aura pas les moyens de mobiliser 50 professionnels travaillant comme des moines scripteurs dans un monastère du Moyen Âge.

En revanche, si l’on accepte une efficacité à 99 %, par exemple, le système pourra fonctionner avec beaucoup d’ingéniosité, de la puissance machine, et peu de temps.

Pour les décisions qui ne seront pas correctement anonymisées, il faudra mettre à disposition un moyen d’alerte simple et accessible. Ainsi, quand un justiciable s’apercevra qu’une décision le concernant permet de le reconnaître, il pourra signaler immédiatement, sans frais, et très simplement, l’erreur d’anonymisation. Ce signalement devra être traité en urgence. On pourrait même imaginer qu’à titre de précaution, la décision dont la publication est contestée soit retirée des bases de données, le temps de trancher ce recours. Ce signalement pourra aussi être adressé par toute personne, par exemple, un professionnel du droit qui s’aperçoit d’une erreur d’anonymisation.

Pour le futur, il faudra bien sûr exiger que toutes les décisions de justice comportent un système de balise (un code caché placé juste avant le nom des parties) pour signaler à la machine les données qui devront être anonymisées. En synthèse, un peu de courage politique pour vaincre les réticences internes, un peu d’ingéniosité, et dans quelques mois, nous disposerons tous d’un ensemble d’outils formidables.

Ou bien, notamment en érigeant des exigences excessives, et en appliquant un principe de précaution répondant à des inquiétudes corporatistes, on paralysera l’innovation en matière judiciaire.

Commentaires

Bonjour,
Je partage l'essentiel de votre point de vue.
J'ajoute que l'impression dominante qui se dégage à la lecture du Rapport Cadiet est celle d'un open data vecteur de menaces, auxquelles la mission répond par une proposition d'arsenal juridique et non pas par une approche fondée sur les risques, qui est pourtant centrale dans les articles 20 et 21 de République numérique comme dans le RGPD.
En revanche, j'ai peur que vous sous-estimiez le délai de mise en œuvre du projet et que l'échéance de 2025 avancée par la Chancellerie dans le Dalloz IP/IT de juillet dernier ne soit plus proche de la réalité. Songez au temps qu'il a fallu, et qu'il faut encore, au projet Portalis...

Bonjour,
Habitué des erreurs d'anonymisation de legifrance, je ne suis pas d'accord avec votre position selon laquelle on pourrait se contenter d'un taux d'erreurs de 1% en laissant la personne concernée s'apercevoir de l'erreur puis la signaler.

Il est des affaires pour lesquelles un problème d'anonymisation peut causer de graves dommages. Et vu la puissance informatique actuelle, une décision mal anonymisée a toutes les chances d'avoir été copiée et fait l'objet de diffusion avant même que l'intéressé ne s'en soit aperçu.

il est d'ailleurs probable que la personne concernée n'apprenne l'erreur que lorsque elle aura des conséquences pour elle.

Il ne faudrait pas que l'open data incite les entreprises à profiler les professionnels mentionnés dans les décisions de justice. C'est malheureusement trop souvent le cas, le profilage permettant un modèle économique plus lucratif pour ces entreprises, au détriment du droit fondamental des personnes à voir leur image image respectée. La liberté d'expression ou des objectifs d'intérêt public tels que l'intérêt pour la publicité des décisions de justice ne peuvent servir de prétexte à ce que des entreprises exploitent le nom des personnes ou des entreprises sans leur consentement.

Bruno Mathis et moi-même avons déjà eu une longue discussion sur le degré d'anonymisation exigé (par le règlement européen de protection des données dit RGPD) sous ce billet : http://www.precisement.org/blog/L-open-data-des-decisions-des-cours-d-ap...

Je vous y renvoie pour les détails.

En voici les grandes lignes : le RGPD peut être interprété de deux manières différentes en matière d'anonymisation :
- soit une pseudonymisation, c'est-à-dire une anonymisation faible, avec remplacement des noms et prénoms par des lettres, et suppression des adresse, numéro de téléphone, référence de cadastre, numéro de CB, plaque minéralogique. Mais en laissant des données indirectement nominatives (à commencer dans pas mal de cas par la profession). C'est bizarrement la position du rapport Cadiet
- soit une quasi-impossibilité de réidentifier, autrement dit une anonymisation forte voire très forte. C'est l'interprétation la plus évidente, celle qui correspond à l'esprit du texte et à l'avis de la meilleure spécialiste universitaire française. C'est aussi celle qui, en donnant son plein effet au texte, protège le mieux les justiciables personnes physiques. Vous, moi, quiconque. Or les techniques de réidentification ont énormément progressé et vont encore progresser.

À propos de l'efficacité -- réelle mais partielle/ limitée -- du machine learning en pseudonymisation (je n'ai même pas dit anonymisation), je crois qu'il faut lire ce billet d'un spécialiste : https://medium.com/@supralegem/la-qualité-de-lanonymisation-des-décisions-de-justice-par-machine-learning-baisse-de-façon-fdc6bb46bc06

Réagissez à cet article

Le contenu de ce champ sera maintenu privé et ne sera pas affiché publiquement.