Bonnes résolutions numériques pour 2017

En ce début d’année, les médias n’ont pas échappé au marronnier des bonnes résolutions, énumérant les grands classiques : faire du sport, arrêter la cigarette, s’imposer au boulot, voir plus souvent sa famille, etc. Pour rester dans la thématique de ce blog, je vais vous en proposer une version numérique, tournant toutes autour de la même idée : la reprise en main de votre identité numérique et de vos données.

Je considère que le débat public donne lieu à des exagérations sur le business model des services gratuits des GAFAM, en particulier sur la notion de travail gratuit que nous fournirions : quand on connait la difficulté et le coût d’extraire du sens de données saisies de façon non structurée par des non professionnels, il me semble abusif de parler de travail dissimulé. Par ailleurs, le business model des GAFAM est loin d’être monolithique : Apple gagne énormément d’argent avec son matériel et les royalties des applications extorquées aux développeurs, Microsoft avec ses licences, Amazon avec la qualité de sa logistique et de son service client, seuls Google et Facebook proposent principalement des services gratuits qui rapportent uniquement par les données utilisateur collectées pendant leur usage, directement ou indirectement.

Il n’en reste pas moins que je pense que les données que vous produisez, quelle qu’en soit la qualité, devrait vous appartenir au sens où vous devriez pouvoir en maîtriser l’utilisation et la diffusion dans le cadre d’un contrat clair et non léonin, ce qui n’est pas le cas aujourd’hui : une fois acquises, vos données peuvent être recoupées, agglomérées, moyennées, vendues et revendues sans que vous puissiez contrôler quoi que ce soit. On constate principalement deux attitudes face à cet état de fait aujourd’hui : une certaine forme de résignation – la qualité des services rendus dépasse largement le coût très difficile à évaluer du don des informations personnelles –  ou le désir de voir l’Etat s’emparer de la question, ce qui résulte en des lois quasiment toujours en retard d’un ou deux métros et le plus souvent inapplicables – l’initiative récente d’Axelle Lemaire sur le testing d’algorithme étant une exception qu’il convient de relever. Or, une troisième voie est possible : utiliser d’autres services aux contrats moins opaques, ou vous constituer votre propre service. Cette voie demande un peu d’investissement personnel, peut entraîner parfois des frustrations, mais la reprise en mains de vos données numérique est à ce prix.

Moteur de recherche

Le moteur de recherche de Google est le meilleur actuellement disponible du point de vue de la profondeur de l’analyse et de la compréhension de votre question et ce même pour des recherches très pointues. Vous pouvez toutefois considérer que ces qualités sont contrebalancées par le fait qu’il vous suive à la trace afin de vendre les meilleures publicités à ses clients annonceurs, qu’il soit susceptible d’abuser de sa position dominante – voir par exemple la relation sadomasochiste très étrange que Google entretient avec les organes de presse, très contents d’être référencés dans Google News, mais qui préféreraient que les contenus soient vus au maximum chez eux avec les publicités que leur régie vend – et, critique un peu moins répandue mais qui ne me semble pas la moins pertinente, qu’il dirige la pensée par plusieurs de ses fonctionnalités :

  • l’autocomplétion, au delà du gain de temps théorique qu’elle apporte, a tendance à orienter votre recherche vers soit le plus à la mode, et donc une certaine forme de conformisme, soit vers des recherches ou une façon de rechercher que vous avez déjà employées par le passé, et donc de vous enfermer dans votre mode de pensée personnel
  • le tri des résultats est autant une résultante de la pertinence des mots clés dans les pages en question que d’une forme de concours de popularité des pages traitant du sujet recherché et faisant un lien vers elles. Grosso modo, un bon référencement sur Google, c’est 35 % de travail sur les mots clés, et 65 % sur du partenariat ciblé. C’est une utilisation très intelligente d’une des notions fondamentales du web, le lien hypertexte, et un progrès manifeste par rapport aux moteurs de recherche d’avant 2000 en termes de pertinence de la réponse ; il n’en reste pas moins que là aussi, une forme de conformisme peut s’installer, sans parler de la course au pagerank pour obtenir un bon classement non pas par la pertinence du contenu, mais en exploitant le fonctionnement de l’algorithme
  • le tri des résultats prend également en compte vos choix personnels ; plus vous choisirez certains résultats dans la liste, plus ceux-ci seront susceptibles de vous être présentés en premier

Vous allez me dire que je ne suis jamais content : quand on me propose ce qui est populaire, je me plains du conformisme, et quand on me propose ce qui me plaît, je me plains qu’on m’enferme dans mon mode de pensée. Mais c’est parce que là aussi, il y a une troisième voie, qui est au cœur de la notion de lien hypertexte : le lien qui surprend, qui vous emmène là où vous n’aviez pas prévu d’aller, le vagabondage numérique, la flânerie 2.0.

Toujours est-il qu’il existe une alternative crédible à Google, que je peux recommander pour l’utiliser moi-même depuis plus d’un an, et que, cocorico, elle est française : je veux parler de qwant. Qwant ne place pas de cookie traceur sur votre navigateur – ce que vous pouvez vérifier – et n’enregistre pas votre adresse IP lorsque vous recherchez chez lui – là, il vous faudra faire confiance aux concepteurs du site. Du coup, il devient extrêmement difficile à qwant de vous retrouver et de tracer vos actions, pas uniquement par bonne volonté, mais parce qu’il n’a pas les informations qui lui permettraient de le faire, ce qui a l’avantage collatéral que quiconque récupérerait les données stockées par qwant, que ce soit des pirates ou l’Etat, n’aurait pas non plus ces informations. Les résultats de recherche sont donc également indépendants de vos actions, ce qui évite le risque de biais de confirmation.

Qwant n’est bien sûr pas exempt de défauts :

  • la pertinence des résultats « Actualités » et « Social » est pour le moins suspecte
  • la recherche d’images ne donne pas de très bons résultats ; je n’arrive pas à déterminer si il s’agit d’un choix volontaire de ne pas indexer toutes les sources d’images, ou juste un work in progress. Il est possible de lancer depuis l’interface de qwant une recherche image google avec le mot clé &gi
  • certaines recherches très pointues sont soit mal comprises, soit mal indexées, par exemple des codes d’erreur, des bouts de code informatique avec des caractères spéciaux ; google reste le meilleur là-dessus

Mais ces défauts restent mineurs : pour les textes, les recherches que je relance sur google faute de résultats pertinents représentent moins de 5 % de mes recherches pour le travail, et quasiment rien pour les loisirs.

Cartographie

Google Maps est un outil magnifique, d’une qualité technique indéniable, et reste le leader quand on prend en compte tous les paramètres purement fonctionnels. Cependant, comme la plupart des services gratuits, son mode de financement passe par la publicité ; si il est acceptable pour les utilisateurs de voir apparaître des noms de société ou de commerces sur la carte, que ceux-ci soient choisis sur la base d’un contrat passé avec Google plutôt que sur une indexation objective est déjà plus discutable, et le pire serait atteint si les itinéraires calculés prenaient en compte le passage devant un magasin ayant payé pour de la publicité – ce que les testeurs d’algorithme de l’INRIA pourront peut-être détecter. Google peut aussi être accusé de complaire aux demandes de certains pays pour conserver le droit d’y faire leur business plutôt que de s’appuyer sur les frontières internationalement reconnues.

Si vous souhaitez vous appuyer sur des cartes construites par un consensus et une philosophie ressemblant à ceux de wikipedia, openstreetmap est fait pour vous. Pas de streetview, pas de vue satellite, mais des cartes précises, mises à jour en continu, sans publicités, et libres de droits d’utilisation pour les développeurs, là où google maps a une politique changeante et peu accommodante en particulier pour les applications non publiques.

Le système cartographique est complété par un système de calcul d’itinéraires, OSRM. Disponible depuis peu de temps, uniquement en anglais et en allemand, les itinéraires calculés me semblent plutôt bons et s’affichent très rapidement. Les options sont évidemment moins nombreuses que sur google maps – pas d’itinéraire à pieds, en vélo ou en transports en commun – mais le service est très jeune et va certainement s’étoffer.

DNS

Ce chapitre parlera sans doute plus aux informaticiens qu’aux autres, mais le DNS public de Google (8.8.8.8) est très souvent utilisé comme DNS secondaire voire primaire pour se simplifier la vie ; il est public, gratuit, performant, et bien évidemment, Google ne le fournit pas par bonté d’âme, mais pour augmenter le volume de ses statistiques de consultation de sites webs. En général, le service DNS est également fourni par votre FAI, mais outre le fait qu’il peut implémenter des blocages – administratifs ou non – la plupart journalisent les appels comme Google et peuvent utiliser cet historique, se le faire voler par des pirates ou emprunter par l’Etat.

Pour éviter tout cela, vous pouvez utiliser les services de FreeDNS : gratuit, performant, sans journalisation et sans blocage.

Stockage dans le cloud

De nombreux services existent pour stocker vos données sur des serveurs extérieurs : OneDrive de Microsoft, Google Drive, Dropbox, etc. Ils apportent tous l’avantage d’être accessibles partout où vous avez une connexion internet, avec un débit si ce n’est optimal, au moins d’assez constamment bonne qualité. En général, une version gratuite est proposée avec une capacité de stockage limitée à quelques Go, et une version payante montant au To pour quelques euros par mois.

Le principe même de ces services est que vous ne sachiez pas, et que vous n’ayez pas à vous préoccuper de savoir où sont stockées physiquement vos données. Malheureusement pour vous, les lois nationales, elles, s’en préoccupent ; depuis les révélations d’Edward Snowden, chacun sait que les USA font ce qu’ils veulent des données stockées ou transitant par leur territoire, ce qui peut rendre chafouin tout particulier un tant soit peu paranoïaque, et peut se montrer critique pour des données d’entreprise susceptibles d’espionnage industriel. La France n’aura pas gardé longtemps un avantage concurrentiel sur ces questions, les dernières lois votées sous couvert de lutte contre le terrorisme ayant étendu les possibilités d’interception et de réquisitions de données à des domaines assez larges.

Les conditions générales d’utilisation sont aussi assez instructives sur ce que se permettent les prestataires eux-mêmes et ce qu’ils vous garantissent : ils peuvent lire le contenu de vos fichiers dans le cadre des services, en particulier les exif des photos qui contiennent des données de géolocalisation, ils stockent toutes les informations disponibles sur la façon dont vous utilisez le service – appareil utilisé, version, géolocalisation des accès. Comme on le voit de façon récurrente dans cet article, ces données peuvent être exploitées par le prestataire mais également par les Etats sur le territoire desquels les données sont stockées physiquement. En contrepartie, vous vous attendez sans doute à un accès universel – check – une sécurité de haut niveau – là, certains services dont dropbox ont déjà connu des ratés, sans parler de la disparition soudaine de megaupload – et des sauvegardes garanties. Ce dernier point est celui qui m’a le plus surpris en lisant les conditions générales des services : même dans le cas payant, aucun service ne vous garantit quoi que ce soit sur la non perte de vos données. J’ai personnellement connu des pertes d’emails chez Yahoo et chez GMail qui n’ont pas été corrigées.

En effet, on pourrait imaginer qu’une perte massive de données utilisateur faisant peser un risque de mauvaise publicité tellement énorme sur ce type de service qu’ils mettent en oeuvre des sauvegardes béton, surtout que ce sont des sujets assez bien maîtrisés en informatique. La réalité est que pour s’assurer de ses sauvegardes, on ne peut se passer de vérification humaine, coûteuse et peu factorisable, incompatible avec les tarifs pratiqués ; du coup ces services aussi bien conçus et automatisés qu’ils soient, doivent de temps en temps oublier un serveur ou perdre des sauvegardes physiques que ce soit par destruction, disparition ou détérioration du support. Le volume reste inférieur au seuil qui entraînerait une contre publicité, mais si ce sont vos données qui sont perdues, ça vous fait une belle jambe.

Des outils sont aujourd’hui disponibles pour vous permettre de mettre en place votre propre service de stockage décentralisé, mais pour être honnête, ça demande un peu de travail. Le principe est le suivant :

  • vous achetez deux NAS de même capacité (je n’ai aucune action ou intérêt chez eux, mais les NAS synology sont très bien par exemple)
  • vous en placez un chez vous, et un ailleurs (au bureau, chez un ami, un parent, quoi qu’il en soit un endroit physiquement séparé ; vous pouvez faire une sauvegarde uniquement pour vous, ou faire une sauvegarde croisée de vos données et de celles de la personne chez qui vous installez la copie)
  • vous utilisez les outils intégrés au NAS pour synchroniser les deux
  • vous vérifiez régulièrement et manuellement que la synchronisation se passe bien
  • vous ouvrez les interfaces d’accès distant qui vous intéressent (interface web, WebDAV, etc.)

Les deux derniers points demandent de la configuration sur votre routeur internet afin d’ouvrir sur internet vos NAS, et là effectivement il faut savoir un peu ce que l’on fait. Des solutions toutes intégrées existent comme Lima, mais elles sont évidemment moins souples – je vais reparler des autres fonctionnalités des NAS modernes un peu plus loin. Le désavantage de cette solution est évidemment que ses performances dépendent de celle de votre connexion internet : avec un ADSL à 10km du NRA, il ne faudra pas espérer un débit de l’ordre du Mo…

Qui de la sécurité, me direz-vous ? Je vais distinguer deux catégories de considération en termes de sécurité :

  • la sécurité physique : se protéger contre une défaillance matérielle, un cambriolage, un incendie, etc.
  • la sécurité informatique : se protéger contre un piratage – et là, même si vous pensez qu’un pirate n’aurait rien à faire de vos photos de vacances et que vous n’avez aucun document confidentiel, vous pouvez toujours être la cible d’un ransomware qui se multiplient ces derniers temps

La configuration que j’ai décrite règle le problème de la sécurité physique : il faudrait vraiment ne pas avoir de bol pour avoir un incendie, un vol ou une casse de disque dur aux deux endroits à la fois.

Pour ce qui est de la sécurité informatique, le mieux que vous puissiez faire est de n’ouvrir que les services que vous utilisez, d’utiliser des mots de passe solides – que vous n’utilisez pas ailleurs et en particulier pas sur des sites publics, au moins dix caractères et combinant lettre, chiffre et signe de ponctuation – et de mettre à jour régulièrement votre NAS et vos ordinateurs. Une fois que vous avez fait tout cela, il est toujours possible de subir une faille non corrigée, et là, une seule solution : vous devez sauvegarder régulièrement vos données sur un support physique que vous déconnectez du réseau et que vous rangez dans un tiroir jusqu’à la prochaine sauvegarde. Pour un particulier, c’est une mesure un peu paranoïaque, coûteuse en temps et en matériel, mais si vous voulez une sécurité quasiment totale, c’est obligatoire. Pour une entreprise, c’est un prérequis vital.

Email

Les services d’email gratuits se financent via la publicité, et pour se faire, ils lisent vos correspondances ; ils ne s’en cachent pas, c’est écrit noir sur blanc dans les conditions d’utilisation (voir le paragraphe vos contenus et nos services), et comme pour tous les services décentralisés, vos données sont sujettes aux lois de leur emplacement physique de stockage. Vous avez deux options pour atténuer ces risques :

  • il existe des services gratuits publics sans publicité et sans lecture des correspondances, par exemple Newmanity ou Mailoo ; ils ont l’avantage d’être très faciles à mettre en oeuvre, mais ne vous offrent pas de garantie sur la localisation des données (Newmanity héberge aux Pays-Bas, Mailoo semble-t-il en France – dedibox qui sont dans les datacenters d’Iliad et lost oasis – mais ce n’est pas très clair pour ce dernier), un espace de stockage limité – encore que 1Go pour des emails, c’est déjà pas mal – et moins de souplesse sur le nom de domaine par exemple
  • si vous êtes très motivés, vous pouvez monter votre propre serveur d’email, par exemple avec un de vos NAS ; ça coûte un peu de sous – pas beaucoup, une dizaine d’euros par an pour votre nom de domaine – et surtout pas mal de temps et d’apprentissage, puisqu’il faut configurer le DNS de votre nom de domaine vers votre NAS, configurer votre routeur internet pour ouvrir les services, configurer votre NAS, mettre à jour régulièrement – en sachant que les spams représentent environ 93 % des emails reçus sur nos serveurs professionnels – et, cerise sur le gâteau, se mettre en capacité d’expédier les emails, ce qui dans le monde actuel du spam généralisé demande pas mal de travail (enregistrements DNS SPF, configuration de reverse DNS, voire signature DKIM / DomainKeys)

L’option auto-hébergement me semble très complexe pour un particulier par rapport au gain, mais les plus motivés pourront y passer une fois qu’ils auront assimilé le passage au cloud de stockage privé.

Réseau social

Vous connaissez la mélodie maintenant : gratuit payé par l’exploitation de vos données principalement pour les publicités mais pas que, emplacement du stockage physique non contrôlé. On pourrait s’attendre à ce que l’infrastructure nécessaire à la mise en place d’un réseau social soit hors de portée d’un modèle réellement gratuit ou à très bas coût. Tout d’abord, pour un partage à son réseau personnel, le volume de données est tout à fait raisonnable, et cela fait très longtemps que des particuliers lancent des forums avec plusieurs centaines voire milliers d’utilisateurs à très bas coût.

Mais encore mieux, un outil a su utiliser à bon escient la nature décentralisée d’internet pour construire un réseau social à échelle mondial de façon distribuée : diaspora. Le principe est simple comme internet : localement, de petits serveurs appelés pod regroupent des mini réseaux, et l’infrastructure logicielle les agrègent pour créer un réseau mondial, ce qui permet de fournir gratuitement et sans publicités un réseau social global.

Conclusion

J’entends beaucoup de lamentations sur la « googlisation » d’internet, une recentralisation du réseau autour de gros services – Google, Youtube, Netflix, Facebook, etc. – la plupart étant financé par une concentration des données personnelles dangereuse pour de nombreuses raisons – sécurité, confidentialité, surveillance privée ou étatique – mais j’entends peu parler de solutions alors qu’elles existent, comme cet article le prouve – et je citerais également l’initiative de Framasoft agrégeant de nombreux services ouverts et décentralisés. Alors, en 2017, on reprend en mains internet ?

Du bon sens dans la prestation de services informatique

Le 28 juin 2016, dans un article intitulé « After Brexit, the people’s spring is inevitable » paru dans le New York Times, Marine Le Pen déclarait à propos des attitudes possibles de l’UE face à la Grande-Bretagne qu’elle pourrait soit la laisser partir sans heurts, soit se comporter en mauvais perdant en lui pourrissant la vie, concluant « Common sense points towards the former » (« Le sens commun incline vers la première ») mais que l’Europe ferait sans doute l’inverse, puisque dans son esprit elle est totalement dépourvue de sens commun. J’ai été assez étonné de retrouver ici l’expression anglaise « common sense », et je suis allée chercher la version française de l’article, et bingo, Marine Le Pen avait employé l’expression « bon sens », une des préférés de nos politiques, dont l’apparition dans le discours est proportionnelle à l’inclination populiste. Qui en effet pourrait s’opposer à ce qui est de bon sens, si ce n’est un sorbonnard coupeur de cheveux en quatre ou un technocrate de Bruxelles borné ? Comme je vais l’exposer ici, il se trouve qu’en général ce sont des gens de très bonne compagnie qui s’opposent au bon sens, et qu’il est rarement une bonne boussole pour qui cherche le vrai, ou son pis aller atteignable, le moins faux.

Le bon sens en philosophie

Commençons par revenir à la traduction anglaise faite par le New York Times, qui à mon avis trahit la pensée de Marine Le Pen en lui faisant parler de sens commun plutôt que de bon sens. L’histoire du sens commun en philosophie commence avec Aristote qui le définit comme la capacité commune aux êtres vivants à prendre connaissance sensoriellement de leur environnement ; dans une étape supplémentaire, uniquement accessible aux être humains, nous nous construisons une vision du monde qui nous devient propre, mais la perception initiale nous serait commune et serait l’apanage d’un sens interne au corps, sans capteur externe comme l’œil ou le nez, comme une sorte de boussole intérieure qui nous pointerait dans la bonne direction.

Chez les romains, l’expression prend un sens légèrement différent, qui fait écho au fonctionnement de l’impérialisme romain : il devient l’ensemble des éléments sur lesquels une société s’entend de façon à rendre la vie commune possible. On se rapproche d’une définition plus intellectuelle du sens commun, qui ressemble à ce qu’on appelle souvent aujourd’hui en français « vivre ensemble ».

Bien plus tard, Descartes viendra démonter ce sens interne qu’aurait les êtres vivants, en mettant d’un côté les sens physiques, et de l’autre la raison dont le siège est pour lui le cerveau – c’était le cœur pour Aristote. Le sens commun grec est pour Descartes une illusion, et il en arrive à le redéfinir comme la capacité supposément innée à différencier le bien du mal sans réfléchir, capacité qu’il bat en brèche en lui opposant le doute méthodique, c’est-à-dire la méthode scientifique, émergente à l’époque, qu’il est parmi les premiers à théoriser.

Par la suite, la peur que la rationalité cartésienne soit impossible à atteindre voire inhumaine a fait ressortir des cartons la version romaine par Giambattista Vico, qu’on qualifiera de sens commun humaniste ; Vico le voit comme les savoirs et croyances partagés à l’intérieur d’un groupe humain quelconque pour permettre à ce groupe de perdurer avec le minimum de conflit interne. Le point important ici est que ce sens commun est relatif au groupe : il n’y a pas comme dans la version grecque de sens commun universel, mais une myriade de compromis plus ou moins explicites, variant dans l’espace et dans le temps. Vico a par la suite poussé sa vision au paroxysme en tentant de définir une nouvelle version de la loi naturelle qui s’appuierait sur un sens commun de l’humanité toute entière ; force est de constater que la méthode scientifique du doute méthodique s’est imposée sans trop de difficultés sur cette idée.

Enfin, Kant écrivit que le seul sens commun était le sens esthétique, c’est-à-dire notre capacité à juger, qui n’est pas commune dans le sens où nous jugerions tous de la même façon, mais dans le sens où nous sommes tous pourvus également de cette faculté à juger, sans qu’on puisse déterminer si un jugement esthétique est plus valide qu’un autre. Comme chez Descartes, ce sens commun s’oppose à la raison.

Finalement, on constate qu’en philosophie, après presque trois millénaires de réflexion, l’idée qu’un sens commun à tous les êtres puisse s’imposer sur la raison a fait long feu. L’histoire des sciences vient à l’appui de cette constatation.

Le sens commun en mathématiques

Les éléments de géométrie d’Euclide est le livre ayant le plus d’éditions après la Bible ; il serait un euphémisme de dire que c’est l’ouvrage scientifique le plus influent de tous les temps. Et pourtant, une de ses clés de voûte, l’axiome des parallèles, que toute personne ayant appris un peu de géométrie de nos jours tient pour tellement évident qu’il ne lui viendrait pas à l’idée de le remettre en cause – et je dis un peu à dessein, ceux qui ont étudié beaucoup de géométrie savent qu’il n’est ni nécessaire ni toujours souhaitable – cet axiome vient à l’encontre d’un des sens communs philosophiques. Il énonce que par un point donné il ne passe qu’une seule parallèle à une droite donnée ; il est équivalent à ce que deux droites parallèles ne se coupent pas, et tout cela fonctionne très bien dans le plan.

Or notre terrain de jeu commun est une sphère, la Terre, et pas un plan ; prenons deux méridiens : dans la géométrie adaptée à une sphère, ce sont deux droites parallèles, or ils ont deux points d’intersection, le pôle nord et le pôle sud physiques. Certaines théories physiques supposent même que l’univers lui-même n’est pas plan au sens d’Euclide. Localement, vous ne verrez pas la différence, mais mesurez des distances terrestres suffisamment grandes et ne pas prendre en compte la courbure de notre planète amène à des erreurs énormes.

L’axiome des parallèles, bien qu’il fasse partie du sens commun de toutes les sociétés des pays développés au sens où tout individu lambda pris dans la rue le considérera comme acquis, s’oppose au sens commun d’une humanité en général qui vit sur une sphère, donc dans une structure où cet axiome amène à des raisonnements faux.

Le sens commun en physique

La physique aristotélicienne – comme par hasard – énonce que les objets les plus lourds tombent plus rapidement. Et cela semble effectivement a priori évident : lâchez une boule de pétanque et une feuille de papier, la boule de pétanque touchera le sol la première, c’est imparable. Marine Le Pen dirait que c’est du bon sens.

Mais maintenant, prenez deux feuilles de papier identiques, et froissez-en une. Si vous lâchez les deux, vous constaterez que bien que leur masse soient égales, celle qui est froissée tombera bien plus vite que l’autre. Pire : si vous en coupez une en eux, et que vous la froissez, elle tombera également plus vite que l’autre, alors que cette fois-ci, elle est moins massive. Ces deux petites expériences triviales prouvent qu’il n’y a pas que la masse dans l’affaire ; actuellement, on considère que deux objets tombent à la même vitesse quelle que soit leur masse ; ce sont d’autres forces qui provoquent les écarts, les frottements, le vent, etc. Une vidéo célèbre montre un marteau et une plume tomber à la même vitesse sur la lune.

Une expérience est d’ailleurs en cours en orbite autour de la Terre pour vérifier à la quinzième décimale cette loi appelée « principe d’équivalence » ; si l’expérience venait à infirmer la loi, cela remettrait en cause une partie de la théorie de la relativité générale, qui est le cadre actuel de la gravitation, rien que ça. Pourquoi une telle expérience ? Parce que la science n’est jamais que la recherche de l’erreur, et que de correction d’erreur en correction d’erreur, on se rapproche toujours un peu plus de la vérité.

Dans la prestation de services informatiques

J’avoue que cet article est plus né de mon aversion pour le bon sens que d’une expérience directement liée à l’informatique, mais le bon sens sévit également dans notre relation à nos clients. Il est très fréquent pendant la phase de recette d’un logiciel d’entendre le client nous reprocher quelque chose qui ne se trouvait pas dans les spécifications fonctionnelles, et il proférera souvent que « c’est pourtant évident ! », justifiant par là du fait qu’on ne l’avait pas écrit pendant la conception.

Au cours de mes diverses incursions dans des domaines professionnels variés – de la garde d’enfants en crèche à la vente de tracteur en passant par le calcul financier, la reconnaissance de la parole ou l’analyse de dossiers administratifs – si il y a bien une chose que j’ai apprise, c’est qu’il n’existe aucune évidence. Par exemple, il est évident pour la plupart des gens, cela fait partie du sens commun, qu’une fois qu’un devis ou un bon de commande est validé, il ne doit plus être modifié ; il se trouve que pour la vente de tissu à la demande, il est inscrit dans le code du commerce qu’étant donné que les machines ne sont pas capables de s’arrêter pile poil sur le métrage attendu, le client recevra et paiera exactement la longueur à laquelle la machine s’est arrêtée : vous commandez 100 mètres, on peut vous en livrer 97 ou 102, et c’est normal. Le devis est alors modifié rétroactivement pour coller au travail effectué.

Dans un autre ordre d’idées, lors d’une réunion client récente, nous étudiions une entité possédant trois propriétés définissant la capacité d’une structure ; trois profils d’intervenants du client étaient présents ; pour le premier, le troisième chiffre ne servait à rien, pour le deuxième, le deuxième chiffre ne servait à rien, et pour le troisième, tous les chiffres étaient importants. L’évidence ne se brouille donc pas uniquement de par les spécificités du métier, mais également par l’angle de vue adopté, que l’on soit comme dans mon exemple des services centraux, de l’encadrement local ou du travail directement opérationnel. D’ailleurs, cet aspect de la problématique informatique, lié au fait que l’utilisateur fait partie du système d’informations, justifie le caractère indispensable des ateliers utilisateur et des suivis post mise en production. La conception se fait souvent dans les services centraux, loin du terrain, en particulier dans les grandes structures, et le développeur est souvent le plus éloigné des utilisateurs finaux, qu’il n’entend qu’à travers de multiples couches ajoutant chacune leur bruit au message initial.

Au bout du compte, le métier de l’informaticien est beaucoup plus de trouver un sens commun à tous les utilisateurs de l’application pour modéliser les données et les processus, puis de présenter ces données nécessairement communes, puisque centralisées dans le logiciel, de façon différente en fonction des profils, des connaissances et de la place de l’utilisateur – en résumé, de son bon sens personnel – que de programmer l’ordinateur lui-même qui ne reste qu’un outil au service de l’exécution automatisée de processus humains.

Cryptographie, algorithmes et secrets

Dans un climat général de tentative des Etats de mise au pas des GAFA qui se croiraient au dessus des lois, l’affaire FBI contre Apple a des retentissements jusqu’en France où Yann Galut, Eric Ciotti et Philippe Goujon ont déposé des amendements à la loi de réforme pénale en prévision d’un cas similaire en France ; en l’état actuel de la discussion à l’Assemblée, c’est celui de M. Goujon qui a été adopté, et il pose un très gros problème sans répondre exactement au cas américain, ce que je vais exposer ici.

La cryptographie pour les nuls

Les systèmes de cryptographie non triviaux sont tous composés de deux éléments : d’une part, un algorithme de transformation des données avec un pendant cryptage et un pendant décryptage, et d’autre part un secret utilisé pendant l’exécution de l’algorithme qui est partagé entre les parties concernées par la communication.

Par exemple, considérons l’algorithme suivant : pour chaque lettre d’un message, à la place de la lettre, on met trois chiffres qui correspondent respectivement à un numéro de page dans un livre, un numéro de ligne dans la page, et un numéro de caractère dans la ligne. Pour crypter, lettre à lettre, on choisit une page au hasard, puis une ligne au hasard, et on y cherche la lettre à transformer, puis on écrit le triplet déterminé. Pour décrypter, triplet par triplet, on ouvre le livre à la page du premier chiffre, on se place à la ligne du deuxième chiffre, puis au caractère du troisième chiffre, et on en déduit la lettre.

Si je veux envoyer un message crypté avec cet algorithme à un tiers, je m’entends avec lui sur un secret partagé, qui sera par exemple l’édition J’ai lu de 2003 de Lumière des jours enfuis d’Arthur C. Clarke – excellent livre qui sur fond d’utilisation des trous de ver nous parle en filigrane entre autres choses de la société des réseaux sociaux publics où plus rien n’est privé. Sans savoir quel est le livre employé, il est très difficile de décrypter le message, surtout si on utilise des triplets différents à chaque fois qu’on retrouve la même lettre, et en particulier, le créateur de l’algorithme n’a pas plus de moyen de décrypter le message que n’importe qui d’autre, il peut juste fournir le principe de cryptage.

L’amendement Goujon

L’amendement du député Philippe Goujon est ainsi rédigé : « Le fait, pour un organisme privé, de refuser de communiquer à l’autorité judiciaire requérante enquêtant sur des crimes ou délits terroristes définis au chapitre Ier du titre II du livre IV du code pénal des données protégées par un moyen de cryptologie dont il est le constructeur, est puni de cinq ans d’emprisonnement et 350 000 € d’amende. » Or, comme on l’a vu, le constructeur d’un moyen de cryptologie connait l’algorithme mais n’est pas sensé connaitre le secret qui est l’affaire du propriétaire des données et des personnes à qui il veut les communiquer ; pour complaire à la loi ainsi rédigée, le constructeur doit inclure d’une façon ou d’une autre dans son algorithme une porte dérobée lui permettant d’accéder au secret. Et si l’histoire de l’informatique prouve quelque chose, c’est que si une porte dérobée existe, elle sera exploitée par des personnes malveillantes tôt ou tard. De fait, l’amendement Goujon rend totalement inopérante la cryptographie.

La loi sur le renseignement

Comme je l’ai écrit dans un billet précédent, la loi sur le renseignement ajoutait une obligation de décryptabilité aux fournisseurs de communication électronique, dont les hébergeurs font partie. Les deux articles semblent similaires, puisque le législateur demande dans les deux cas un moyen d’accès à des données cryptées, mais les différences sont de taille :

  • dans le cas de la loi renseignement, l’autorité administrative demande le secret, que par définition l’hébergeur connait et est fondé à connaitre puisqu’il fait partie de la communication ; le risque est qu’une fois le secret connu des autorités, toute donnée cryptée par ce secret, qu’elle fasse ou non l’objet d’une problématique terroriste, peut leur être connue – typiquement, une fois que vous avez la clé privée d’un serveur https et via les fameuses boites noires, toutes les communications effectuées vers ce serveur https, elles peuvent toutes être décryptées
  • dans le cas de l’amendement Goujon, le législateur demande les données elles-mêmes non plus à une des parties de la communication, mais à un fournisseur de technologie, ce qui implique comme on l’a vu une forme de porte dérobée, qui peut rendre visible à un hacker toute donnée cryptée à l’aide de la technologie, ce qui est bien plus grave à deux points de vue : d’une part, malgré toutes mes préventions contre un Etat trop puissant, je préfère que mes données soient potentiellement accessibles à une autorité administrative constituée et un tant soit peu contrôlable plutôt qu’à un hacker anonyme, et d’autre part, toute donnée cryptée avec l’algorithme est potentiellement lisible, pas uniquement un serveur utilisant une clé privée https sur un temps limité !

Le cas San Bernardino

L’affaire en cours entre le FBI et Apple est différente de l’amendement Goujon et de la loi renseignement, car dans le cas des données stockées cryptées dans un smartphone, le secret est physiquement présent dans le téléphone. Le FBI ne demande à Apple ni les données, ni le secret, mais un outil pour l’aider à obtenir le secret.

En très résumé, le cryptage de l’iPhone fonctionne de la façon suivante : le secret est composé d’une donnée physiquement présente dans le processeur et d’un mot de passe créé par l’utilisateur. Si on sort les données cryptées du téléphone, le processeur n’étant pas là, une partie de la clé est manquante ; si on change le mot de passe utilisateur, erreur que le FBI a faite, une partie de la clé est manquante. Le FBI se retrouve donc obligé de faire une attaque brute force, c’est-à-dire d’essayer tous les mots de passe un par un comme des bourrins. Or le micrologiciel de l’iPhone empêche de telles attaques par deux moyens : on peut activer sur le téléphone une suppression automatique des données au bout de dix erreurs de mot de passe – et le FBI n’a aucun moyen de savoir si la fonctionnalité est activée ou pas sur le téléphone du terroriste, et plus on se trompe de mot de passe, plus le téléphone met longtemps à répondre aux demandes d’authentification. Cerise sur le gâteau : pour qu’un micrologiciel soit accepté par le téléphone, il faut qu’il soit signé par la clé privée d’Apple, il est donc impossible au FBI d’intégrer une version à eux sans intervention d’Apple.

Pour accéder aux données, le FBI a donc besoin d’un des éléments suivants :

  • une version créée par Apple du micrologiciel qui lève les restrictions empêchant une attaque en force brute ;
  • la clé privée qu’Apple utilise pour signer ses micrologiciels pour en intégrer une version à eux dans le téléphone

La deuxième option est inimaginable car elle conduit immédiatement à ce que le FBI puisse faire ce qu’il veut de tout téléphone Apple ; le FBI ne le demande d’ailleurs pas. La première option fait débat : le FBI assure qu’Apple pourrait créer une version qui ne fonctionnerait que sur ce téléphone précis, et de son côté Apple affirme qu’une fois le logiciel créé, il n’y a aucun moyen d’empêcher les personnes mettant la main dessus de l’utiliser sur tous les iPhone, ce qui ouvrirait une porte dérobée sur des centaines de millions de terminaux. Toujours est-il que même possédant ce logiciel, le FBI mettrait en moyenne 3 ans à forcer le mot de passe par force brute, et qu’il s’est de lui-même privé d’un moyen trivial d’y accéder facilement en changeant le mot de passe existant ; de plus, à l’aide des relevés téléphoniques, des informations de son ordinateur et de son fournisseur d’accès à internet, le FBI connait déjà les personnes avec lesquelles il communiquait et en grande partie ce qu’il a pu leur dire.

On peut alors se demander légitimement pourquoi on ouvrirait un précédent aussi majeur, et pourquoi on prendrait un tel risque pour la sécurité d’un nombre gigantesque de personnes, tout ça pour obtenir au mieux dans 3 ans quelques informations complémentaires, et au pire dupliquer des données que l’on a déjà.

Conclusion

Dès que j’ai lu l’amendement Goujon, j’ai contacté personnellement le député pour lui expliquer les problèmes qu’il posait ; son attachée parlementaire m’a répondu que lors de la discussion sur celui-ci, le député avait dit que le gouvernement pourrait améliorer les aspects techniques mais qu’il constituait une base de discussion qui rassemblait gauche et droite autour de la nécessité qu’elles ressentent toutes les deux de faire collaborer les sociétés technologiques avec les autorités.

Au cours de mes aventures dans la fabrique de la loi – loi renseignement, loi pour une république numérique, cet amendement et enfin ce cas amusant sur le sujet du principe pollueur – payeur où la secrétaire d’Etat s’est retrouvée à présenter un article qu’elle ne connaissait pas et qui vidait la loi de sa substance initiale, j’ai rencontré un motif récurrent qui commence à m’inquiéter pour l’état de notre démocratie.

Les projets de loi sont majoritairement rédigés dans les cabinets ministériels par des conseillers techniques qui ont une légitimité sur leur sujet de prédilection mais aucune légitimité démocratique, ne sont pas comptables devant les citoyens et sont la cible de tous les lobbys imaginables, associations, grandes entreprises, ONG, etc. Ils sont ensuite présentés par des ministres, qui eux en répondent directement au citoyen, ce qui leur donne une forme de légitimité, quoi qu’on pense de la démocratie représentative, mais qui ne comprennent pas toujours les enjeux techniques et s’appuient pour cela sur leurs équipes de conseillers. A l’Assemblée Nationale, ils passent ensuite dans les mains de députés ayant également reçu un mandat du peuple, mais qui ne peuvent être spécialistes de tous les sujets, et qui manifestement n’ont pas les ressources en conseil technique pour bien appréhender tous les enjeux ou alors ne les sollicitent pas toujours – l’exemple de cet amendement cryptographie ne fait que renforcer l’impression ressentie sur l’amendement système d’exploitation souverain. Mis au pied du mur, ils semblent s’en remettre à nouveau aux conseillers techniques du gouvernement, et on revient à la case départ. Même l’expérimentation intéressante de consultation citoyenne de loi pour une République numérique n’a pas eu l’air de faire dérailler le train-train législatif puisque seuls des articles mineurs ont été repris de celle-ci, et les articles des lobbys ont remplacé les propositions citoyennes tout en douceur et dans le feutré de la salle des 4 colonnes.

Sommes-nous alors condamnés à errer d’articles de lois mal écrits par des députés non spécialistes et sans aide technique en articles rédigés dans des cabinets fermés au public et sans aucune transparence démocratique ?

Le projet de loi pour une République Numérique adopté à l’Assemblée Nationale

Après avoir fait l’objet d’une consultation que j’ai commentée ici, le projet de loi pour une République numérique a été présenté à l’Assemblée Nationale en décembre avant d’être adopté le 26 janvier 2016 après des débats qualifiés d’enrichissants par la Secrétaire d’Etat. Bien que son parcours législatif ne soit pas encore terminé, la lecture de cette version votée par les députés donne un premier aperçu instructif de la prise en compte par nos représentants de la consultation citoyenne ainsi qu’une idée des droits et devoirs à venir pour les citoyens et les acteurs du numérique.

De la neutralité du net

L’article 11 de la consultation proposait une définition claire de la neutralité du net ; cependant, il était suspendu au règlement européen à venir, et dans sa mouture finale (article 19 de la nouvelle loi),  il ne fait plus que renvoyer au dit règlement qui laisse une porte ouverte à la discrimination de trafic.

L’article 3 commence plutôt bien avec une définition assez précise, mais ça commence vite à zigzaguer avec la possibilité de « mettre en oeuvre des mesures raisonnables de gestion du trafic » qui doivent être « transparentes, non discriminatoires et proportionnées » et non « fondées sur des considérations commerciales ». En clair, cela veut dire que Netflix ne peut pas payer pour que Orange l’avantage par rapport à Youtube ou CanalPlay, mais les réjouissances sont de courte durée car on part carrément en dérapage incontrôlé avec deux des exceptions prévues :

  • se conformer à législation européenne ou nationale – quiconque pensera ici à hadopi sera mal intentionné
  • préserver l’intégrité et la sûreté du réseau, des services fournis et des équipements terminaux – quand vous dites « service fourni », ça inclut les plateformes de VOD par exemple ?

Et on atteint le comble du sublime poussé au paroxysme de l’intemporel avec l’alinéa 5 qui tente un grand écart facial en autorisant les FAI à mettre en oeuvre des services optimisés mais seulement si il reste un peu de débit.

Je crois que les associations promouvant la neutralité du net n’ont pas fini de courir après les FAI sur l’interprétation de cet article abscons et incohérent – volontairement, j’en ai peur ; en tout état de cause, une nouvelle occasion de sacraliser la neutralité du net a été manquée.

Logiciels, données, contenus et algorithmes libres ?

Sans surprises, la consultation avait vu fleurir des obligations tous azymuths à utiliser des logiciels libres – des dix articles les plus votés par les internautes, quatre y étaient directement liés ; n’en reste qu’un article, le 9 ter, limitant l’action de l’Etat à la promotion de ceux-ci, et une petite avancée définissant à l’article 1 bis le code source comme un élément à communiquer au public par les administrations. De toute évidence, on atteint ici les limites de l’exercice de la consultation publique, les lobbies constitués (Afdel, Fevad, SFIB et Syntec Numérique) qui ont travaillé directement les députés à l’ancienne ayant gagné haut la main face aux zélateurs du logiciel libre.

L’Open Data a subi un bien meilleur sort : les administrations publiques sont obligées de mettre à disposition de qui le souhaite, particulier ou entreprise, pour des usages privés ou commerciaux, les données qu’elles collectent dans un « format ouvert et aisément réutilisable, c’est-à-dire lisible par une machine », locution qu’on retrouve huit fois dans la loi ; les sanctions sont cependant bien maigres, une simple inscription sur un registre public étant prévu. Pas sûr que ce name and shame fasse peur à l’Etat français, régulièrement condamné pour le non respect des règlements européens et de certaines conventions internationales.

Les contenus scientifiques créés à partir de fonds publics pourront – si leur auteur le souhaite – tomber dans le domaine public rapidement même si ils sont publiés comme il se doit dans des revues scientifiques payantes, ce qui ne peut être que positif pour la diffusion du savoir.

Enfin, les algorithmes appliqués par les administrations publiques aux particuliers devront être consultables ; l’intention est louable, nul n’étant censé ignorer la loi, cependant la liste des exemptions douchera tout espoir de voir contrebalancée la loi renseignement et ses algorithmes implantés chez les FAI.

Au final, le numérique et la liberté et l’ouverture qui sous-tendent son développement depuis toujours restent manifestement une préoccupation de seconde zone pour l’Etat.

La surprise du chef

Ce n’est pas l’article ajouté par les députés le plus commenté – la fameuse réflexion sur l’opportunité d’un système d’exploitation souverain – qui inversera cette impression : il ne s’agit pas de nier que le contrôle des outils informatiques soit un défi pour toutes les organisations, l’Etat comme les entreprises, c’est une évidence, mais ce choix de créer un enième commissariat quand il existe déjà le Conseil National du Numérique et l’ANSSI (Agence nationale de la sécurité des systèmes d’information) qui font un excellent travail et de se fixer sur la question du système d’exploitation me rend pour le moins perplexe. La lecture de la discussion en commission, qui montre que l’article a failli passer à la trappe car sa rédactrice l’avait rédigé sous une forme inconstitutionnelle, et des discussions à l’Assemblée autour de l’idée de souveraineté numérique qui empile les clichés me renforcent dans cette opinion. Heureusement, la secrétaire d’Etat, dont la connaissance du dossier est une vraie bonne surprise, finit par recentrer le débat en assignant comme but au futur commissariat une réflexion globale sur la souveraineté numérique de la France ; si il est bien constitué comme il est probable de personnalités issues des instances existantes citées ci-dessus, on peut raisonnablement espérer qu’il n’en sortira pas l’usine à gaz que l’on pourrait redouter en écoutant les députés impliqués dans la discussion.

Le vrai faux nouveau droit

Une mesure a été étrangement assez décriée par les entreprises de technologie : le droit à la portabilité des données. D’un point de vue technique, il est pourtant déjà mis en oeuvre dans toutes les grands plateformes : les webmails donnent tous accès aux messages en POP3, les services de stockage en ligne vous empêchent rarement de récupérer vos fichiers, vous pouvez télécharger une copie de vos données Facebook dans le menu paramètres, etc. Le gain pour les consommateurs est donc assez faible voire nul et il ne contraint pas vraiment les GAFA qui en étaient la cible désignée, eux qui sont les principaux accusés pour leur position dominante qu’ils entretiendraient par des pratiques commerciales déloyales. Il y a sans doute du vrai dans cette accusation, mais le manque d’outils d’export exploitable des données n’en fait pas partie !

Conclusion

Cette loi est une belle occasion manquée, et ce à plus d’un titre : tout d’abord, le principe de la neutralité du net n’y est pas sanctuarisé ; de plus, les apports de la consultation publique repris dans le texte sont minimaux pour ne pas dire quasiment inexistants – l’article le mieux repris est celui sur l’e-sport qui n’a absolument aucun intérêt pour l’industrie du numérique, au sens où il se développe très bien tout seul ; enfin, les nouveaux droits pour les consommateurs sont très limités quand ils ne sont pas inutiles, et sont en particulier subordonnés aux lois sécuritaires votées antérieurement qui instituaient une défiance de fait de l’Etat envers le cyberespace.

La seule vraie satisfaction du processus aura été de découvrir une secrétaire d’Etat compétente et maîtrisant parfaitement son dossier ; gageons qu’elle pourra s’exprimer plus largement dans un futur proche où le numérique, véritable espace de liberté et de démocratie, sera réellement mis au centre des préoccupations de l’Etat.

Projet de loi pour une République numérique

Comme quoi tout arrive, à mille lieux du gloubiboulga technologico-sécuritaire de la loi sur le renseignement, le gouvernement vient de soumettre au peuple – je dis bien, au peuple – un texte qui tient la route sur le numérique, le projet de loi pour une République numérique, sous la forme d’une démarche collaborative inédite, chacun pouvant donner son avis sur les articles du gouvernement, voire en proposer d’autres. Mon chouchou est immédiatement devenu l’article sur la neutralité du net, proposé par le gouvernement, pour lequel je vous enjoins fortement à voter. Pour l’instant, les contributions citoyennes sont plutôt de bonne qualité, malgré quelques inévitables trolls, des hors sujets et une obsession pour le logiciel libre un peu lassante. L’ensemble manque sans doute de quelques sanctions, par exemple sur la neutralité du net ou les pratiques déloyales éventuelles des comparateurs et sites d’avis, mais ça me semble être un bon premier pas.

Un objet parcourt le texte, la donnée personnelle, et je trouve dommage que sa définition et ses modalités de détermination fonctionnelle et technique soient laissées aux textes existants – c’est-à-dire à la loi informatique et libertés. En effet, certaines données sont aujourd’hui considérées comme permettant de déterminer une personne physique, comme l’adresse IP, voire en dernière extrémité un cookie de tracking publicitaire, et cela mériterait discussion : combien de personnes physiques réelles se cachent derrière une adresse IP, en particulier dans un monde IPv4 où le NAT règne de facto en maître ? De plus, plusieurs articles définissent des droits de transfert ou de destruction des données personnelles, or ce n’est pas parce qu’il est possible théoriquement de retrouver le propriétaire d’une donnée que cela est facile, économiquement viable pour le service, voire possible comme dans le cas de la mort numérique. Il me semble qu’une méthodologie technique commune d’identification avec autorisation d’utilisation préalable devrait être envisagée, quitte à remettre les détails techniques à des décrets d’application, les technologies pouvant rapidement évoluer en ces matières. Si je trouve une rédaction appropriée, je proposerais peut-être un article en ce sens…