Bonnes résolutions numériques pour 2017 – Technique et R&D chez Yoocan par François Lemaire

En ce début d’année, les médias n’ont pas échappé au marronnier des bonnes résolutions, énumérant les grands classiques : faire du sport, arrêter la cigarette, s’imposer au boulot, voir plus souvent sa famille, etc. Pour rester dans la thématique de ce blog, je vais vous en proposer une version numérique, tournant toutes autour de la même idée : la reprise en main de votre identité numérique et de vos données.

Je considère que le débat public donne lieu à des exagérations sur le business model des services gratuits des GAFAM, en particulier sur la notion de travail gratuit que nous fournirions : quand on connait la difficulté et le coût d’extraire du sens de données saisies de façon non structurée par des non professionnels, il me semble abusif de parler de travail dissimulé. Par ailleurs, le business model des GAFAM est loin d’être monolithique : Apple gagne énormément d’argent avec son matériel et les royalties des applications extorquées aux développeurs, Microsoft avec ses licences, Amazon avec la qualité de sa logistique et de son service client, seuls Google et Facebook proposent principalement des services gratuits qui rapportent uniquement par les données utilisateur collectées pendant leur usage, directement ou indirectement.

Il n’en reste pas moins que je pense que les données que vous produisez, quelle qu’en soit la qualité, devrait vous appartenir au sens où vous devriez pouvoir en maîtriser l’utilisation et la diffusion dans le cadre d’un contrat clair et non léonin, ce qui n’est pas le cas aujourd’hui : une fois acquises, vos données peuvent être recoupées, agglomérées, moyennées, vendues et revendues sans que vous puissiez contrôler quoi que ce soit. On constate principalement deux attitudes face à cet état de fait aujourd’hui : une certaine forme de résignation – la qualité des services rendus dépasse largement le coût très difficile à évaluer du don des informations personnelles – ou le désir de voir l’Etat s’emparer de la question, ce qui résulte en des lois quasiment toujours en retard d’un ou deux métros et le plus souvent inapplicables – l’initiative récente d’Axelle Lemaire sur le testing d’algorithme étant une exception qu’il convient de relever. Or, une troisième voie est possible : utiliser d’autres services aux contrats moins opaques, ou vous constituer votre propre service. Cette voie demande un peu d’investissement personnel, peut entraîner parfois des frustrations, mais la reprise en mains de vos données numérique est à ce prix.

Moteur de recherche

Le moteur de recherche de Google est le meilleur actuellement disponible du point de vue de la profondeur de l’analyse et de la compréhension de votre question et ce même pour des recherches très pointues. Vous pouvez toutefois considérer que ces qualités sont contrebalancées par le fait qu’il vous suive à la trace afin de vendre les meilleures publicités à ses clients annonceurs, qu’il soit susceptible d’abuser de sa position dominante – voir par exemple la relation sadomasochiste très étrange que Google entretient avec les organes de presse, très contents d’être référencés dans Google News, mais qui préféreraient que les contenus soient vus au maximum chez eux avec les publicités que leur régie vend – et, critique un peu moins répandue mais qui ne me semble pas la moins pertinente, qu’il dirige la pensée par plusieurs de ses fonctionnalités :

l’autocomplétion, au delà du gain de temps théorique qu’elle apporte, a tendance à orienter votre recherche vers soit le plus à la mode, et donc une certaine forme de conformisme, soit vers des recherches ou une façon de rechercher que vous avez déjà employées par le passé, et donc de vous enfermer dans votre mode de pensée personnel
le tri des résultats est autant une résultante de la pertinence des mots clés dans les pages en question que d’une forme de concours de popularité des pages traitant du sujet recherché et faisant un lien vers elles. Grosso modo, un bon référencement sur Google, c’est 35 % de travail sur les mots clés, et 65 % sur du partenariat ciblé. C’est une utilisation très intelligente d’une des notions fondamentales du web, le lien hypertexte, et un progrès manifeste par rapport aux moteurs de recherche d’avant 2000 en termes de pertinence de la réponse ; il n’en reste pas moins que là aussi, une forme de conformisme peut s’installer, sans parler de la course au pagerank pour obtenir un bon classement non pas par la pertinence du contenu, mais en exploitant le fonctionnement de l’algorithme
le tri des résultats prend également en compte vos choix personnels ; plus vous choisirez certains résultats dans la liste, plus ceux-ci seront susceptibles de vous être présentés en premier

Vous allez me dire que je ne suis jamais content : quand on me propose ce qui est populaire, je me plains du conformisme, et quand on me propose ce qui me plaît, je me plains qu’on m’enferme dans mon mode de pensée. Mais c’est parce que là aussi, il y a une troisième voie, qui est au cœur de la notion de lien hypertexte : le lien qui surprend, qui vous emmène là où vous n’aviez pas prévu d’aller, le vagabondage numérique, la flânerie 2.0.

Toujours est-il qu’il existe une alternative crédible à Google, que je peux recommander pour l’utiliser moi-même depuis plus d’un an, et que, cocorico, elle est française : je veux parler de qwant. Qwant ne place pas de cookie traceur sur votre navigateur – ce que vous pouvez vérifier – et n’enregistre pas votre adresse IP lorsque vous recherchez chez lui – là, il vous faudra faire confiance aux concepteurs du site. Du coup, il devient extrêmement difficile à qwant de vous retrouver et de tracer vos actions, pas uniquement par bonne volonté, mais parce qu’il n’a pas les informations qui lui permettraient de le faire, ce qui a l’avantage collatéral que quiconque récupérerait les données stockées par qwant, que ce soit des pirates ou l’Etat, n’aurait pas non plus ces informations. Les résultats de recherche sont donc également indépendants de vos actions, ce qui évite le risque de biais de confirmation.

Qwant n’est bien sûr pas exempt de défauts :

la pertinence des résultats « Actualités » et « Social » est pour le moins suspecte
la recherche d’images ne donne pas de très bons résultats ; je n’arrive pas à déterminer si il s’agit d’un choix volontaire de ne pas indexer toutes les sources d’images, ou juste un work in progress. Il est possible de lancer depuis l’interface de qwant une recherche image google avec le mot clé &gi
certaines recherches très pointues sont soit mal comprises, soit mal indexées, par exemple des codes d’erreur, des bouts de code informatique avec des caractères spéciaux ; google reste le meilleur là-dessus

Mais ces défauts restent mineurs : pour les textes, les recherches que je relance sur google faute de résultats pertinents représentent moins de 5 % de mes recherches pour le travail, et quasiment rien pour les loisirs.

Cartographie

Google Maps est un outil magnifique, d’une qualité technique indéniable, et reste le leader quand on prend en compte tous les paramètres purement fonctionnels. Cependant, comme la plupart des services gratuits, son mode de financement passe par la publicité ; si il est acceptable pour les utilisateurs de voir apparaître des noms de société ou de commerces sur la carte, que ceux-ci soient choisis sur la base d’un contrat passé avec Google plutôt que sur une indexation objective est déjà plus discutable, et le pire serait atteint si les itinéraires calculés prenaient en compte le passage devant un magasin ayant payé pour de la publicité – ce que les testeurs d’algorithme de l’INRIA pourront peut-être détecter. Google peut aussi être accusé de complaire aux demandes de certains pays pour conserver le droit d’y faire leur business plutôt que de s’appuyer sur les frontières internationalement reconnues.

Si vous souhaitez vous appuyer sur des cartes construites par un consensus et une philosophie ressemblant à ceux de wikipedia, openstreetmap est fait pour vous. Pas de streetview, pas de vue satellite, mais des cartes précises, mises à jour en continu, sans publicités, et libres de droits d’utilisation pour les développeurs, là où google maps a une politique changeante et peu accommodante en particulier pour les applications non publiques.

Le système cartographique est complété par un système de calcul d’itinéraires, OSRM. Disponible depuis peu de temps, uniquement en anglais et en allemand, les itinéraires calculés me semblent plutôt bons et s’affichent très rapidement. Les options sont évidemment moins nombreuses que sur google maps – pas d’itinéraire à pieds, en vélo ou en transports en commun – mais le service est très jeune et va certainement s’étoffer.

DNS

Ce chapitre parlera sans doute plus aux informaticiens qu’aux autres, mais le DNS public de Google (8.8.8.8) est très souvent utilisé comme DNS secondaire voire primaire pour se simplifier la vie ; il est public, gratuit, performant, et bien évidemment, Google ne le fournit pas par bonté d’âme, mais pour augmenter le volume de ses statistiques de consultation de sites webs. En général, le service DNS est également fourni par votre FAI, mais outre le fait qu’il peut implémenter des blocages – administratifs ou non – la plupart journalisent les appels comme Google et peuvent utiliser cet historique, se le faire voler par des pirates ou emprunter par l’Etat.

Pour éviter tout cela, vous pouvez utiliser les services de FreeDNS : gratuit, performant, sans journalisation et sans blocage.

Stockage dans le cloud

De nombreux services existent pour stocker vos données sur des serveurs extérieurs : OneDrive de Microsoft, Google Drive, Dropbox, etc. Ils apportent tous l’avantage d’être accessibles partout où vous avez une connexion internet, avec un débit si ce n’est optimal, au moins d’assez constamment bonne qualité. En général, une version gratuite est proposée avec une capacité de stockage limitée à quelques Go, et une version payante montant au To pour quelques euros par mois.

Le principe même de ces services est que vous ne sachiez pas, et que vous n’ayez pas à vous préoccuper de savoir où sont stockées physiquement vos données. Malheureusement pour vous, les lois nationales, elles, s’en préoccupent ; depuis les révélations d’Edward Snowden, chacun sait que les USA font ce qu’ils veulent des données stockées ou transitant par leur territoire, ce qui peut rendre chafouin tout particulier un tant soit peu paranoïaque, et peut se montrer critique pour des données d’entreprise susceptibles d’espionnage industriel. La France n’aura pas gardé longtemps un avantage concurrentiel sur ces questions, les dernières lois votées sous couvert de lutte contre le terrorisme ayant étendu les possibilités d’interception et de réquisitions de données à des domaines assez larges.

Les conditions générales d’utilisation sont aussi assez instructives sur ce que se permettent les prestataires eux-mêmes et ce qu’ils vous garantissent : ils peuvent lire le contenu de vos fichiers dans le cadre des services, en particulier les exif des photos qui contiennent des données de géolocalisation, ils stockent toutes les informations disponibles sur la façon dont vous utilisez le service – appareil utilisé, version, géolocalisation des accès. Comme on le voit de façon récurrente dans cet article, ces données peuvent être exploitées par le prestataire mais également par les Etats sur le territoire desquels les données sont stockées physiquement. En contrepartie, vous vous attendez sans doute à un accès universel – check – une sécurité de haut niveau – là, certains services dont dropbox ont déjà connu des ratés, sans parler de la disparition soudaine de megaupload – et des sauvegardes garanties. Ce dernier point est celui qui m’a le plus surpris en lisant les conditions générales des services : même dans le cas payant, aucun service ne vous garantit quoi que ce soit sur la non perte de vos données. J’ai personnellement connu des pertes d’emails chez Yahoo et chez GMail qui n’ont pas été corrigées.

En effet, on pourrait imaginer qu’une perte massive de données utilisateur faisant peser un risque de mauvaise publicité tellement énorme sur ce type de service qu’ils mettent en oeuvre des sauvegardes béton, surtout que ce sont des sujets assez bien maîtrisés en informatique. La réalité est que pour s’assurer de ses sauvegardes, on ne peut se passer de vérification humaine, coûteuse et peu factorisable, incompatible avec les tarifs pratiqués ; du coup ces services aussi bien conçus et automatisés qu’ils soient, doivent de temps en temps oublier un serveur ou perdre des sauvegardes physiques que ce soit par destruction, disparition ou détérioration du support. Le volume reste inférieur au seuil qui entraînerait une contre publicité, mais si ce sont vos données qui sont perdues, ça vous fait une belle jambe.

Des outils sont aujourd’hui disponibles pour vous permettre de mettre en place votre propre service de stockage décentralisé, mais pour être honnête, ça demande un peu de travail. Le principe est le suivant :

vous achetez deux NAS de même capacité (je n’ai aucune action ou intérêt chez eux, mais les NAS synology sont très bien par exemple)
vous en placez un chez vous, et un ailleurs (au bureau, chez un ami, un parent, quoi qu’il en soit un endroit physiquement séparé ; vous pouvez faire une sauvegarde uniquement pour vous, ou faire une sauvegarde croisée de vos données et de celles de la personne chez qui vous installez la copie)
vous utilisez les outils intégrés au NAS pour synchroniser les deux
vous vérifiez régulièrement et manuellement que la synchronisation se passe bien
vous ouvrez les interfaces d’accès distant qui vous intéressent (interface web, WebDAV, etc.)

Les deux derniers points demandent de la configuration sur votre routeur internet afin d’ouvrir sur internet vos NAS, et là effectivement il faut savoir un peu ce que l’on fait. Des solutions toutes intégrées existent comme Lima, mais elles sont évidemment moins souples – je vais reparler des autres fonctionnalités des NAS modernes un peu plus loin. Le désavantage de cette solution est évidemment que ses performances dépendent de celle de votre connexion internet : avec un ADSL à 10km du NRA, il ne faudra pas espérer un débit de l’ordre du Mo…

Qui de la sécurité, me direz-vous ? Je vais distinguer deux catégories de considération en termes de sécurité :

la sécurité physique : se protéger contre une défaillance matérielle, un cambriolage, un incendie, etc.
la sécurité informatique : se protéger contre un piratage – et là, même si vous pensez qu’un pirate n’aurait rien à faire de vos photos de vacances et que vous n’avez aucun document confidentiel, vous pouvez toujours être la cible d’un ransomware qui se multiplient ces derniers temps

La configuration que j’ai décrite règle le problème de la sécurité physique : il faudrait vraiment ne pas avoir de bol pour avoir un incendie, un vol ou une casse de disque dur aux deux endroits à la fois.

Pour ce qui est de la sécurité informatique, le mieux que vous puissiez faire est de n’ouvrir que les services que vous utilisez, d’utiliser des mots de passe solides – que vous n’utilisez pas ailleurs et en particulier pas sur des sites publics, au moins dix caractères et combinant lettre, chiffre et signe de ponctuation – et de mettre à jour régulièrement votre NAS et vos ordinateurs. Une fois que vous avez fait tout cela, il est toujours possible de subir une faille non corrigée, et là, une seule solution : vous devez sauvegarder régulièrement vos données sur un support physique que vous déconnectez du réseau et que vous rangez dans un tiroir jusqu’à la prochaine sauvegarde. Pour un particulier, c’est une mesure un peu paranoïaque, coûteuse en temps et en matériel, mais si vous voulez une sécurité quasiment totale, c’est obligatoire. Pour une entreprise, c’est un prérequis vital.

Email

Les services d’email gratuits se financent via la publicité, et pour se faire, ils lisent vos correspondances ; ils ne s’en cachent pas, c’est écrit noir sur blanc dans les conditions d’utilisation (voir le paragraphe vos contenus et nos services), et comme pour tous les services décentralisés, vos données sont sujettes aux lois de leur emplacement physique de stockage. Vous avez deux options pour atténuer ces risques :

il existe des services gratuits publics sans publicité et sans lecture des correspondances, par exemple Newmanity ou Mailoo ; ils ont l’avantage d’être très faciles à mettre en oeuvre, mais ne vous offrent pas de garantie sur la localisation des données (Newmanity héberge aux Pays-Bas, Mailoo semble-t-il en France – dedibox qui sont dans les datacenters d’Iliad et lost oasis – mais ce n’est pas très clair pour ce dernier), un espace de stockage limité – encore que 1Go pour des emails, c’est déjà pas mal – et moins de souplesse sur le nom de domaine par exemple
si vous êtes très motivés, vous pouvez monter votre propre serveur d’email, par exemple avec un de vos NAS ; ça coûte un peu de sous – pas beaucoup, une dizaine d’euros par an pour votre nom de domaine – et surtout pas mal de temps et d’apprentissage, puisqu’il faut configurer le DNS de votre nom de domaine vers votre NAS, configurer votre routeur internet pour ouvrir les services, configurer votre NAS, mettre à jour régulièrement – en sachant que les spams représentent environ 93 % des emails reçus sur nos serveurs professionnels – et, cerise sur le gâteau, se mettre en capacité d’expédier les emails, ce qui dans le monde actuel du spam généralisé demande pas mal de travail (enregistrements DNS SPF, configuration de reverse DNS, voire signature DKIM / DomainKeys)

L’option auto-hébergement me semble très complexe pour un particulier par rapport au gain, mais les plus motivés pourront y passer une fois qu’ils auront assimilé le passage au cloud de stockage privé.

Réseau social

Vous connaissez la mélodie maintenant : gratuit payé par l’exploitation de vos données principalement pour les publicités mais pas que, emplacement du stockage physique non contrôlé. On pourrait s’attendre à ce que l’infrastructure nécessaire à la mise en place d’un réseau social soit hors de portée d’un modèle réellement gratuit ou à très bas coût. Tout d’abord, pour un partage à son réseau personnel, le volume de données est tout à fait raisonnable, et cela fait très longtemps que des particuliers lancent des forums avec plusieurs centaines voire milliers d’utilisateurs à très bas coût.

Mais encore mieux, un outil a su utiliser à bon escient la nature décentralisée d’internet pour construire un réseau social à échelle mondial de façon distribuée : diaspora. Le principe est simple comme internet : localement, de petits serveurs appelés pod regroupent des mini réseaux, et l’infrastructure logicielle les agrègent pour créer un réseau mondial, ce qui permet de fournir gratuitement et sans publicités un réseau social global.

Conclusion

J’entends beaucoup de lamentations sur la « googlisation » d’internet, une recentralisation du réseau autour de gros services – Google, Youtube, Netflix, Facebook, etc. – la plupart étant financé par une concentration des données personnelles dangereuse pour de nombreuses raisons – sécurité, confidentialité, surveillance privée ou étatique – mais j’entends peu parler de solutions alors qu’elles existent, comme cet article le prouve – et je citerais également l’initiative de Framasoft agrégeant de nombreux services ouverts et décentralisés. Alors, en 2017, on reprend en mains internet ?

2 réflexions au sujet de « Bonnes résolutions numériques pour 2017 »

Ping : L’ère du monopole cognitif – Technique et R&D chez Yoocan par François Lemaire
Ping : Un téléphone intelligent sans service Google ou Apple – Technique et R&D chez Yoocan par François Lemaire