Samedi 15 octobre ont eu lieu les ateliers Paris Web, et pour la première fois l’archivage du web y était évoqué avec la présentation du projet Open Web Archive (Owark) par Éric Van der Vlist. Compte-rendu.
Tout d’abord, quelques statistiques qui permettent de prendre mesure de l’ampleur du phénomène de link rot. Ce n’est bien évidemment pas nouveau : déjà en 1997, 6% des liens étaient cassés sur le web, et ce chiffre a doublé en 1998 (source : Jakob Nielsen). On estime actuellement que l’on perd un quart des liens tous les 7 ans (source : LLRX).
Le fameux adage de Tim Berners-Lee « Cool URIs don’t change » n’est malheureusement pas toujours respecté : que ce soit dû à une refonte, un changement de propriétaire ou une perte de données, il est fréquent que des pages web disparaissent en oubliant de rediriger vers leur nouvelle adresse.
Intéressons-nous plus spécifiquement aux blogs et aux sites éditoriaux. Un article fait souvent appel à de nombreuses références externes, qui font l’objet d’un lien. Quand le site lié déplace ou supprime une page sans mettre en place une redirection 301 Moved Permanently, le lien se casse.
Certains considèrent qu’il s’agit d’un faux problème : l’auteur n’a qu’à user de son droit de citation pour reproduire des extraits de ses sources au sein de son article. Or, c’est bien le principe d’hypertexte qui donne toute sa spécificité et toute sa puissance au web : il est possible de lire un article et de choisir d’approfondir ou non certains sujets en suivant les liens. Comme le dit Scott Rosenberg, « les liens sont devenus un aspect essentiel de la manière dont j’écris et dont je lis ». Sans leurs liens, les pages web meurent.
Quelles solutions pour un auteur de blog ?
- Les vérificateurs de liens. De nombreux scripts existent, qui permettent de vérifier automatiquement et à intervalle régulier que les liens externes répondent toujours. Charge ensuite à l’auteur de s’occuper des liens morts, soit en trouvant une autre source équivalente, soit en supprimant simplement le lien. Aucune de ces solutions n’est satisfaisante car le lien original ne peut pas toujours être remplacé à l’identique.
- Les archives du web. La Wayback Machine d’Archive.org est un projet titanesque d’archivage d’une partie du web correspondant aux sites les plus visités (selon leur classement Alexa). Il existe d’autres projets similaires, mais ils demandent tous des ressources importantes. Il est parfois possible de trouver une version archivée de la page que l’on souhaite lier afin de s’assurer de sa pérennité.
- Les archives locales (caches). Assez faciles à mettre en place et peu coûteuses tant qu’il s’agit d’archiver un nombre raisonnable de pages : la plupart du temps, l’hébergement du blog existant suffit. C’est sur ce principe que le projet Owark est basé.
Ce qu’apporte Owark
Owark a pour but de rendre simple, à l’échelle d’un site, la vérification des liens externes, leur archivage local et la mise à jour du site lorsque les liens externes meurent.
Une première implémentation a été réalisée sous la forme d’une extension WordPress. Il s’agit d’une proof of concept encore très embryonnaire mais fonctionnelle :
- le vérificateur de liens est basé sur une extension existante, Broken Link Checker
- au moment de la publication de chaque article, les pages liées sont archivées à l’aide de l’utilitaire wget
- une commande exécutée par le cron WordPress se charge de la mise à jour : elle vérifie régulièrement les liens externes et lorsqu’ils ne répondent plus, les remplace par un lien vers la version archivée localement
Éric van der Vlist nous explique qu’il fut assez facile d’implémenter tout cela en seulement 500 lignes de PHP, grâce à l’utilisation d’outils déjà existants.
Les prochaines étapes sont :
- l’amélioration de l’archivage pour certaines pages complexes (JavaScript, Flash)
- un meilleur support de robots.txt
- l’ajout d’options de configuration
- la réimplémentation de l’archivage en PHP, afin d’être utilisable sur des serveurs ne disposant pas de wget
Pourquoi nous soutenons Owark
Owark est un projet très jeune, mais déjà prometteur. Chez WebArchivists, nous choisissons de le soutenir car il correspond bien à l’un de nos buts principaux : permettre à chacun de prendre part à l’archivage du web.
Avec Owark, chaque auteur peut, à son échelle, prendre en charge l’archivage des pages dont il reconnaît implicitement la valeur, en faisant des liens vers elles.
Owark pose les fondations d’un archivage du web distribué, où chaque auteur est conservateur du patrimoine.
On peut même dresser un parallèle avec le PageRank de Google : là où Google affiche en premier dans ses résultats de recherche les pages plébiscitées par des liens sur de nombreux autres sites, Owark permet d’archiver des pages pertinentes, car sélectionnées et citées par d’autres auteurs.
Cet archivage ne se fait pour le moment qu’une fois, au moment de la publication de l’article. Mais certaines pages qui « buzzent » seront archivées très fréquemment, sur de nombreux serveurs, par une multitude d’auteurs. On parvient ainsi à une réplication des archives dans le temps, suivant le degré de popularité des pages. Et comme on le sait, Lots Of Copies Keep Stuff Safe.
Nous venons de mettre en place l’extension Owark sur WebArchivists.org, et nous vous appelons à faire de même, à faire remonter les bugs éventuels sur le Trac du projet et si vous aussi vous croyez en ce projet, à contribuer en écrivant de nouvelles fonctions, ou en commençant une implémentation pour le CMS ou le langage de votre choix.
Et dites-nous ce que vous en pensez dans les commentaires !
Retrouvez bientôt le support de la présentation d’Éric van der Vlist.
Visitez owark.org
Nous tenons à remercier l’équipe de Paris Web, qui une fois de plus a fait un travail formidable pour l’organisation de ces ateliers de très grande qualité.
Cette page est aussi disponible en : Anglais