Comment la Bibliothèque du Congrès va archiver Twitter

Library of Congress Reading Room 1, maveric2003 via Flickr,CC-Licence-by

En avril 2010, la Bibliothèque du Congrès, bibliothèque nationale des États-Unis et plus grande bibliothèque au monde, avait annoncé via son compte Twitter qu'elle allait acquérir les archives de Twitter, depuis sa création en 2006.

Lors de l'annonce de la donation en 2010, les utilisateurs du service émettaient 50 millions de tweets par jour. En juin 2011, ce nombre est passé à plus de 140 millions, relate Audrey Watters sur le site O'Reilly, qui s'interroge sur les moyens employés par la Bibliothèque pour archiver les tweets.

Elle rappelle que beaucoup de données numériques sont déjà archivées par la Bibliothèque: les sites web des campagnes présidentielles américaines depuis 2000, ainsi que des magazines, films et matériaux du Folklife Center. Au total, plusieurs pétabytes (milliards de mégabytes) sont déjà archivés.

Audrey Watter a interrogé Martha Anderson, à la tête du Programme d'infrastructure et de préservation de l'information numérique nationale (National digital information infrastructure and preservation program) et Leslie Johnston, qui gère l'architecture technique du projet.

Leur travail est colossal: elles doivent imaginer ce que les chercheurs ou le public va vouloir tirer des informations contenues dans les tweets. Car contrairement à ce que l'on pourrait penser, «il y a des gens que ça intéresse» de savoir ce que vous avez mangé au petit-déjeuner, racontait Christopher Beam sur Slate en mai 2010.

Martha Anderson et Leslie Johnston sont toutes deux en train d'étudier et de mettre en place les outils qui vont permettre à la fois d'archiver mais surtout de consulter les tweets, qui contiennent bien plus d'information que les 140 caractères de texte autorisés. Beaucoup de tweets contiennent en plus une URL réduite, l'adresse d'un site web résumée à l'aide des sites bit.ly ou tinyurl. Les deux employées comptent sur l'aide de l'Internet Archive et de son projet 301works pour conserver une signification derrière ces adresses, et pourquoi pas en produire une cartographie.

Selon elles, une équipe se réunira durant l'été 2011 afin d'établir un plan de travail, et un premier accès sera mis à disposition des chercheurs dans les quatre à cinq mois qui suivront.

A LIRE AUSSI