Page d'accueil // C2DH // News & E... // Développer de nouvelles méthodes d’analyse de journaux historiques

Développer de nouvelles méthodes d’analyse de journaux historiques

twitter linkedin facebook google+ email this page
Publié le mardi, 04 juillet 2017

Le projet de recherche « Impresso: Media Monitoring of the Past. Mining 200 years of historical newspapers » vise à développer de nouvelles méthodes d'évaluation des journaux en se basant sur un corpus numérisé de journaux luxembourgeois, suisses, français et allemands couvrant près de 200 ans.

Pendant les trois prochaines années, le Luxembourg Centre for Contemporary and Digital History (C²DH) de l’Université du Luxembourg, le DHLAB de l’École polytechnique fédérale de Lausanne (EPFL) et l’Institut de linguistique informatique de l’Université de Zurich vont collaborer au projet Media Monitoring of the Past financé par le Fonds national suisse de la recherche scientifique (FNS) à hauteur de 1,7 million de francs suisses (1,55 million d’euros).

Développer les technologies digitales pour la recherche

Les journaux historiques comptent parmi les sources historiques les plus riches et ils existent pour la plupart déjà sous forme numérique. Néanmoins, un certain nombre de problèmes se posent dans le travail scientifique avec ces sources. Parmi ceux-ci, citons des résultats de recherche incomplets causés par une reconnaissance de texte défaillante et des métadonnées manquantes, l’isolement relatif des journaux numérisés dans les archives respectives, des fonctions de recherche difficilement compréhensibles et des interfaces utilisateurs inadaptées.

Par ailleurs, les progrès dans l’analyse de texte offrent de nouvelles possibilités dans la recherche sur de vastes collections de textes. Le projet permettra de développer de nouvelles méthodes de « deep learning » (apprentissage machine) pour la correction d’erreurs dans la reconnaissance de texte, de travailler à une meilleure identification des noms de personnes, des institutions et des lieux ainsi qu’à l’enrichissement de ces noms propres à l’aide de référentiels de données externes. Le C²DH sera responsable du développement d’une interface utilisateur permettant d’intégrer de nouvelles fonctions de recherche et de faciliter l’examen critique du corpus de journaux. Il s’agit par exemple d'informations sur l’origine des données, sur la qualité des annotations générées automatiquement, mais aussi d’indications sur des lacunes à l'intérieur de l'inventaire.

Un projet exhaustif et collaboratif

Afin d’assurer la pertinence du projet pour les sciences historiques, humaines et sociales en général, le C²DH coordonnera un certain nombre d’ateliers, qui permettront un échange direct entre les utilisateurs et les développeurs. « Un autre projet de recherche du C²DH traitera des mouvements de résistance contre l'idée d’une unification européenne à la fin du XIXe et au début du XXe siècle. Il créera ainsi une interaction supplémentaire entre les sciences historiques, l’informatique et le design », explique le Dr Marten Düring, coordinateur du projet à l’Université du Luxembourg. « Finalement, le projet sera également intégré dans l’enseignement universitaire et permettra ainsi à de futurs historiens de s’intéresser aux procédés automatisés d’extraction et de représentation des informations provenant de sources historiques. »

À la fin du projet, celui-ci aura donné lieu à des publications scientifiques ainsi qu’à différents systèmes pour le traitement, l’analyse et la sauvegarde de données qui seront disponibles sous forme de code « open source » pour une utilisation ultérieure et un développement futur.

Parmi les partenaires associés, on trouve notamment la Bibliothèque nationale de Luxembourg (BnL), la Bibliothèque nationale suisse (BN), et les quotidiens suisses Le Temps et la Neue Zürcher Zeitung, des archives suisses ainsi que des chercheurs de l’Université de Lausanne. Côté luxembourgeois, le projet est coordonné par le Dr Marten Düring, le Dr Lars Wieneke et le Dr Andreas Fickers en collaboration avec Daniele Guido and Estelle Bunout.