Synapse Développement partage ses résultats de recherche !

couverture-synapse-recherche-developpement
Chez Synapse, nous sommes persuadés que l’innovation se développe par l’échange et la collaboration.

C’est pourquoi notre pôle R&D travaille régulièrement avec des partenaires extérieurs (laboratoires de recherche locaux et internationaux, startups, organismes de recherche) sur des projets portant sur le traitement automatique du langage.

Dans ce cadre et pour promouvoir des valeurs de partage et d’innovation, nous avons décidé de publier largement les résultats des travaux menés par nos chercheurs, docteurs et doctorants, en les diffusant en libre accès sur notre compte Github.

Première publication pour initier ce virage : un dataset annoté baptisé « Wiklassify », premier résultat du projet Rapid DIT (Détection d’incohérences textuelles), financé par la DGA. Ce projet consiste à étudier les possibilités de détecter l’invraisemblance de différents textes au regard d’une référence ou vérité-terrain (ground truth) qui concentre l’ensemble des connaissances sur le monde. Il s’agirait par exemple de construire un modèle capable de trouver que la phrase « La France est située en Afrique équatoriale » est invraisemblable vis-à-vis d’un corpus de textes traitant de géographie.

La référence utilisée comme vérité-terrain ici est la version la plus récente de Wikipédia en français. Les données sont extraites des Wikipédia dumps qui concentrent de façon exhaustive l’ensemble des versions qui ont existé pour chaque article de l’encyclopédie au fil du temps. L’intérêt de cet historique est d’isoler les modifications sémantiques apportées d’une version à l’autre d’un article, ce qui permet de constituer une base de données sur laquelle un modèle de Machine Learning devra être capable de distinguer les textes cohérents et incohérents.

 

L’ensemble du code, des données annotées et des outils utilisés pour le projet sont décrits et disponibles dans le dépôt Wiklassify sur Github.

Et si vous êtes intéressés pour venir renforcer le pôle R&D de Synapse, n’hésitez pas à nous envoyer votre candidature !