Stylométrie: détecter la fraude, dévoiler le crime

La Société Valaisanne de Physique vous invite à sa prochaine conférence publique :


le vendredi 3 novembre 2017 à 20h
à la Salle Zeuzier, EPFL, Rue de l'Industrie 17, 1951 Sion
par Claude-Alain Roten, OrphAnalytics SA

Stylométrie : détecter la fraude, dévoiler le crime

Entrée libre, tout public

Pour un résumé, cliquez ci-dessous sur "En savoir plus"

 

Depuis que les textes existent, des doutes apparaissent sur l’auteur attribué à certains: Homère, Shakespeare, etc. Pour répondre à ces questions, des techniques quantitatives d’attribution d’auteur apparaissent déjà au XIXème siècle. Actuellement, les linguistes reconnaissent que les analyses par comparaison de syntaxe sont meilleures que celles mesurant la sémantique. Créés par le physicien William R. Bennett Jr. puis utilisés en génomique, les algorithmes que nous avons adaptés pour capter la syntaxe ont d’abord été testés sur des textes en langues apparentées. Puis, nous les avons optimalisés pour comparer les styles de livres d’auteurs différents (e.g. Millenium) ou d’extraits de ces derniers. Différentes applications de ces algorithmes sont discutées dans le cadre de cette présentation: recherche littéraire, fraude académique, validation de travail coopératif et enfin enquête criminelle. Ces outils comblent un besoin croissant d’authentification dans l’univers des Humanités digitales. Une première application est illustrée dans la Figure ci-dessous qui présente l’analyse de cinq travaux universitaires représentés par des symboles de couleurs différentes. Une enquête journalistique a établi que si trois de ces travaux ont été écrits chacun par un étudiant différent, les deux derniers ont été rédigé par un seul ghostwriter. Après analyse, trois des cinq travaux sont bien séparés les uns des autres et forment trois nuages distincts de couleur homogène (triangles magenta, ronds rouges, triangles inversés oranges). Les deux derniers travaux représentés par les carrés bleus et les losanges noirs forment un seul nuage bleu et noir. Selon les investigateurs, si les trois nuages distincts de couleur homogène (magenta, rouge, orange) correspondent aux travaux de trois étudiants, le nuage formé par des points bleus et noirs est celui produit par deux textes rédigés par le même ghostwriter.


Claude-Alain Roten, de Sion, se forme en biologie à l’Université de Lausanne (Unil) où il présente sa thèse en 1992 sur les constituants de la paroi bactérienne, sa génétique et ses interactions avec le système immunitaire. En postdoc’, il perfectionne sa microbiologie à l’Université de Harvard de Boston. De retour à l’Unil en 1995, il se spécialise en génomique microbienne pour identifier différents éléments génétiques par algorithmes. Il crée un groupe de génomique comparative pour comprendre la génomique nécessaire à l’émergence de la vie sur Terre et, pour la recherche médicale, les mécanismes d’échanges génétiques d’infection bactérienne. En parallèle, il co-fonde la startup de bioinformatique Genometrician's Company et collabore avec l’Agence Spatiale Européenne pour l’expérience spatialisée d’astrobiologie STONE. Après la réorganisation de la microbiologie de l’Unil, il collabore dès 2007 comme génomiste indépendant, avec le CHUV notamment, et se forme au management d’entreprise. En 2014, il crée par le financement participatif de 40 co-fondateurs la start-up OrphAnalytics. Cette entreprise qu’il dirige s’inspire d’un savoir-faire génométrique pour créer des logiciels d’analyses de textes pour la détection de fraudes académiques, voire d’activités criminelles.