L’analyse statistique du style d’écriture s’appelle stylométrie et peut conduire à l’identification du rédacteur derrière la production écrite. Il en va de même avec le code : une sorte de stylométrie du code. En effet, deux professeures d’informatique, Rachel Greenstadt de l’Université Drexel, et Aylin Caliskan, diplômée de Greenstadt et travaillant maintenant à l’Université George Washington, ont découvert que si on étudie statistiquement un code, on peut en arriver à l’identification du codeur. Voici une tentative d’explication du travail que font ces deux chercheuses.
First, the algorithm they designed identifies all the features found in a selection of code samples. That’s a lot of different characteristics. Think of every aspect that exists in natural language: There’s the words you choose, which way you put them together, sentence length, and so on. Greenstadt and Caliskan then narrowed the features to only include the ones that actually distinguish developers from each other, trimming the list from hundreds of thousands to around 50 or so.
The researchers don’t rely on low-level features, like how code was formatted. Instead, they create “abstract syntax trees,” which reflect code’s underlying structure, rather than its arbitrary components. Their technique is akin to prioritizing someone’s sentence structure, instead of whether they indent each line in a paragraph.
Dans un cas comme dans l’autre, rédacteurs et codeurs auraient une signature et laisserait derrière eux une empreinte permettant de les reconnaître à plus de 90%, selon les deux chercheuses. C’est embêtant lorsqu’on désire rester anonyme, comme dans le cas d’un plagiat, de la violation d’une entente de confidentialité, d’un vol de paternité d’une invention, de la mise en circulation d’un virus ou d’un logiciel malveillant, de la publication d’un texte malicieux, offensant…
À l’inverse, la possibilité d’identifier un rédacteur ou un codeur pourrait devenir une arme dangereuse pouvant porter atteinte à la vie privée…
Merci à mon collègue Marc Couture pour m’avoir pointé cet article.
Source –
Matsakis, Louise. Even Anonymous Coders Leave Fingerprints. Wired. 10 août 2018.