Arbre phylogénétique des députés européens
Par Oaz » 14 mai 2009, 23:30 - Sicap
A l'approche des élections européennes, tous les arguments de campagne semblent bons à prendre pour plusieurs partis en présence. Les uns avanceront que les députés européens du Modem votent comme ceux de l'UMP. Les autres répèteront inlassablement que rien ne différencie un député UMP d'un député PS. Bref, chacun y va de son petit couplet en avançant les chiffres qui conviennent à son discours.
Pour faire le tri dans ces affirmations, il y a désormais le site votewatch.eu qui donne toutes les statistiques possibles sur le vote des députés européen. A partir de ces données, j'ai essayé de représenter graphiquement le vote des députés français au parlement européen. Pour cela, j'ai utilisé la technique de construction de l'arbre phylogénétique des députés proposée par le véronisateur (pour savoir ce que le verbe "véroniser" veut dire, il faut chercher par là).
Rappel de la technique utilisée : on calcule une distance entre chaque parlementaire à partir de leurs votes respectifs.
- Pour chaque vote où un député vote "pour" et un autre député vote "contre", on rajoute 2 points à la distance entre ces 2 députés.
- Pour chaque vote où un député s'abstient et un autre député vote "pour" ou "contre", on rajoute 1 points à la distance entre ces 2 députés.
- Dans les autres cas de vote, on ne rajoute rien à la distance.
Les données disponibles indiquent également les absences et les cas où un député présent n'a pas participé au vote. Dans les 2 cas, j'ai considéré cela comme une abstention.
Un cas posait problème : celui des députés qui laissent leur place au suivant sur la liste en cours de législature. Dans de tels cas, la distance entre 2 députés n'est évaluée que sur la base des scrutins pour lesquels les 2 députés exerçaient leur mandat au moement du vote.
Trèves d'explication. Voici le résultat (sous réserve d'erreurs de ma part).
Il suffit de cliquer sur l'image pour la voir en gros plan.
Qu'est-ce que cet arbre nous apprend ?
Pas grand chose, en fait. Enfin, tout dépend d'où l'on se place.
Pour ceux qui voudraient nous faire croire que le parlement européen serait un endroit où on voterait différemment, c'est un peu raté. La répartition des députés selon leur vote semble, plus ou moins, respecter le découpage usuel de la politique française.

Commentaires
C'est bigrement intéressant !! Mais attention, cela n'a rien d'un arbre phylogénétique (tant du point de vue de la méthode de construction que des critères utilisés) et nécessite un certain nombre de précautions avant d'être lu et discuté (sur la forme et sur le fond), sous peine de crouler sous les mauvaises interprétations... Cela dit c'était une bonne idée à tester ;-)
Cela a dû représenter un sacré boulot, bravo ! Une question : on trouve les souverainistes et l'extrême-droite entre le Modem et le PS. Quels sont les types de délibérations où les votes s'opposent ?
Merci !
@Florent,
Comment ça "cela n'a rien d'un arbre phylogénétique" ? On m'aurait menti ? Je n'ai fait que reprendre les principes exposés par Philippe Gambette et je lui fais confiance quant à la dénomination.
Si on considère que chaque scrutin est représenté par 2 gènes, celui du vote pour et celui du vote contre (ce qui donne 3 combinaisons "ADN" possibles pour chaque scrutin : 10=pour 01=contre 00=abstention), on retrouve la distance utilisée ici en comptant le nombre de différences entre 2 députés.
Après, c'est le logiciel SplitsTree qui fait le boulot, notamment avec l'algorithme de classification "BioNJ". Je ne m'y connais pas plus que ça sur le sujet mais je suis intéressé par toutes les remarques sur la méthode.
Ceci étant dit, je suis d'accord sur les possibilités de mauvaise interprétation mais cela tient plus, à mon avis, à la connaissance de ce que représente cet arbre plutôt qu'à l'arbre lui même. Le point crucial est probablement de comprendre que les distances entre les députés se regardent le long des branches de l'arbre et non pas en considérant leur proximité sur le dessin (même si les 2 sont en partie liées).
@Laure,
En fait, on ne peut pas vraiment dire que les souverainistes soient "entre" le Modem et le PS. C'est la longueur des branches qui importe. Ainsi nombre de Modem et PS sont plus proches les uns des autres qu'ils ne le sont les uns et les autres des souverainiste. Ce que l'on peut dire, en revanche, c'est que parmi l'UMP, le Modem, le PS et les Verts, ce sont des députés PS et Modem qui ont des votes plus proches des souverainistes alors que les Verts en sont les plus éloignés.
Concernant les types de sujets qui rassemblent et opposent, les données disponibles indiquent à quel sujet chaque vote se rapporte et je compte bien établir des arbres similaires en ne considérant que les votes relatifs à un sujet donné. Cela apportera probablement un éclairage supplémentaire.
Bravo ! Quel moyen as-tu utilisé pour convertir la matrice des votes .csv en fichier Nexus ? J'ai un programme moche que j'hésite à distribuer pour faire ça, si c'est un script proprement programmé ça vaudrait le coup que tu le mettes à disposition ;).
A part ça, ce qui a gêné florent, c'est peut-être que contrairement aux arbres phylogénétiques, les noeuds internes de l'arbre ne correspondent à rien, ici. Je m'étais pourtant autorisé cette dénomination qui me semblait suffisamment évocatrice. En fait on devrait plutôt dire "analyse arborée", expression utilisée en analyse du discours.
Mais, franchement, le script n'est pas vraiment diffusable en l'état... :-(
Par ailleurs, le fichier csv n'est là qu'à titre d"information. Il a été lui aussi généré à partir de la base sqlite mais il ne m'a pas servi pour créer le fichier nexus.
@Oaz : bravo encore pour tout ce travail (je vois que les billets ont fleuri sur divers sujets !)
Je ne peux pas vous faire une explication ici, cela prendrait des pages (et il faudrait que j'aille vérifier qq bricoles chez le concepteur, dont je n'ai que survolé les explications). Alors juste quelques remarques en vrac...
Le terme "phylogénétique" est inapproprié, ne serait-ce que parce qu'il n'y a ici aucun lien de filiation entre les éléments considérés, il ne faut pas confondre classification et phylogénie (assimilable à généalogie si vous voulez - même si le gros du boulot en fac c'est justement de faire comprendre aux étudiants que ces trois notions sont bien distinctes). De plus les méthodes utilisées relèvent, si j'ai bien compris, de la phénétique, qui a sont utilité mais certainement pas pour établir des phylogénies (à la fois via les éléments utilisés - tous et en vrac - et via la méthode de construction elle-même). De manière générale les structures obtenues via la phénétique sont très discutables, même quand on ne cherche pas à faire de la phylogénie... mais bon je ne suis pas allé voir en détail le fonctionnement du bazar et je ne connaissais pas le logiciel utilisé (suis plus familier de PAUP et ce genre de joyeusetés). Sachez que même dans le cadre des études génétiques avec des séquences d'ADN, on n'utilise pas ce genre de méthodes pour construire les arbres phylogénétiques (vous pouvez vous renseigner sur l'inférence bayésienne si ça vous amuse), et que ces derniers restent malgré tout très discutables (car la systématique moléculaire est encore très loin de la maturité et ne dispose tjrs pas d'outils fiables) : il faut bien garder à l'esprit que les résultats que vous pouvez lire dans les revues ou sites de vulgarisation (ou même plus pointus), ne sont en rien définitifs et évolueront au gré des études ultérieures, ces arbres ne sont que l'état des connaissances à un instant t de la recherche. Je passe sur toute une série de détails techniques qui alourdiraient ce bavardage déjà fort indigeste. Je terminerai juste en rappelant que, si les arbres sont a priori très visuels, la lecture de ce type de graphes requiert un certain nombre de précautions/avertissements/entraînement - et a fortiori leur interprétation... donc je suis un peu inquiet quant à la diffusion "brute" de ce genre d'images (surtout qu'on ne peut s'arrêter à un simple examen graphique, il faut tjrs revenir au point de départ : le vote, sa motivation, le contenu du texte concerné, etc).
J'aime beaucoup l'expression "analyse arborée" :)
@Florent,
Merci pour les explications. Je comprends mieux les réserves que l'on peut émettre.
Puisqu'il semble y avoir un consensus autour du terme "analyse arborée", je vais changer le titre des schémas en ce sens.
Il n'y a qu'un seul point où, pour ma part, j'émettrai une réserve : la nécessité de revenir au point de départ, le vote isolé. Pour certains cas, je suis allé regarder dans le détail mais il est difficile, voire impossible, d'en tirer une conclusion. D'ailleurs, cela me semble cohérent avec le fait qu'il ne s'agit pas de phylogénie. Il n'y a pas forcément de relation logique qui permette d'établir un lien de parenté entre 2 députés à partir de leurs motivations individuelles alors que, au bout du compte, en "moyenne", ils se retrouvent à voter presque de la même manière.
C'est précisément pour cela que je dis qu'il faudrait revenir au vote et à ses motivations, car on ne peut tirer aucune conclusion des observations. Deux personnes peuvent très bien avoir un vote identique mais pour des raisons différentes (notamment pour les "contre") - et je ne parle même pas des motifs d'abstention...
Quant à la lecture, comme vous l'avez mentionné je crois, il faut prendre en compte plus les distances elles-mêmes que la proximité topologique, malgré la tentation très forte de notre esprit à considérer les "paquets" (où les branches sont d'ailleurs parfois très longues, donc la similitude pas si élevée qu'on pourrait le croire) ; je doute que les lecteurs en aient conscience (et en plus il existe d'autres biais).
@florent
Alors posons les choses autrement : si 2 députés votent toujours dans le même sens mais systématiquement pour des motivations différentes, est-ce que, au final, cela fait vraiment une si grande différence pour le citoyen qui se fait représenter ?
Par ailleurs, sur la notion de paquets, oui, la proximité n'est pas toujours aussi grande que ce que la géométrie euclidienne laisserait penser mais l'algorithme de représentation graphique des arbres respecte tout de même les groupes formés lors de la classification.
Donc, les paquets ont un sens même si la similitude interne à ces paquets n'est pas toujours très grande.
A contrario, lorsque la représentation graphique donne quelque chose de très étendu et ne fait pas apparaitre de paquets, on peut effectivement conclure que cette méthode n'apporte aucune information pertinente.