Génomique comparative

Une simple comparaison des caractéristiques générales des génomes telles que la taille du génome, le nombre de gènes et le nombre de chromosomes constitue un point d’entrée dans l’analyse génomique comparative. Les données pour plusieurs organismes modèles entièrement séquencés sont présentées dans le tableau 1. Les comparaisons mettent en évidence des résultats frappants. Par exemple, alors que la minuscule plante à fleurs Arabidopsis thaliana a un génome plus petit que celui de la mouche des fruits Drosophila melanogaster (157 millions de paires de bases v. 165 millions de paires de bases, respectivement) il possède près de deux fois plus de gènes (25 000 v. 13 000). En fait, A. thaliana possède à peu près le même nombre de gènes que les humains (~25 000). Ainsi, une leçon très tôt apprise dans “l’ère génomique” est que la taille du génome n’est pas corrélée avec le statut évolutif, et que le nombre de gènes n’est pas proportionnel à la taille du génome.

Tailles comparatives du génome de l'homme et d'autres organismes modèles

Tableau 1: Tailles comparatives du génome humain et d’autres organismes modèles

Segments conservés dans le génome humain et de souris

Figure 1: Segments conservés dans le génome humain et de souris

Figure 1: Segments conservés dans le génome humain et génome de souris
Chromosomes humains, avec des segments contenant au moins deux gènes dont l’ordre est conservé dans le génome de la souris sous forme de blocs de couleur. Chaque couleur correspond à un chromosome de souris particulier. Les centromères, l’hétérochromatine sous-centromérique des chromosomes 1, 9 et 16 et les bras courts répétitifs des chromosomes 13, 14, 15, 21 et 22 sont noirs. (Consortium International de séquençage du Génome Humain; Lander, E. S. et al. 2001)

Des comparaisons de résolution plus fine sont possibles par des comparaisons directes de séquences d’ADN entre espèces. La figure 1 illustre une comparaison au niveau chromosomique des génomes humain et de souris qui montre le niveau de synténie entre ces deux mammifères. La synténie est une situation dans laquelle les gènes sont disposés en blocs similaires chez différentes espèces. La nature et l’étendue de la conservation de la synténie diffèrent considérablement d’un chromosome à l’autre. Par exemple, les chromosomes X sont représentés comme des blocs synténiques simples et réciproques. Le chromosome 20 humain correspond entièrement à une portion du chromosome 2 de la souris, avec une conservation d’ordre presque parfaite sur presque toute la longueur, perturbée uniquement par un petit segment central. Le chromosome 17 humain correspond entièrement à une partie du chromosome 11 de la souris. D’autres chromosomes, cependant, montrent des signes de réarrangement interchromosomique plus étendu. De tels résultats donnent un aperçu extraordinaire des changements chromosomiques qui ont façonné les génomes de la souris et de l’homme depuis leur divergence d’un ancêtre commun il y a 75 à 80 millions d’années.

La comparaison de segments discrets de génomes est également possible en alignant l’ADN homologue de différentes espèces. Un exemple d’un tel alignement est illustré à la figure 2, où un gène humain (pyruvate kinase: PKLR) et les homologues PKLR correspondants du macaque, du chien, de la souris, du poulet et du poisson zèbre sont alignés. Les régions présentant une forte similitude de séquence d’ADN avec l’humain dans une région de 12 kilobases du gène PKLR sont tracées pour chaque organisme. Notez le degré élevé de similitude de séquence entre l’homme et le macaque (deux primates) dans les exons PKLR (bleus) ainsi que dans les introns (rouges) et les régions non traduites (bleu clair) du gène. En revanche, les alignements de poulet et de poisson zèbre avec l’humain ne présentent que des similitudes avec les séquences des exons codants; le reste de la séquence a divergé à un point où elle ne peut plus être alignée de manière fiable avec la séquence d’ADN humain. En utilisant une telle analyse informatique pour analyser les caractéristiques génomiques qui ont été préservées dans plusieurs organismes au cours de millions d’années, les chercheurs sont en mesure de localiser les signaux qui représentent l’emplacement des gènes, ainsi que les séquences qui peuvent réguler l’expression des gènes. En effet, une grande partie des parties fonctionnelles du génome humain ont été découvertes ou vérifiées par ce type de comparaison de séquences (Lander et al. 2001) et c’est maintenant une composante standard de l’analyse de chaque nouvelle séquence génomique.

Région du gène PKLR humain comparée aux génomes du macaque, du chien, de la souris, du poulet et du poisson zèbre

Figure 2: Région du gène PKLR humain comparée aux génomes du macaque, du chien, de la souris, du poulet et du poisson zèbre

Figure 2: Région du gène PKLR humain comparée aux génomes du macaque, du chien, de la souris, du poulet et les nombres de génomes de poisson-zèbre
sur l’axe vertical représentent la proportion de nucléotides identiques dans une fenêtre de 100 pb pour un point de la parcelle. Les nombres sur l’axe horizontal indiquent la position des nucléotides depuis le début de la séquence génomique humaine de 12 kilobases. Les pics ombrés en bleu correspondent aux régions de codage PKLR. Les pics ombrés en bleu clair correspondent à des régions non traduites de l’ARNm PKLR. Les pics ombrés en rouge correspondent à des régions non codantes conservées (CNSS), définies comme des zones où l’identité moyenne est > 75%. L’alignement a été généré à l’aide de l’outil de comparaison de séquences VISTA (http://pipeline.lbl.gov).

Les comparaisons de génomes à différentes distances phylogénétiques permettent de répondre à des questions spécifiques.

Figure 3: Les comparaisons de génomes à différentes distances phylogénétiques permettent de répondre à des questions spécifiques.

Nous avons appris de l’alignement des séquences homologues que les informations pouvant être obtenues en comparant deux génomes ensemble dépendent en grande partie de la distance phylogénétique qui les sépare. La distance phylogénétique est une mesure du degré de séparation entre deux organismes ou leurs génomes à une échelle évolutive, généralement exprimée en nombre de changements de séquence accumulés, en nombre d’années ou en nombre de générations. Les distances sont souvent placées sur des arbres phylogénétiques, qui montrent les relations déduites entre les organismes (Figure 3). Plus les deux organismes sont éloignés, moins la similitude de séquence ou les caractéristiques génomiques partagées seront détectées entre eux. Ainsi, seules des informations générales sur les classes de gènes partagés peuvent être recueillies par des comparaisons génomiques à de très longues distances phylogénétiques (par exemple, plus d’un milliard d’années depuis leur séparation). Sur de très grandes distances, l’ordre des gènes et les signatures des séquences qui régulent leur transcription sont rarement conservés.
À des distances phylogénétiques plus rapprochées (50 à 200 millions d’années de divergence), de l’ADN fonctionnel et non fonctionnel se trouve à l’intérieur des segments conservés. Dans ces cas, les séquences fonctionnelles présenteront des signatures de sélection du fait que leurs séquences ont changé moins, ou plus lentement, que l’ADN non fonctionnel. De plus, au-delà de la capacité de distinguer l’ADN fonctionnel de l’ADN non fonctionnel, la génomique comparative contribue également à l’identification de classes générales d’éléments importants de l’ADN, tels que les exons codants de gènes, les ARN non codants et certains sites régulateurs de gènes.
En revanche, des génomes très similaires séparés par environ 5 millions d’années d’évolution (comme l’homme et le chimpanzé) sont particulièrement utiles pour trouver les différences de séquence pouvant expliquer des différences subtiles de forme biologique. Il s’agit de changements de séquence dans le cadre de la sélection directionnelle, un processus par lequel la sélection naturelle favorise un seul phénotype et déplace continuellement la fréquence de l’allèle dans une direction. La génomique comparative est donc une approche puissante et prometteuse de la découverte biologique qui devient de plus en plus informative à mesure que les données de séquences génomiques s’accumulent.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.