Les fourmis sont parmis les espèces les plus répandues sur terre; leur succès lié à des manières d'organiser la vie en société dont la complexité est proche des nôtres. Deux formes sociales coexistent chez la fourmi de feu Solenopsis invicta: la forme monogyne (avec une seule reine), et la forme polygyne (avec jusqu'à une centaine de reines). Lorsqu'une nouvelle reine tente de s'introduire au sein d'une colonie établie, elle est parfois acceptée, parfois executée par les ouvrières. L'équipe du professeur Keller de l'UNIL a montré que le choix des reines et de leur nombre dépend des allèles d'un seul gène au sein des ouvrières.
Ce gène s'apelle Gp-9 et servira d'objet d'étude pour ce TP:
>gi|17981782 Gp-9 spliced coding sequence ATGAAGACGTTCGTATTGCATATTTTTATTTTTGCTCTCGTGGCTTTCGCTTCTGCATCTCGTGATAGCG CGAGGAAGATAGGATCCCAATATGACAATTACGCGACTTGCTTAGCCGAACATAGTCTAACAGAGGATGA CATCTTCTCGATTGGTGAAGTATCAAGTGGCCAGCACAAAACCAATCATGAAGATACCGAACTACACAAA AATGGTTGCGTCATGCAATGTTTGTTAGAAAAAGATGGACTGATGTCTGGAGCTGATTATGATGAAGAGA AAATGCGTGAGGACTATATCAAGGAAACAGGTGCTCAACCAGGAGATCAAAGGATAGAAGCTCTGAATGC CTGCATGCAAGAAACAAAAGACATGGAGGATAAATGTGACAAAAGCTTGCTCCTTGTAGCATGTGTCTTA GCAGCTGAAGCTGTGCTCGCCGATTCTAACGAAGGAGCATAA
Pour essayer de comprendre le fonctionnement de ce gène on a effectué un BLASTN. Voici un extrait de l'alignement obtenu avec l'une des séquences retournées par BLAST:
Gp-9 613 CGTATATAAATTTTAAAATCTAAGGAAAATTGTTTTATTTTAATTATATCTAAAAAATTG 672
|||| ||| || | | ||| |||| ||||||||||||||||||||||
Sbjct 1246 ATAATATTTATTATATAGT--------AAT--TTTTCCTTTAATTATATCTAAAAAATTG 1295
| ? Et les - ?Pour déterminer le degré de similarité de deux séquences, BLAST calcule le bitscore de l'alignement. Dans BLASTN, chaque identité vaut +1, et chaque différence vaut -3. Insertions et délétions n'affectent pas le score.
BLAST convertit ensuite le score de votre alignement en bitscore "standardisé", puis en E-value. Vous trouverez les formules correspondantes dans votre cours. Pour les calculs on prendra: n = la taille de Genbank Nucleotide soit 89*10e9 nucleotides, K = 0.63 et lambda = 1.61
La recherche BLAST a aussi donné d'autres résultats, résumés dans le tableau ci-dessous.
Comparez les valeurs calculées à celles du tableau.
Il existe diverses variantes de BLAST. Grâce à une autre recherche par BLASTP, vous savez que la séquence Gp-9 est apparentée à K2000. Mais à votre grand désarroi, celle-ci n'avait pas été trouvée par BLASTN. En utilisant un autre algorithme (cf chapitre 4 du cours), vous obtenez malgré tout l'alignement des deux séquences au niveau nucléotidique:
Gp-9 1 ATGAAGACGTTCGTATTGCATATTTTTATTTTTGCTCTCGTGGCTTTCGCTTCTGCATCT 60
||||||||||| |||||||||| ||||||||| |||||||| |||||||||| |||||
K2000 1 ATGAAGACGTTGGTATTGCATAATTTTATTTT---TCTCGTGGATTTCGCTTCTCCATCT 57
Gp-9 61 CGTGATAGCGCGAGGAAGATAGGATCCCAATATGACAATTACGCGACTTGCTTAGCCGAA 120
||||| ||||||| || ||| ||||||||| |||||| |||||| ||||||||| |||||
K2000 58 CGTGAGAGCGCGAAGACGATGGGATCCCAACATGACATTTACGCCACTTGCTTACCCGAA 117
Gp-9 121 CATAGTCTAACAGAGGATGACATCTTCTCGATTGGTGAAGTATCAAGTGGCCAGCACAAA 180
|||| ||||| || |||| || | ||||||||| ||||||||| |||||||||| |||||
K2000 118 CATAATCTAAGAGGGGATAACGTTTTCTCGATTCGTGAAGTATAAAGTGGCCAGGACAAA 177
Gp-9 181 ACCAATCATGAAGATACCGAACTACACAAAAATGGTTGCGTCATGCAATGTTTGTTAGAA 240
|||| ||||||||| |||||||| ||||||||| || ||||||| |||||||| ||||||
K2000 178 ACCAGTCATGAAGAAACCGAACTCCACAAAAATCGTCGCGTCATACAATGTTTATTAGAA 237
Gp-9 241 AAAGATGGACTGATGTCTGGAGCTGATTATGATGAAGAGAAAATGCGTGAGGACTATATC 300
|||||||| |||||| ||| ||| ||||||||| ||| |||||||||| |||||||||
K2000 238 TAAGATGGAATGATGTGTGGGGCTAATTATGATGGAGAAAAAATGCGTGCTGACTATATC 297
Gp-9 301 AAGGAA------ACAGGTGCTCAACCAGGAGATCAAAGGATAGAAGCTCTGAATGCCTGC 354
| |||| || |||| |||||||||| |||| |||| |||| |||||||||| | |
K2000 298 AGGGAATCAGGTACCGGTGGTCAACCAGGACATCAGAGGAGAGAACCTCTGAATGCGTAC 357
Gp-9 355 ATGCAAGAAACAAAAGACATGGAGGATAAATGTGACAAAAGCTTGCTCCTTGTAGCATGT 414
||||||||| ||||||| ||| ||| |||||| ||||||||| | || ||| |||||
K2000 358 ATGCAAGAATCAAAAGATATGCAGGTTAAATGGCACAAAAGCT---TTCTAGTAACATGT 414
Gp-9 415 GTCTTAGCAGCTGAAGCTGTGCTCGCCGATTCTAACGAAGGAGCATAA 462
| |||||||| | |||||| ||||| |||||| ||||||||| ||||
K2000 415 ATTTTAGCAGCGGGAGCTGTTCTCGCGGATTCTCACGAAGGAGAATAA 462
Le site américain du National Centre for Biotechnology Information (NCBI) regroupe de nombreux outils utilisés tous les jours par plus de 1,000,000 biologistes de part le monde. L'un d'entre eux est le portail BLAST. Utilisons la séquence genomique entière de Gp-9:
>gi|17981782|gb|AF427893.1| Gp-9 genomic sequence TTAATAATGAAGACGTTCGTATTGCATATTTTTATTTTTGCTCTCGTGGTGAGTTCTATTTTATAATAAT TAAATATTAGTATAAAATTTTTCTGTTTAATTTAGTAATGTATAATACAATAATGTGTTTTGCAACTTAA TTATAAATAAATTATAAGTATTACAATGCCCTTATTGCATGTAGACATATATTATAATGTCTACACGTTT GTTTATATTATAAGAAGATAATATTTTACGTTTATTTATACTTGTGCATGAAATAAAACTTAATTAAAAT AAGCAAAATAAAATTCCAAATCTAGGCTTTCGCTTCTGCATCTCGTGATAGCGCGAGGAAGATAGGATCC CAATATGACAATTACGCGACTTGCTTAGCCGAACATAGTCTAACAGAGGGTAAGTTATATTAGAGAATTT TACACAATTTACATGTCTTCTTAATTCATAAAGTACAGAAACAGATATTTTATGTTTGATTTTGAACCAA TACCTTTATAATAAAAGTGTATTATATATTATTTCCATATTATATACAGCTTTCTATACTGTATTAAATA TAAAATATTTTAATTACTTATACAAGATTTTTATTAAAAATACATCCCATAACGTATATAAATTTTAAAA TCTAAGGAAAATTGTTTTATTTTAATTATATCTAAAAAATTGTTTACATTTAAAAAATTTATAAATTTTA TATAATTTATATTGAGATTTTAACTATGGCCGCCTCAATAAGATTATTTCACGTCTGTGTTCACACTGCA CTCTCATGTTTGAGTTAAAATCCCAATAGTTTTTAACGTATAAGTCGTGTTTTGTAATTATTTAAGTAGA TACAAATTTAATATTTTCTAAATTTATTTTTTAGATGACATCTTCTCGATTGGTGAAGTATCAAGTGGCC AGCACAAAACCAATCATGAAGATACCGAACTACACAAAAATGGTTGCGTCATGCAATGTTTGTTAGAAAA AGATGGACTGGTAAGTAGCTATTATTTTCTATAAAAAAGAGAATATTTAAAATACAAACTATTACATAAG AAAATAAAACATTGCAAACAAAAATATAATTTTTTTCATAACGTCTTCCCATGTAGACCTATTTAACTTA TTGTTAGAATTGATTTCAATCATTAATTTTATTAAAAAATTAATATTTTTATATACATATATTATCACAT TATACAACATAATTTAATTCAAAAAATAGTACAAAATATCTTATCTTTATTTTAAAACGTAATCTAATGT ATTCAAATTATTGACGTTTTTGTCTTTCTTGTAAATATTAGATGTCTGGAGCTGATTATGATGAAGAGAA AATGCGTGAGGACTATATCAAGGAAACAGGTGCTCAACCAGGAGATCAAAGGATAGAAGCTCTGAATGCC TGCATGCAAGAAAGTAAGTTATAAAATTAGAAAGTAAGTTATAAAATTATACGTATAAGAGTAATTCCGT TAATTATATAAGAAATGTTAACTTTGTTTAATAAAATGTTTTATAGTATTACTTATATACATTATGGCTA TTTAAACATTATAATAAATTTTAAAAAATATGTTATTTTTTGTAACTTAATTATTTTTTTTTCTATTTTA GCAAAAGACATGGAGGATAAATGTGACAAAAGCTTGCTCCTTGTAGCATGTGTCTTAGCAGCTGAAGCTG TGCTCGCCGATTCTAACGAAGGAGCATAAGAAATGCAATTAAAAACAGCTGGCATACAACCATTATATGA AAATTTGCAACATATAGCATTTTAAATAAAGAAATAAAATTATACAGCTTTCTTTTGTATTGACATGTTA AAATAATACTATGAATAAATTTGATTCAATAAAGCAATTTTGTTAAAAAGGAAAAAGGATCAGAATTATC AATTTCTTCATTCTACTACTACTATTTATAATATCATCTCTAAAATCTTGATAAATAGAACAAGTAAATT AACAAAAATGTTAATTAAGATATATGTTCTTTTTGTTTTAATTTATATTTCAGAAATATTATATTTGCAA TATAATAAAGACACGCAATTAACAAATATACGTAAAAATTTCTATGTATCTTTAATATAATAATTATTCT AGTTAAGTATTTTTATTAGATATAAACTTATAAAACTATTTTTCAAACTTTATCTATATGTCAATAGACA AAATATTAGGAATGCTTTAAAGTATACATA
Faites-le.
Si vous n'obtenez aucun resultat, c'est peut-etre parce que le NCBI fait par defaut un MEGABLAST qui utilise une taille de mots tres grande (25). A cause de la limitation que vous avez vu en premiere partie, MEGABLAST ne trouvera rien. Modifiez-donc le Program Selection pour choisir Somewhat similar sequences blastn).
Élargissez la recherche en utilisant la "Nucleotide collection NR" (cette base Non-Redondante est très vaste.
Il est possible de limiter la recherche par une "Entrez Query" lors de la soumission du BLAST. Entrez filter[all] NOT solenopsis[organism] afin que les résultats de fourmis Solenopsis ne soient pas affichés.
On sait que la séquence nucléotidique dégénère beaucoup plus rapidement que la séquence d'acide aminés.
Faites le (sans utiliser de contrainte "Entrez Query")
On ne trouve comme résultat presque uniquement les protéines Gp-9 des différentes espèces de fourmis Solenopsis. Les trois derniers résultats (avec très grands E-value) ne sont pas biologiquement pertinents.
Servons-nous désormais de la séquence d'acides aminés de Gp-9:
>gi|17981783|gb|AAL51119.1| Gp-9 [Solenopsis invicta] MKTFVLHIFIFALVAFASASRDSARKIGSQYDNYATCLAEHSLTEDDIFSIGEVSSGQHKTNHEDTELHK NGCVMQCLLEKDGLMSGADYDEEKMREDYIKETGAQPGDQRIEALNACMQETKDMEDKCDKSLLLVACVL AAEAVLADSNEGA
Faites-le.
Regardez les alignements faibles (par exemple celui avec une protéine d'Aedes aegypti).
Query?Sbjct?+ ?Quand Gp-9 avait été identifié, la seule proteine homologue significative était une "Odorant binding protein"... on peut essayer de s'imaginer comment un tel gène pourrait être impliqué dans le choix de reines.