Comprendre BLAST

Les fourmis sont parmis les espèces les plus répandues sur terre; leur succès lié à des manières d'organiser la vie en société dont la complexité est proche des nôtres. Deux formes sociales coexistent chez la fourmi de feu Solenopsis invicta: la forme monogyne (avec une seule reine), et la forme polygyne (avec jusqu'à une centaine de reines). Lorsqu'une nouvelle reine tente de s'introduire au sein d'une colonie établie, elle est parfois acceptée, parfois executée par les ouvrières. L'équipe du professeur Keller de l'UNIL a montré que le choix des reines et de leur nombre dépend des allèles d'un seul gène au sein des ouvrières.

Ce gène s'apelle Gp-9 et servira d'objet d'étude pour ce TP:

>gi|17981782 Gp-9 spliced coding sequence
ATGAAGACGTTCGTATTGCATATTTTTATTTTTGCTCTCGTGGCTTTCGCTTCTGCATCTCGTGATAGCG
CGAGGAAGATAGGATCCCAATATGACAATTACGCGACTTGCTTAGCCGAACATAGTCTAACAGAGGATGA
CATCTTCTCGATTGGTGAAGTATCAAGTGGCCAGCACAAAACCAATCATGAAGATACCGAACTACACAAA
AATGGTTGCGTCATGCAATGTTTGTTAGAAAAAGATGGACTGATGTCTGGAGCTGATTATGATGAAGAGA
AAATGCGTGAGGACTATATCAAGGAAACAGGTGCTCAACCAGGAGATCAAAGGATAGAAGCTCTGAATGC
CTGCATGCAAGAAACAAAAGACATGGAGGATAAATGTGACAAAAGCTTGCTCCTTGTAGCATGTGTCTTA
GCAGCTGAAGCTGTGCTCGCCGATTCTAACGAAGGAGCATAA

Comprendre un alignement

Pour essayer de comprendre le fonctionnement de ce gène on a effectué un BLASTN. Voici un extrait de l'alignement obtenu avec l'une des séquences retournées par BLAST:

Gp-9   613   CGTATATAAATTTTAAAATCTAAGGAAAATTGTTTTATTTTAATTATATCTAAAAAATTG  672
                ||||  ||| || | |        |||  ||||  ||||||||||||||||||||||
Sbjct  1246  ATAATATTTATTATATAGT--------AAT--TTTTCCTTTAATTATATCTAAAAAATTG  1295
À quoi correspondent les barres | ? Et les - ?

Score et E-value d'un alignement

Pour déterminer le degré de similarité de deux séquences, BLAST calcule le bitscore de l'alignement. Dans BLASTN, chaque identité vaut +1, et chaque différence vaut -3. Insertions et délétions n'affectent pas le score.

Calculez le score de l'alignement ci-dessus.

BLAST convertit ensuite le score de votre alignement en bitscore "standardisé", puis en E-value. Vous trouverez les formules correspondantes dans votre cours. Pour les calculs on prendra: n = la taille de Genbank Nucleotide soit 89*10e9 nucleotides, K = 0.63 et lambda = 1.61

Calculez le bitscore correspondant à votre score.
Calculez la E-value correspondant à votre score.

Comparaison avec d'autres resulats

La recherche BLAST a aussi donné d'autres résultats, résumés dans le tableau ci-dessous.

scores Comparez les valeurs calculées à celles du tableau.
Qu'est-ce qui pourrait expliquer pourquoi la E-value que vous avez calculée est aussi grande?

Limitation de BLAST

Il existe diverses variantes de BLAST. Grâce à une autre recherche par BLASTP, vous savez que la séquence Gp-9 est apparentée à K2000. Mais à votre grand désarroi, celle-ci n'avait pas été trouvée par BLASTN. En utilisant un autre algorithme (cf chapitre 4 du cours), vous obtenez malgré tout l'alignement des deux séquences au niveau nucléotidique:

Gp-9   1    ATGAAGACGTTCGTATTGCATATTTTTATTTTTGCTCTCGTGGCTTTCGCTTCTGCATCT  60
            ||||||||||| |||||||||| |||||||||   |||||||| |||||||||| |||||
K2000  1    ATGAAGACGTTGGTATTGCATAATTTTATTTT---TCTCGTGGATTTCGCTTCTCCATCT  57

Gp-9   61   CGTGATAGCGCGAGGAAGATAGGATCCCAATATGACAATTACGCGACTTGCTTAGCCGAA  120
            ||||| ||||||| || ||| ||||||||| |||||| |||||| ||||||||| |||||
K2000  58   CGTGAGAGCGCGAAGACGATGGGATCCCAACATGACATTTACGCCACTTGCTTACCCGAA  117

Gp-9   121  CATAGTCTAACAGAGGATGACATCTTCTCGATTGGTGAAGTATCAAGTGGCCAGCACAAA  180
            |||| ||||| || |||| || | ||||||||| ||||||||| |||||||||| |||||
K2000  118  CATAATCTAAGAGGGGATAACGTTTTCTCGATTCGTGAAGTATAAAGTGGCCAGGACAAA  177

Gp-9   181  ACCAATCATGAAGATACCGAACTACACAAAAATGGTTGCGTCATGCAATGTTTGTTAGAA  240
            |||| ||||||||| |||||||| ||||||||| || ||||||| |||||||| ||||||
K2000  178  ACCAGTCATGAAGAAACCGAACTCCACAAAAATCGTCGCGTCATACAATGTTTATTAGAA  237

Gp-9   241  AAAGATGGACTGATGTCTGGAGCTGATTATGATGAAGAGAAAATGCGTGAGGACTATATC  300
             |||||||| |||||| ||| ||| ||||||||| ||| ||||||||||  |||||||||
K2000  238  TAAGATGGAATGATGTGTGGGGCTAATTATGATGGAGAAAAAATGCGTGCTGACTATATC  297

Gp-9   301  AAGGAA------ACAGGTGCTCAACCAGGAGATCAAAGGATAGAAGCTCTGAATGCCTGC  354
            | ||||      || |||| |||||||||| |||| |||| |||| |||||||||| | |
K2000  298  AGGGAATCAGGTACCGGTGGTCAACCAGGACATCAGAGGAGAGAACCTCTGAATGCGTAC  357

Gp-9   355  ATGCAAGAAACAAAAGACATGGAGGATAAATGTGACAAAAGCTTGCTCCTTGTAGCATGT  414
            ||||||||| ||||||| ||| ||| ||||||  |||||||||   | || ||| |||||
K2000  358  ATGCAAGAATCAAAAGATATGCAGGTTAAATGGCACAAAAGCT---TTCTAGTAACATGT  414

Gp-9   415  GTCTTAGCAGCTGAAGCTGTGCTCGCCGATTCTAACGAAGGAGCATAA  462
             | |||||||| | |||||| ||||| |||||| ||||||||| ||||
K2000  415  ATTTTAGCAGCGGGAGCTGTTCTCGCGGATTCTCACGAAGGAGAATAA  462
Quel paramètre de l'algorithme de BLAST pourrait être responsable du fait que BLAST ne puisse pas trouver de similarité entre Gp-9 et K2000?

Utiliser BLAST

Le site américain du National Centre for Biotechnology Information (NCBI) regroupe de nombreux outils utilisés tous les jours par plus de 1,000,000 biologistes de part le monde. L'un d'entre eux est le portail BLAST. Utilisons la séquence genomique entière de Gp-9:

>gi|17981782|gb|AF427893.1| Gp-9 genomic sequence
TTAATAATGAAGACGTTCGTATTGCATATTTTTATTTTTGCTCTCGTGGTGAGTTCTATTTTATAATAAT
TAAATATTAGTATAAAATTTTTCTGTTTAATTTAGTAATGTATAATACAATAATGTGTTTTGCAACTTAA
TTATAAATAAATTATAAGTATTACAATGCCCTTATTGCATGTAGACATATATTATAATGTCTACACGTTT
GTTTATATTATAAGAAGATAATATTTTACGTTTATTTATACTTGTGCATGAAATAAAACTTAATTAAAAT
AAGCAAAATAAAATTCCAAATCTAGGCTTTCGCTTCTGCATCTCGTGATAGCGCGAGGAAGATAGGATCC
CAATATGACAATTACGCGACTTGCTTAGCCGAACATAGTCTAACAGAGGGTAAGTTATATTAGAGAATTT
TACACAATTTACATGTCTTCTTAATTCATAAAGTACAGAAACAGATATTTTATGTTTGATTTTGAACCAA
TACCTTTATAATAAAAGTGTATTATATATTATTTCCATATTATATACAGCTTTCTATACTGTATTAAATA
TAAAATATTTTAATTACTTATACAAGATTTTTATTAAAAATACATCCCATAACGTATATAAATTTTAAAA
TCTAAGGAAAATTGTTTTATTTTAATTATATCTAAAAAATTGTTTACATTTAAAAAATTTATAAATTTTA
TATAATTTATATTGAGATTTTAACTATGGCCGCCTCAATAAGATTATTTCACGTCTGTGTTCACACTGCA
CTCTCATGTTTGAGTTAAAATCCCAATAGTTTTTAACGTATAAGTCGTGTTTTGTAATTATTTAAGTAGA
TACAAATTTAATATTTTCTAAATTTATTTTTTAGATGACATCTTCTCGATTGGTGAAGTATCAAGTGGCC
AGCACAAAACCAATCATGAAGATACCGAACTACACAAAAATGGTTGCGTCATGCAATGTTTGTTAGAAAA
AGATGGACTGGTAAGTAGCTATTATTTTCTATAAAAAAGAGAATATTTAAAATACAAACTATTACATAAG
AAAATAAAACATTGCAAACAAAAATATAATTTTTTTCATAACGTCTTCCCATGTAGACCTATTTAACTTA
TTGTTAGAATTGATTTCAATCATTAATTTTATTAAAAAATTAATATTTTTATATACATATATTATCACAT
TATACAACATAATTTAATTCAAAAAATAGTACAAAATATCTTATCTTTATTTTAAAACGTAATCTAATGT
ATTCAAATTATTGACGTTTTTGTCTTTCTTGTAAATATTAGATGTCTGGAGCTGATTATGATGAAGAGAA
AATGCGTGAGGACTATATCAAGGAAACAGGTGCTCAACCAGGAGATCAAAGGATAGAAGCTCTGAATGCC
TGCATGCAAGAAAGTAAGTTATAAAATTAGAAAGTAAGTTATAAAATTATACGTATAAGAGTAATTCCGT
TAATTATATAAGAAATGTTAACTTTGTTTAATAAAATGTTTTATAGTATTACTTATATACATTATGGCTA
TTTAAACATTATAATAAATTTTAAAAAATATGTTATTTTTTGTAACTTAATTATTTTTTTTTCTATTTTA
GCAAAAGACATGGAGGATAAATGTGACAAAAGCTTGCTCCTTGTAGCATGTGTCTTAGCAGCTGAAGCTG
TGCTCGCCGATTCTAACGAAGGAGCATAAGAAATGCAATTAAAAACAGCTGGCATACAACCATTATATGA
AAATTTGCAACATATAGCATTTTAAATAAAGAAATAAAATTATACAGCTTTCTTTTGTATTGACATGTTA
AAATAATACTATGAATAAATTTGATTCAATAAAGCAATTTTGTTAAAAAGGAAAAAGGATCAGAATTATC
AATTTCTTCATTCTACTACTACTATTTATAATATCATCTCTAAAATCTTGATAAATAGAACAAGTAAATT
AACAAAAATGTTAATTAAGATATATGTTCTTTTTGTTTTAATTTATATTTCAGAAATATTATATTTGCAA
TATAATAAAGACACGCAATTAACAAATATACGTAAAAATTTCTATGTATCTTTAATATAATAATTATTCT
AGTTAAGTATTTTTATTAGATATAAACTTATAAAACTATTTTTCAAACTTTATCTATATGTCAATAGACA
AAATATTAGGAATGCTTTAAAGTATACATA
Quelle variante de BLAST utilise-t-on pour trouver des séquences nucléotidiques similaires?

Faites-le.

Si vous n'obtenez aucun resultat, c'est peut-etre parce que le NCBI fait par defaut un MEGABLAST qui utilise une taille de mots tres grande (25). A cause de la limitation que vous avez vu en premiere partie, MEGABLAST ne trouvera rien. Modifiez-donc le Program Selection pour choisir Somewhat similar sequences blastn).

Trouvez-vous uniquement des séquences humaines? Pourquoi?

Élargissez la recherche en utilisant la "Nucleotide collection NR" (cette base Non-Redondante est très vaste.

Est-ce que vous trouvez des gènes similaires dans d'autres organismes?
Sûr?...... ok: pourquoi n'en trouve-t-on pas?

Il est possible de limiter la recherche par une "Entrez Query" lors de la soumission du BLAST. Entrez filter[all] NOT solenopsis[organism] afin que les résultats de fourmis Solenopsis ne soient pas affichés.

Que vous montre l'image en haut de la page de résultats?
Quelles sont les autres espèces pour lesquelles vous trouvez des séquences similaires?

Recherche au niveau protéine

On sait que la séquence nucléotidique dégénère beaucoup plus rapidement que la séquence d'acide aminés.

Quelle variante de BLAST vous permettrait de comparer votre séquence à la banque de données de protéines?

Faites le (sans utiliser de contrainte "Entrez Query")

À quoi correspondent les 3 segments qui s'alignent dans l'image résumant les résultats?

On ne trouve comme résultat presque uniquement les protéines Gp-9 des différentes espèces de fourmis Solenopsis. Les trois derniers résultats (avec très grands E-value) ne sont pas biologiquement pertinents.

Recherche proteine-proteine

Servons-nous désormais de la séquence d'acides aminés de Gp-9:

>gi|17981783|gb|AAL51119.1| Gp-9 [Solenopsis invicta]
MKTFVLHIFIFALVAFASASRDSARKIGSQYDNYATCLAEHSLTEDDIFSIGEVSSGQHKTNHEDTELHK
NGCVMQCLLEKDGLMSGADYDEEKMREDYIKETGAQPGDQRIEALNACMQETKDMEDKCDKSLLLVACVL
AAEAVLADSNEGA
Quelle variante de BLAST devez-vous utiliser pour comparer sequence d'acides amines de Gp-9 à l'ensemble des séquences d'acides aminés de Genbank?

Faites-le.

Expliquez pourquoi vous trouvez des E-values beaucoup plus petites (donc significatives), ainsi qu'un plus grand nombre de résultats par BLASTP que par BLASTX.)

Regardez les alignements faibles (par exemple celui avec une protéine d'Aedes aegypti).

À quoi correspond la ligne Query?
À quoi correspond la ligne Sbjct?
À quoi correspondent les lettres de la ligne du milieu? Et les petits + ?

Quand Gp-9 avait été identifié, la seule proteine homologue significative était une "Odorant binding protein"... on peut essayer de s'imaginer comment un tel gène pourrait être impliqué dans le choix de reines.