Download as pdf or txt
Download as pdf or txt
You are on page 1of 30

MP04: PRINCIPIS DE BIOTECNOLOGIA

BLAST
UF3 - BIOINFORMÀTICA
CONTINGUTS
01 QUÈ ÉS?

02 COM FUNCIONA?

03 NUCLEOTIDE BLAST

04 EXERCICI 1 (PER PRACTICAR)

05 PROTEIN BLAST

06 EXERCICI 2 (PER PRACTICAR)


BLAST
BASIC LOCAL ALIGNMENT SEARCH TOOL
És un programa informàtic d'alineament de seqüències
(ADN o proteïnes) que pot comparar una seqüència
problema (query) amb una altra seqüència o amb
totes les seqüències que es troben en una base de
dades

Creat i mantingut pel NIH (National Institutes of


Health) mitjançant el NCBI:
http://www.ncbi.nlm.nih.gov/
COM FUNCIONA?
Una matriu d'aquest tipus conté la puntuació (score) que
Utilitza l'algoritme Smith-Waterman que es
se li dóna a l'alinear un nucleòtid o un aminoàcid de la
basa en l'ús de programació dinàmica per
posició X de la seqüència A amb un altre aminoàcid de la
garantir que l'alineament local trobat és òptim
posició I de la seqüència B. L'ús d'aquest tipus de matrius
respecte a un determinat sistema de puntuació
permet a BLAST donar una puntuació als alineaments que
com les matrius tipus BLOSUM o PAM.
realitza.

A més, utilitza un algoritme


heurístic per calcular la
significació dels resultats, el que
ens donarà un paràmetre amb el
qual valorar els resultats que
s'han obtingut després de la
cerca.
BLAST
BASIC LOCAL ALIGNMENT SEARCH TOOL

Hi ha diferents tipus de programes BLAST


per a l'anàlisi de seqü.ncies tant de
nucleòtids (BLASTN, TBLASTX, tblastn) com
de proteïnes (Blastp, blastx).

Per saber quin utilitzar és fonamental tenir


en compte 3 factors:

1. La naturalesa de la seqüència problema


2. L'objectiu de la recerca
3. La base de dades on es va a dur a terme
la recerca.
EXEMPLE

Accedim al lloc web del NCBI:


https://www.ncbi.nlm.nih.gov/

Busquem la seqüència amb


identificador: “HO850244.1”
EXEMPLE
L'identificador "HO850244.1“
correspon a l'especie
Arabidopsis thaliana, i fa
referencia al gen que codifica
per l'adenosina quinasa 1.

El NCBI mostra la seqüència en


format “Genebank”. El qual ens
dona la següent informació
(traduida al castellà):
EXEMPLE
EXEMPLE
NUCLEOTIDE BLAST
ANÀLISI DE SEQÜÈNCIES D'ADN https://www.ncbi.nlm.nih.gov/BLAST.cgi
NUCLEOTIDE BLAST
POSEM EL FASTA DE LA SEQÜÈNCIA QUE VOLEM MIRAR

Per comoditat, posarem


el FASTA de la seqüència
HO850244.1 amb la que
hem treballat abans.
NUCLEOTIDE BLAST
ON ESTAVA EL FASTA?

El FASTA el trobareu al
NCBI quan heu posat
l'indicador
NUCLEOTIDE BLAST
ENGANXAR EL FASTA I A BUSCAR!!!

Un cop localitzat, l'enganxeu


al BLAST de nucleotids
(blastn) i al final de la
pàgina li doneu a BLAST
NUCLEOTIDE BLAST
BUSCANT...

Veurem que comença a buscar

Que actualitza automàticament la


pàgina mentres busca resultat...
NUCLEOTIDE BLAST
BINGO!

Ja tenim resultat a la
nostra recerca d'analisis
de seqüències d'ADN la
seqüència HO850244.1
NUCLEOTIDE BLAST
QUE VEIEM? "DESCRIPCIÓ"
• Description: el nom del resultat.
• Max Score: la puntuació màxima
d'alineament.
• Total Score: una altra puntuació
d'alineament, pot diferir de Max Score si
la consulta coincideix amb un
únic registre de la base de dades en
múltiples regions.
• Query Coverage: quin percentatge de
la consulta té similitud amb el resultat
dins de la base de dades.
• E-value: és probablement la millor
mesura de qualitat del resultat. Els
números més baixos signifiquen més
hits, sent 0.0 el millor valor possible.
• Accession: identificador del resultat
dins del NCBI.
NUCLEOTIDE BLAST
QUE VEIEM? "GRÀFIC"
El gràfic és una descripció general de les
seqüències de la base de dades
alineades amb la seqüència de consulta.
Aquestes són barres horitzontals
representades acolorides codificades
per puntuació i que mostren l'abast de
l'alineació a la seqüència de consulta.
Les regions alineades separades a la
mateixa seqüència de base de dades
estan connectades per una prima línia
grisa. Al passar el ratolí sobre una
alineació mostra el títol de la seqüència
de la base de dades.
Quan feu clic a una alineació, es mostra
un quadre amb més detalls sobre
l'alineació i un enllaç a l'alineació de la
seqüència a la secció Alineacions de
l'informe.
NUCLEOTIDE BLAST
QUE VEIEM? "ALINEAMENTS"

Finalment a la secció "Alignments" es


mostren els alineaments HSP (parells
d'alta puntuació, High Score Pairs).
NUCLEOTIDE BLAST
QUE VEIEM? "CDS"

Cliqueu en CDS (Coding Sequences) per


tal de veure la seqüència codificant de
HO850244.1
NUCLEOTIDE BLAST
QUE VEIEM? "CDS"

Veureu la seqüència sencera.


Cliqueu a GenBank per tal de que us
redirigeixi a la proteïna
NUCLEOTIDE BLAST
QUE VEIEM? "PROTEINA"

La seqüència HO850244.1 de l'especie Arabidopsis


thaliana pertany al gen 820140 que codifica per la
proteina Adenosina Quinasa 1 (ACF16163.1), la qual te
la següent seqüència codificant completa:
MIIGMFRYDEMSQKFNVEYIAGGATQNSIKVAQWMLQVPG
ATSYMGSIGKDKYGEAMKKDATAAGVYVHYYEDEATPTGT
CGVCVLGGERSLIANLSAANCYKVEHLKKPENWALVEKAK
FYYIAGFFLTVSPESIQLVREHAAANNKVFTMNLSAPFICEFF
KDVQEKCLPYMDYIFGNETEARTFSRVHGWETDDVEQIAIK
MSQLPKASGTYKRTTVITQGADPVVVAEDGKVKKYPVIPLP
KEKLVDTNGAGDAFVGGFLSQLVHGKGIEECVRAGCYASN
VVIQRSGCTYPEKPDFN
EXERCICI 1 (PER PRACTICAR)
A partir de la seqüència del EST/GENEBANK de tomàquet amb
número d'identificador BF113600.1
1. Trobar el teixit a partir del qual s'ha obtingut el número
identificador del GeneBank.
2. Realitzar una anàlisi BLAST i identificar el resultat més
probable.
3. Quin nombre d'identificador té aquesta seqüència?
4. Quin tipus de molècula és?
5. Quin és el nombre d'identificador de la proteïna que codifica
aquesta seqüència?
PROTEIN BLAST
ANÀLISI DE SEQÜÈNCIES DE PROTEINES
https://www.ncbi.nlm.nih.gov/BLAST.cgi
PROTEIN BLAST
POSEM EL FASTA DE LA SEQÜÈNCIA QUE VOLEM MIRAR
Aquest cop posarem la sequëncia
completa per tal de buscar quina
proteina s'assembla a la següent
seqüència:

>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGG
YTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTA
DQIQKITARLRQFGKIEGKNVFYWFQNHKARE
RQKKRFNGTNMTTPSSSPNSVMMAANDHYHP
LLHHHHGVPMQRPANSVNVKLNQDHHLYHH
NKPYPSFNNGNLNHASSGTECGVVNASNGYM
SSHVYGSMEQDCSMNYNNVGGGWANMDHH
YSSAPYNFFDRAKPLFGLEGHQEEEECGGDAY
LEHRRTLPLFPMHGEDHINGGSGAIWKYGQSE
VRPCASLELRLN
PROTEIN BLAST
QUE VEIEM? "DESCRIPCIÓ"
• Description: el nom del resultat.
• Max Score: la puntuació màxima
d'alineament.
• Total Score: una altra puntuació
d'alineament, pot diferir de Max Score si
la consulta coincideix amb un
únic registre de la base de dades en
múltiples regions.
• Query Coverage: quin percentatge de
la consulta té similitud amb el resultat
dins de la base de dades.
• E-value: és probablement la millor
mesura de qualitat del resultat. Els
números més baixos signifiquen més
hits, sent 0.0 el millor valor possible.
• Accession: identificador del resultat
dins del NCBI.
PROTEIN BLAST
QUE VEIEM? "GRÀFIC"

Quan cliqueu a la pestanya de gràfic,


trobareu una imatge igual que la que
apareix en aquesta diapositiva.

Si us fixeu, en negreta, menciona que


s'han trobat dominis conservats i que
podem clicar-hi per tal de tenir més
informació al respecte: cliqueu-hi.
PROTEIN BLAST
QUE VEIEM? "DOMINIS CONSERVATS"
PROTEIN BLAST
QUE VEIEM? "ALINEAMENTS"

A l'apartat de Descripció ja ens indicava


amb un 100% de fiabilitat que la
seqüència que hem introduit pertany a
una familia de proteines amb dominis
conservats.

Cliquem a la primera linia de Descripció


(Homeodomain-like superfamily
protein [Arabidopsis thaliana]) i ens
mostra l'alineament de la seqüència, tal i
com s'indica la imatge d'aquesta
diapositiva.

Cliqueu a GenPept
PROTEIN BLAST
QUE VEIEM? "GENPEPT"

Aquí tornem a tenir una


informació similar a la que
hem vist abans amb el
Nucleotid Blast
EXERCICI 2 (PER PRACTICAR)
Analitzeu la seqüència proteica problema que es mostra a
continuació indicant, en la mesura del possible i per comparació,
la família de proteïnes a la qual pertany i la seva possible funció:

>proteina_problema
TAYQSELGGDSSPLRKSGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELS
VLCDAEVALIVFSSRGRLYEYSNNSVKGTIERYKKAISDNSNTGSVAEINAQ
YYQQESAKLRQQIISIQNSNRQLMGETIGSMSPKELRNLEGRLERSITRIRSK
KNELLFSEIDYMQKREVDLHNDNQILRAKIAENERNNPSISLMPGGSNYEQ
LMPPPQTQSQPFDSRNYFQVAALQPNNHHYSSAGRQDQTALQLV

You might also like