Download as pdf or txt
Download as pdf or txt
You are on page 1of 45

Tema 4. La reconstrucció filogenètica.

4.1. L'homologia com guia per a reconèixer les


relacions filogenètiques.
4.2. Tipus de caràcters i estats del caràcter.
4.3. La perspectiva filogenètica de la biologia.
4.4. Què és un arbre filogenètic?
4.5. Inferència i interpretació d'arbres filogenètics .
4.6. Mètodes bàsics de reconstrucció
filogenètica.
4.7. Filogènies moleculars.
4.8. Dificultats i aplicacions de la reconstrucció
filogenètica.
Tema 4. La reconstrucció filogenètica.
01. Presentació tema 4 primera part.
02. Presentació tema 4 segona part.
03. Presentació tema 4 tercera part.
04. Presentació tema 4 quarta part.
05. tema04 La reconstrucción filogenética FGC
06. tema04 Reconstrucción árboles evolutivos
ANAL EVOL Freeman
07. Chapter 27_Phylogenetic reconstruction.
Evolution BARTON
08. How to read a phylogenetic tree.
McLennan2010
09. Reconstrucción árboles filogenéticos VARGAS
Y ZARDOYA
4.7. Filogènies moleculars
Present
TCAAGGTATTAAC

Temps

Ancestre comú més recent


(MRCA)

3
Lluís Pascual, 2016 04-99
4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC

mutació

MRCA

Lluís Pascual, 2016 04-100


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC

mutació

MRCA

Lluís Pascual, 2016 04-101


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC

mutació

MRCA

Lluís Pascual, 2016 04-102


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC

Lluís Pascual, 2016 04-103


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
C

mutació

Lluís Pascual, 2016 04-104


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC

Lluís Pascual, 2016 04-105


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC

mutació

Lluís Pascual, 2016 04-106


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC

Lluís Pascual, 2016 04-107


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC

Lluís Pascual, 2016 04-108


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC

Lluís Pascual, 2016 04-109


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
TCTAGGTATCAAC

Lluís Pascual, 2016 04-110


4.7. Filogènies moleculars
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
TCTAGGTATCAAC

Lluís Pascual, 2016 04-111


4.7. Filogènies moleculars
Present TCTAGGTATTAAC
TCGAGGCATTAAC
TCGAGGCACTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
TCTAGGTATCAAC
* **** *

Temps

MRCA
Lluís Pascual, 2016 04-112
4.7. Filogènies moleculars
Seq1 Seq2 Seq3 Seq4 Seq5 Seq6
Seqüència 1 TCTAGGTATTAAC Seq1 - 2 3 1 2 1
Seqüència 2 TCGAGGCATTAAC Seq2 2 - 1 3 2 3
Seqüència 3 TCGAGGCACTAAC
Seq3 3 1 - 4 3 4
Seqüència 4 TCTAGGTGTTAAC
Seq4 1 3 4 - 3 2
Seqüència 5 TCGAGGTATTAGC
Seqüència 6 TCTAGGTATCAAC Seq5 2 2 3 3 - 3
* **** * Seq6 1 3 4 2 3 -

Seqüència 1
Seqüència 6
Seqüència 4
Seqüència 5
Seqüència 2
Seqüència 3

0.20 0.15 0.10 0.05 0.00

Lluís Pascual, 2016 04-113


4.7. Filogènies moleculars
Seqüència 1 TCTAGGTATTAAC
Seqüència 2 TCGAGGCATTAAC
Seqüència 3 TCGAGGCACTAAC
Seqüència 4 TCTAGGTGTTAAC
Seqüència 5 TCGAGGTATTAGC
Seqüència 6 TCTAGGTATCAAC
* **** *
3

T G

Lluís Pascual, 2016 04-114


4.7. Filogènies moleculars
Seqüència 1
Seqüència 6
Seqüència 4
Seqüència 5
Seqüència 2
Seqüència 3

0.20 0.15 0.10 0.05 0.00

1 3
1 1 2
1

1 1 5

Seqüència 1 TCTAGGTATTAAC
Seqüència 2 TCGAGGCATTAAC
Seqüència 3 TCGAGGCACTAAC
Seqüència 4 TCTAGGTGTTAAC
Seqüència 5 TCGAGGTATTAGC
Seqüència 6 TCTAGGTATCAAC
* **** *
Lluís Pascual, 2016 04-115
4.7. Filogènies moleculars
L’utilització de seqüències
Per a poder comparar els estats d'un caràcter, hem de primer
determinar quins són homòlegs i corresponen, per tant, a un mateix
caràcter.
En el cas de seqüències nucleotídiques i aminoacídiques, el caràcter és
la posició nucleotídica i el residu aminoacídic, respectivament.
Es tracta per tant d'una homología posicional.
Homología posicional entre seqüències: Un parell de nucleòtids de
dues seqüències presenten homologia posicional quan descendeixen
del mateix nucleòtid present en la seqüència ancestral de la qual
deriven.
La homologia posicional la identifiquem mitjançant l'obtenció
d'alineaments.
Alineament de seqüències: És una hipòtesi sobre la homologia
posicional entre les posicions o els residus de dos o més seqüències.

Lluís Pascual, 2016 04-116


4.7. Filogènies moleculars

Alineament de seqüències múltiples:


Objectius
• Generar un resum concís i ric en informació de les
dades de seqüències.
• De vegades s'empra per il·lustrar la dissimilitud entre
un grup de seqüències.
• Els alineaments es poden tractar com models que
poden emprar-se per contrastar hipòtesis.
• Aquest model reflecteix de manera precisa el que va
passar a partir de l'evidència biològica coneguda?

Lluís Pascual, 2016 04-117


4.7. Filogènies moleculars
Problemes amb l'utilització de seqüències
L’alineament es pot obtindre fàcilment o ser més complicat quan
n’hi han pèrdues (delecions) o guanys (insercions) de nucleòtids
o aminoàcids
GCGGCCCA TCAGGTAGTT GGTGG
GCGGCCCA TCAGGTAGTT GGTGG Fàcil
GCGTTCCA TCAGCTGGTT GGTGG
GCGTCCCA TCAGCTAGTT GGTGG
GCGGCGCA TTAGCTAGTT GGTGA
******** ********** *****
TTGACATG CCGGGG---A AACCG Difícil, degut a
TTGACATG CCGGTG--GT AAGCC les insercions
TTGACATG -CTAGG---A ACGCG
TTGACATG -CTAGGGAAC ACGCG o delecions
TTGACATC -CTCTG---A ACGCG (indels)
******** ?????????? *****
Lluís Pascual, 2016 04-118
4.7. Filogènies moleculars
Problemes amb l'utilització de seqüències
Per obtindre una reconstrucció filogenètica, a partir de
l’alineament es poden analitzar els canvis de estat dels caràcters
(mètodes basats en caràcters com màxima parsimònia) o
transformar-los en una mesura de distàncies entre seqüències
(mètodes basats en distàncies).

Les estimes de distància tracten de determinar el nombre de


canvis per posició des que 2 seqüències van divergir del seu
ancestre comú.
Contar simplement el nombre de diferències (l’anomenada
distància p) pot subestimar considerablement la quantitat de
canvis produïts realment, especialment si las seqüències són
molt diferents, degut a las substitucions múltiples, tant degudes
a homoplàsia (en roig) com no (en blau).
Lluís Pascual, 2016 04-119
(a) Substitució única (b) Substitució múltiple (c) Substitució coincident
1 canvi, 1 diferència 2 canvis, 1 diferència 2 canvis, 1 diferència

A C T A G C
C T A G A C
A C A C
A A A

(d) Substitució paral·lela (e) Substitució convergent (f) Reversió


2 canvis, 0 diferències 3 canvis, 0 diferències 2 canvis, 0 diferències
C C T T A A
C T A C A
A C A C T A C
A C
A A A
Diferencia entre secuencias

Diferencia esperada
Corrección
Saturación

Diferencia observada

Tiempo Lluís Pascual, 2016 04-120


4.7. Filogènies moleculars
Procediment general de ClustalW
Hbb_Humano 1 - CLUSTAL W
Hbb_Caballo 2 .17 -
Alineament aparellat
Hba_Humano 3 .59 .60 -
Hba_Caballo 4 .59 .59 .13 -
Myg_Ballena 5 .77 .77 .75 .75 - ràpid: calcular la matriu
de distàncies
Hbb_Humano
2 3 4
Hbb_Caballo
Hba_Humano Àrbre ‘Neighbor-joining’
(Àrbre guia)
1
Hba_Caballo

Myg_Ballena

α-hélices
1 PEEKSAVTALWGKV N- - VDEVGG 4
2 3
2
3
GEEKAAVLALWDKV N- - EEEVGG
PADKTNVKAAWGKVGAHAGEYGA
Alineament progressiu
4 AADKTNVKAAWSKVGGHAGEYGA
1 seguint l’arbre guia
5 EHEWQLVLHVWAKVEADVAGHGQ

Lluís Pascual, 2016 04-121


4.7. Filogènies moleculars
Mètodes de Distància
• Les estimacions de distància intenten estimar el nombre mitjà de canvis
per lloc des que 2 espècies (seqüències) divergiren del seu ancestre
comú
• Comptar simplement el nombre de diferències (distància K) pot
subestimar considerablement la quantitat de canvis produïts realment -
especialment si les seqüències són molt diferents - a causa de les
substitucions múltiples
• En conseqüència, emprem un model que inclou paràmetres que
reflecteixen la manera com creiem han evolucionat les seqüències
AVANTATGES INCONVENIENTS
• Ràpid - adequat per a l'anàlisi de • Es perd informació - només amb les
conjunts de dades molt grans distàncies és impossible recuperar les
seqüències originals
• Es disposa d'un gran nombre de
models amb molts paràmetres • Només mitjançant les anàlisis basats
en caràcters pot investigar la història
que milloren l'estima de les
dels llocs, per exemple, es pot inferir
distàncies les posicions més informatives 04-122
4.7. Filogènies moleculars
En conseqüència, corregim les diferències observades segons
un model d’evolució per considerar les substitucions múltiples
El model més simple és el que van proposar Jukes i Cantor
α
A T Totes les substitucions nucleotídiques es
TRANSICIONS

α
donen amb la mateixa probabilitat
α α
α Pij (t) = ¼ - ¼ e-3αt (si i≠j)
G α i la probabilitat de no substitució és:
C
Pij (t) = ¼ + ¾ e-3αt (si i=j)
TRANSVERSIONS
La correcció a la que s’arriba és:

Lluís Pascual, 2016 04-123


4.7. Filogènies moleculars

K = (dxy) = distancia entre dues seqüències expressada com el nombre


de substitucions per posició nucleotídica.
(cal notar que dxy= r / n, on r és el nombre de reemplaçaments i n és el nombre total de llocs.
Aquí s'assumeix que tots els llocs poden variar i que quan no hi ha variació entre les seqüències
es subestima la quantitat de canvi realment produït en els llocs variables)

p = és la proporció observada de nucleòtids diferents entre les dues


seqüències (disimilitut fraccional).
ln = funció logaritme natural per corregir les mutacions superposades
Les fraccions 3/4 i 4/3 reflecteixen que hi ha quatre tipus de nucleòtids
i tres formes en que un segon nucleòtid pot no coincidir amb un previ -
sent tots els tipus de canvi igual de probables (ie seqüències no
emparentades han de coincidir en un 25% només per atzar)
Lluís Pascual, 2016 04-124
4.7. Filogènies moleculars
N’hi ha més models segons les probabilitats de canvi entre els
4 tipus de nucleòtids siguen diferents.

TRANSICIONES
A T

G C
TRANSVERSIONES

Lluís Pascual, 2016 04-125


4.7. Filogènies moleculars
Relaciones entre algunos modelos de sustitución
Modelo general reversible
3 tipos de sustitución:
2 transiciones y Bases equifrecuentes
1 transversión

Tamura-Nei 93 Zharkikh 94
2 tipos de sustitución: 3 tipos de sustitución:
transiciones y 1 transición y
transversiones 2 transversiones

Tamura 92
HKY 85 Kimura 3P
Felsenstein 84 Bases equifrecuentes 2 tipos de sustitución:
1 tipo de transiciones y
sustitución transversiones

Tajima-Nei 84 Kimura 2P
Felsenstein 81
1 tipo de
Bases equifrecuentes sustitución

Jukes-Cantor Lluís Pascual, 2016 04-126


4.7. Filogènies moleculars
Màxima versemblança
(Castellà: Máxima verosimilitud; Anglès: Maximum likelihood, ML)
• Podria dir-se també màxima probabilitat.
• Històricament és el mètode més modern.
• La va popularitzar Joseph Felsenstein, Seattle, Washington.
• La seva lenta adopció per la comunitat científica té a veure
amb la dificultat de comprensió de la teoria i també amb la
manca (inicialment) de bons programes amb diversos.
• Per aquell temps, també era computacionalment impossible
analitzar conjunts grans de dades (quan es va proposar, a
mitjan els ’80, un ordinador típic tenia 1-2 Mb de RAM i un
processador a 20 Mhz).
• En l'actualitat, la millora en prestacions de programes, models
i ordinadors han permès que la ML sigui un dels mètodes
favorits per l’anàlisi de seqüències.
Lluís Pascual, 2016 04-127
4.7. Filogènies moleculars
ML en comparació amb altres mètodes
• ML s'assembla a altres mètodes en moltes coses
• En altres és essencialment diferent.
• ML assumeix un model d'evolució de les seqüències
(igual que la màxima parsimònia o els mètodes de
distància).
• ML intenta donar una resposta a la pregunta:
Quina és la probabilitat que s’observen aquestes
dades (l'alineament de seqüències múltiples),
donat un model concret d'evolució (un arbre i un
procés)?
• ML empra un 'model'. Això té una bona justificació,
ja que es pot demostrar que les dades de seqüències
moleculars apareixen segons un procés estocàstic.
Lluís Pascual, 2016 04-128
4.7. Filogènies moleculars
Màxima versemblança
Quina és la probabilitat d’observar una dada?
• Si llancem a l'aire una moneda i ens surt cara i pensem que la
moneda no està trucada, llavors la probabilitat d'observar
aquesta cara és 0.5.
• Si pensem que la moneda està trucada, de manera que surt cara
el 80% de les vegades, llavors la probabilitat d'observar aquesta
dada (una cara) és 0.8.
• Per tant: La probabilitat (versemblança) de fer certa observació
depèn completament del model subjacent als nostres supòsits
Lliçó: La dada no ha canviat,

p
però el nostre model si. Per
=? tant, amb el nou model la
probabilitat d'observar la
dada ha variat.
Lluís Pascual, 2016 04-129
4.7. Filogènies moleculars
Objectiu de la Màxima versemblança
- Aquest mètode tracta de contestar la següent qüestió:
Quina és la probabilitat de que s’observe una sèrie de dades
(alineament de seqüències) donat un determinat model d’evolució?
Dades: un alineament de seqüències.
Model: arbre filogenètic + procés evolutiu.
- El millor model (òptim) serà el que presenta una major probabilitat
(versemblança).

Probabilitat de donats
j
A C G T
A a b c d
 
C b a e f
 
G c e a g
 
T d c f a

Lluís Pascual, 2016 04-130


4.7. Filogènies moleculars
Cóm calculem la versemblança d’un arbre?
La versemblança d’una posició determinada de l’alineament de
seqüències correspon a la suma de les probabilitats de cada reconstrucció
possible del estats ancestrals donat un model de substitució nucleotídica.
C C A G C C A G
Lij =
A +
Prob Prob C
A A
C C A G

+ . . . + Prob G
A

C C A G

+ . . . + Prob T
T
La versemblança d’observar un alineament donat un arbre es el producte de las
versemblances de cada posició, si agafem logaritmes el logaritme d’un producte és
igual al sumatori de logaritmes de versemblances per posició.
n

Lij = L(1) * L(2) * ... * L(N) L = ∏ L( j )


j =1
Lluís Pascual, 2016 04-131
4.7. Filogènies moleculars
Màxima versemblança
Per a calcular les probabilitats necessitem d’un model d’evolució
En el cas de substitucions nucleotídiques assumim:
- Procés markovià homogéni: la historia anterior no afecta a la probabilitat
posterior.
-Poden donar-se diferents taxes de substitució nucleotídica segons el nucleòtid
inicial i final (4 x 4).
- La taxa de substitució entre posicions de l’alineament pot ser constant o
variable.
Per a nucleòtids, hi ha 16 possibles taxes de substitució - una matriu de 4x4.
Inicial = A C G T
a b c d  A
 e f g h
  C
P=  Final
i j k l G
m n o p  T

Per aminoácids, la matriu és de 20 x 20, i per codons 61 x 61

Lluís Pascual, 2016 04-132


4.7. Filogènies moleculars
Màxima versemblança
Els models que s’utilitzen són els mateixos que en el
cas de correcció de distàncies nucleotídiques

Lluís Pascual, 2016 04-133


4.7. Filogènies
moleculars

Lluís Pascual, 2016 04-134


4.7. Filogènies moleculars
Advantatges de la màxima versemblança
 No fa falta observar el canvi entre seqüències i després corregir les mutacions
superposades.
 No hi ha necessitat de ‘corregir’ gens, perquè els models tenen en compte les
substitucions superposades.
 S’obtenen estimes precises de les llargàries de les branques dels arbres.
 Cada lloc té una versemblança. Si el model és correcte, hauríem de recuperar
l'arbre correcte. Es pot usar un model que s'ajuste a les dades.
 ML usa tots les dades (no se seleccionen llocs informatius; tots els llocs ho són).
 ML ens proporciona informació no sols de la filogènia de les seqüències, sinó
també del procés evolutiu que ha conduït a observar les seqüències actuals.

Inconvenients de la màxima versemblança


 Pot ser inconsistent si els models no són adequats.
 És possible que el model no sigue bastant sofisticat.
 És un mètode costos en termes de càlcul computacional.
 És possible que no es puguin examinar tots els models d’evolució possibles
(matrius de substitució, topologies de l'arbre, etc.)

Lluís Pascual, 2016 04-135


4.8. Dificultats i aplicacions de la reconstrucció filogenètica
Exemple: L’origen dels cetacis: són artiodàctils o no?

Artiodàctils

Artiodàctils
Perisodàctils Perisodàctils
Lluís Pascual, 2016 04-136
4.8. Dificultats i aplicacions de la reconstrucció filogenètica
Exemple: L’origen dels cetacis: són artiodàctils o no?
Els artiodàctils es caracteritzen morfològicament per les característiques del
astràgal que els permet una major rotació del turmell i, per tant, d’allargar més
les cames quan galopen.

Problema: els cetacis tenen les extremitats davanteres molt


modificades i les darreres absents. No podem saber cóm era
l'astràgal perquè es va perdre al llarg de l’evolució dels cetacis.
Lluís Pascual, 2016 04-137
4.8. Dificultats i aplicacions de la reconstrucció filogenètica
Exemple: L’origen dels cetacis: són artiodàctils o no?
I el registre fòssil?

El astràgal dels
Archaeoceti
pareix similar al
d’artiodàctils.
Alternativa:
Dades
moleculars
Lluís Pascual, 2016 04-138
4.8. Dificultats i aplicacions de la reconstrucció filogenètica
Exemple: L’origen dels cetacis: són artiodàctils o no?

Seqüències del
gen de la beta
caseïna, una de
las proteïnes de
la llet (Gatsey et
al., 1999)
Confirmen
l’origen
artiodàctil dels
cetacis!!

Lluís Pascual, 2016 04-139


4.8. Dificultats i aplicacions de la reconstrucció filogenètica
Exemple: L’origen dels cetacis: són artiodàctils o no?

L’arbre Neighbor-Joining obtingut


amb distàncies basades en les
seqüències del gen de la beta
caseïna també confirmen l’origen
artiodàctil dels cetacis.

Lluís Pascual, 2016 04-140


4.8. Dificultats i aplicacions de la reconstrucció filogenètica
Exemple: L’origen dels cetacis: són artiodàctils o no?
L’origen artiodàctil dels cetacis es
va confirmar amb dades de
presència/absència d’elements
transposables LINE i SINE en 20
posicions del genoma (Nakaido et
al., 1999)

Lluís Pascual, 2016 04-141

You might also like