Fylogeni & Fylogenetiske Karakterer

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 62

Fylogeni og fylogenetiske

karakterer

Søren Rosendahl,
Økologi & Evolution, Biologisk Institut
Evolutionsbiologi 2024
Denne forelæsning:

• Hvad bruger man fylogeni til?


• Hvilke typer fylogenetiske karakterer har vi?
• Hvordan laver man fylogenetiske træer?
• Hvorfor ”passer” træerne ikke altid?
Fylogeni læringsmål:
• Forstå princippet i fylogenetik til
slægtsskabsanalyse
• Forstå og identificere fælles afledte karakterer
(synapomorfi)
• Kende forskellen på parsimoniske og
afstandsbaserede fylogenetiske analyser
• Kende forskel på urodede og rodede træer
• Bruge fylogeni til at forstå evolution i et
tidsperspektiv
Hvorfor skal biologer vide noget
om hvordan man laver
fylogenetiske træer?
Fylogeni kan bruges til at identifisere paraloger af
Arabidopsis K+transporters: nye funktioner fra samme
gener

Mäser P et al. Plantphysiol 2001;126:1646-1667


Fylogenetiske
metoder er
vigtige til at få
større kendskab
til nye
epidemiske
sygdomme som
fx SARS og
andre Covid
Fylogeni er et vigtigt redskab i epidemiologi

HIV viser en fylogeni


Men, HIV fylogeni
styret af ikke-selektions
i en enkelt patient
populations processer
Influenza A viser en fylogeni styret viser….?
af værtens immunresponse
Hvad med Covid 19?
• Hvordan ser fylogenien ud?

Influenza A HIV Covid 19


Hvad med Covid 19?
• Hvordan ser fylogenien ud?

Influenza A HIV
Hvordan måles lighed imellem arter
• Homologe karakterer (characters): karakterer
med samme oprindelse (f.eks. karakteren tær).
• Homologe karaktertilstande (character states):
Karaktertilstande med samme oprindelse
(f.eks. antallet af tær)

Krokodille Menneske Næsehorn


Fylogenetiske begreber:
Homologi og Homoplasi
Homologi: identiske karakterer skyldes fælles
stamform (evolutionært signal)
Homoplasi: identiske karakterer skyldes konvergent
udvikling eller reduktion (evolutionær støj)
+vinger
øgler fugle
orme
slanger slanger

gnavere gnavere øgler


primater flagermus slanger
+hår +ben
+vinger –ben

Homologi Homoplasi Homoplasi


(Konvergens) (Tilbageskift)
Homologi kan skyldes apomorfi
•Apomorfi (derived, afledte, nyerhvervede, "avancerede" )
•Synapomorfi (fælles afledt karakter)
-Taxa der deler samme apomorfi, har en synapomorfi

Oprindelig karaktertilstand a: 0

a: 0→1 Art 1 og 2 har


en synapomorfi

species 1 species 2 species 3


a a a
1 1 0
……eller plesiomorfi
•Plesiomorfi (ancestral, oprindelige, "primitive")
•Symplesiomorfi (fælles oprindelig karakter)
- Taxa der deler samme plesiomorfi, har en symplesiomorfi
Oprindelig karaktertilstand a: 0

Art 1 og 3 har en
symplesiomorfi

a: 0→1

species 1 species 2 species 3


a a a
0 1 0
... eller evolutionære tilbageskift

Oprindelig karaktertilstand a: 0

a: 0→1

Tilbageskift a: 1→0

species 1 species 2 species 3 species 4


a a a a
0 1 1 0
Når man anvender molekylære karakterer er det
vigtigt at der er tale om homologe karakterer

•Homologe karakterer:
karakterer med samme oprindelse (f.eks. karakteren tær).
•Homologe karaktertilstande:
Karaktertilstande med samme oprindelse.(f.eks. antallet af tær)

Human TCTTCGAGGAAGGAGTTGAGGCATTTTTGGCTGAACATTCAGCACAGAAGA
Mouse TCTTCGAAGAAGGAGTTGAGGCATTCTTGATTGAGCACTCGGCACAGAAGA
Dog TCTTGGAAGAAGGAGTTAAGGCATTTTTGGCTGAACACTCAGCACAGAAGA
Elephant TCTTGGAAGAAGGAGTTAAGGCATTTTCGGCTGAACACTCAGCACAGAAGA

karakter karaktertilstande
Det er vigtigt at sekvenserne er alignet når vi
skal bruge dem som fylogenetiske karakterer
10 20 30 40
....|....|....|....|....|....|....|....|
Hsap_Afrika TGCCTCGGCTCTTTACCTGCCCCCCTCCCTCGCGTGTCGC
Hsap Europa TGCCTCGGATCTTTACCTGCCCCCCTCCCTCGCGTATCGC
Neander TGCCTCGGATCTTTGCCTGCCCCCCCTCCTTGCGTATCGC
Denisova CGCTTCGAATCTCCACCTATCCCCCTTCCTTGCGTACCGC

10 20 30 40
....|....|....|....|....|....|....|....|
Hsap_Afrika TGCCTCGGCTCTTTACCTGCCCCCC TCCCTCGCGTGTCGC
Hsap Europa ........A................ ..........A....
Neander ........A.....G..........C T...T....A....
Denisova C..T...AA...CC....AT..... .T...T....AC...
Alignment
Oprindelig
sekvens
mutation

deletion

insertion

Afledt
sekvens
Det kan være mere problematisk at
aligne sekvenser fra meget forskellige
organismer

Her: Homo sapiens, echinodermer, molusker og cnidarier


- Er alle karakterer homologe?
Maximum Parsimoni

•Bygger på Ockhams Razor:


- Vi bør foretrække den forklaring der
kræver færrest antagelser

•Maximum Parsimoni kriterie:


- Ud af alle mulige træer, foretrækker
vi det med færrest karakterskift
(substitutioner).
2 par Ben
Hår lemmer Gæller skelet

1 1 0 1

0 1 0 1

0 0 1 1

0 0 1 0
Parsimoni
1. Tegn et træ
2. Placer alle karakterskift på træet
3. Tæl antallet af karakterskift
4. Tegn et nyt træ
5. Placer alle karakterskift på træet
6. Tæl antallet af karakterskift
7. Tegn et….

xx. Vælg det korteste træ


2 par Gæller Ben
Hår lemmer skelet

1 1 0 1
Hår
2 par 0 1 0 1
lemmer
0 0 1 1
Ben skelet
Gæller 0 0 1 0

4 ændringer

Hår2 par Hår


2 par
lemmer lemmer Gæller
Ben skelet
Gæller 2 par lemmer
Gæller Ben
skelet
6 ændringer 6 ændringer
De fælles afledte karakterer: ben-skelet,
lunger, 2 par lemmer betyder at pattedyr
og fugle er tættest beslægtet 2 par Gæller Ben
Hår lemmer skelet

1 1 0 1

0 1 0 1

0 0 1 1
Hår
0 0 1 0
2 par lemmer 0 0 0 0
Gæller
(forsvinder)
Ben skelet Så er fisk tættere
beslægtet med mus
Hvirveldyr
eller med hajer?
Karakter baserede træer laves ved at finde den
bedste model og visualisere denne som et træ
Vælg det
Analyse korteste træ
Visualisering
Prøv forskellige
modeller
(træer)

Data

Sekvens alignment
Fylogenetisk træ
Hvilke kriterier bruger vi til at finde det
‘bedste’ træ:

• Parsimoni
• Minimum evolution
• Maximum likelihood
• Bayesian inference
Maximum Likelihood

• Maximum likelihood anvender en


probabilistisk model for at finde hvor meget
evidens der er for et givent træ

• Maximum likelihood kriterie:


- Af alle mulige træer, vælger vi det træ der
giver den højeste likelihood
Maximum likelihood
• Med den evolutionære model, kan vi beregne
sandsynlighed for at observere vores data
(sekvenser) givet et bestemt træ:
P(sekvenser|træ)
• Maximum likelihood princippet: Vælg den
model (træ) som giver den højeste
sandsynlighed for de observerede data
Maximum likelihood

TACGT
T t2 C TACCA
t5
CAGGT
A t3 A
GAGCT
t1 t4
Nucleotide frekvens G
T Gren længde
Substitutions rate

Pr = πT pTA (t1) pAT(t2) pAA (t3) pAG (t4) pAC(a5)


Maximum likelihood

Gentag for alle mulige træer


- og alle mulige interne noder
-og vælg så den kombination der
giver den højeste sandsynlighed…

Det tager lang tid


Maximum likelihood
• Med maximum likelihood kan man
maksimere både træ og substitution model
• Vi kan estimere den mest sandsynlige
substitutions model ud fra sekvenserne.
Evolutionære modeller for
substitutioner
P-distance
• P-distance udtrykker 1,2

fraktionen af 1

nucleotider som er

Differences per site


0,8
ændret
0,6
• Det er ikke altid et godt
mål for antallet af 0,4

ændringer 0,2

• Nucleotider kan ændres 0

mange gange, så den 0 0,2 0,4 0,6 0,8


Branch Length
1 1,2

evolutionære tid bliver


underestimeret
Jukes-Cantor model
• I Jukes - Cantor
1,2

modellen, er raten
1

Differences per site


for nucleotid 0,8

substitutioner den 0,6

samme for alle base 0,4

par: A, T, C, og G 0,2

• Men, tager hensyn til 0


0 0,5 1 1,5 2 2,5

at en base kun kan


Branch Length

skifte til tre andre


Ikke alle substitutioner er lige
sandsynlige
• Maximum likelihood kan bruge forskelle i substitutions
rater

• Transitioner er mere hyppige end transversioner

transversion

transition
More komplekse modeler
• Kan inkludere forskellige rater for
forskellige substitutioner
• Kimura 2-parameter modellen antager
forskellige hypppighed af transitioner
og transversioner
Hvilken model skal jeg bruge?
Table. Maximum Likelihood fits of 24 different
nucleotide substitution models
Model #Param BIC AICc lnL
HKY+G 194 8508,50 6742,35 -3176,60795
TN93+G 195 8518,94 6743,70 -3176,274718
HKY+G+I 195 8519,74 6744,49 -3176,672415
TN93+G+
I 196 8529,92 6745,58 -3176,211346
HKY+I 194 8530,49 6764,35 -3187,605683
GTR+G 198 8539,17 6736,63 -3169,722664
TN93+I 195 8541,06 6765,82 -3187,336927
T92+G 192 8543,36 6795,41 -3205,14654

Hasegawa-Kishino-Yano
Vi kan også beregne et træ. Det kalder
vi en algoritmisk metode:

Vi vil nu bruge nogle sekvenser til at


lave et afstandsbaseret træ
Det algoritmiske træ (beregnede) laves ved at
analysere data og visualisere analysen (afstands-
matrix) Beregning af
Analyse træet
Fra sekvens
til afstande Visualisering

Data

Parvis afstands
matrix

Sekvens alignment
Fylogenetisk træ
Her er fire sekvenser med 9 variable sites:
3 8 10 12 13 15 1718 24
A: GTT ACG ACT GAC TGA TGA CGT ACG AAC ATT
B: GTC ACG ACT AAC TGA TGA CGT ACG AAC ATT
C: GTC ACG ATT GAT TGA TAA CGT ACG AAC ATT
D: GTC ACG ATT GAT CGG TGG CGT ACC AAC ATT
Ved at sammenligne sekvenserne parvis
kan vi lave en Afstandsmatrix
3 8 10 12 13 15 1718 24 27
A: GTT ACG ACT GAC TGA TGA CGT ACG AAC ATT
B: --C --- -C- A-C T-A -GA --- --C --C ---
C: --C --- -T- G-T T-A -AA --- --C --C ---
D: --C --- -T- G-T C-G -GG --- --C --A ---
Relative afstande
(antal substitutioner
Absolutte afstande per længde)
A B C D A B C D
A A
B 3 B 0.1
C 5 4 C 0.17 0.13
D 8 7 5 D 0.27 0.23 0.17
Neighbor joining træ
Neighbor joining er en metode til at beregne et
træ. Man får derfor kun ét træ ud af en
afstandsmatrix

Beregningsmetoden går ud på at man hele


tiden finder de to taxa der er mest ens og
slår dem sammen til et nyt taxon.
A B C D
Herefter beregner man afstandene A
fra det nye taxon til alle andre taxa B 3
C 5 4
D 8 7 5
Neighbor joining træ
Det ses at A og B er mest ens og vi A B C D
slår dem derfor sammen til et nyt A 0 3 5 8
taxon: E, som er deres fælles B 3 0 4 7
stamform C 5 4 0 5
A D 8 7 5 0
E ∑ 16 14 14 20

Derefter skal vi beregne afstandene


fra E til de andre taxa
Neighbor joining træ

A B C D A C
2
A 0 3 5 8 1.75 1.25
1
B E F
B 3 0 4 7
4
C 5 4 0 5
D 8 7 5 0
∑ 16 14 14 20 D
Der findes grundlæggende to måder at
lave fylogenetiske træer på:

Beregning af et fylogenetisk træ (Algoritmisk)


• UPGMA Unweighted Pair Group Method w Arthm. mean
• Neighbor Joining
Søgning efter det bedste træ
- man søger efter det optimale træ ud fra
forskellige kriterier:
• Parsimoni
• Minimum evolution
• Maximum likelihood
• Bayesian inference
Hvilke programmer kan man bruge?
http://www.megasoftware.net/
Og her et fylogenetisk træ lavet i
MEGA med sekvenserne

Homo sapiens

Neanderthal

Chimpanser

Gorilla

Orangutan
Udfordringer for fylogenetiske metoder

•Der er mange mulige træer


•Homoplasi
• Manglende evidens om gamle hændelser
(multiple hits = substitutions mætning)
Gen-træer og arts-træer
behøver ikke at være ens
Derfor stemmer gentræer ikke altid
overens
Arts-træ
Gen-træ
Mutation

Incomplete Adaptiv Hybrid artsdannelse


lineage sorting introgression
Gen-træer og arts-træer behøver ikke at være ens

Art A Art B Art C Art A Art B Art C

A B C A B C
A 0 A 0
B 5 0 B 3 0
C 5 2 0 C 6 7 0

To fælles A B C C A B
mutationer

To haplotyper
dannet efter
en mutation

Incomplete lineage sorting


Incomplete lineage sorting
Adaptiv introgression
Adaptiv introgression har
også fundet sted hos
Homo sapiens. Uden for
Afrika indeholder vi ca.
2% Neanderthal DNA
Afvigelser fra træstruktur:
Hybridisering
Grøn frø
Grøn frø

Latter frø Kortbenet frø


Forekomst af kortbenet frø
Pelophylax lessonae
Fylogeni baseret på mitokondrielt DNA
afslører ikke hybridisering
Gron fro 1
Latter Fro
Gron Fro 2
Kortbenet Fro 2
Kortbenet fro 1
Spring Fro
Butsnudet Fro
Spidssnudet Fro 2
Spidssnudet Fro 1
Lov Fro
Bufo punctatus
Skrubtudse: Bufo
Klokke Fro 1
Klokke Fro 2
Ormepadde: Siphonops annulatus
Alpe bjergsalamander
Ambystoma mexicanum
Lille vand salamander
Pyrenaeisk bjegsalamander

0.050
Afvigelser fra træstruktur: Horisontal
gen overførsel
1 2 3 4 5

Horisontal gen overførsel

Især kendt for patogene


svampe og bakterier
Insekt patogen svamp
kan overføre hele
kromosomer mellem
arter

You might also like