Predviđanje Mjesta Proteinskih Interakcija

You might also like

Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 8

Predvianje mjesta proteinskih interakcija iz slijeda aminokiselinskih ostataka lanaca proteina

Juraj Petrovi i Jan Lovrini


Sijeanj 2009.

Saetak
Tono predvianje mjesta proteinskih interakcija jedan je od najvanijih problema u istraivanjima vezanim uz proteine i procese u kojima oni sudjeluju. Postoje pretpostavke da bi se predvianje moglo izvriti samo na temelju informacije o primarnoj strukturi proteina. Rezultat ovog rada istrenirana je neuronska mrea, koja uz odreenu tonost moe predvidjeti je li sredinji aminokiselinski ostatak u segmentu lanca proteina mjesto interakcije ili nije. Dobiveni rezultati potvruju postojanje snane korelacije izmeu primarne strukture i lociranja aktivnih mjesta na lancu, a daljnjim razvojem ove metode, te primjenama i drugih ideja, ova tonost mogla bi se i poveati, iako postoje i druge metode za isti problem.

neuronsku mreu koja e s odreenom tonou moi predviati je li sredinji aminokiselinski ostatak u segmentu lanca proteina mjesto interakcije proteina. Mrea se trenira na uzorcima proteinskih lanaca dobivenim iz proteinske baze podataka RSCB PDB za ije aminokiselinske ostatke pouzdano znamo (ekperimentalno utvreno) jesu li ili nisu mjesto interakcije. U radu je ukratko opisana uloga proteina, izloen je nain kreiranja uzoraka za mreu i treniranja mree, te su prikazani rezultati dobiveni treniranjem i testiranjem mree.

2. Proteini i njihova vanost


Proteini su makromolekule sainjene od pedeset ili vie aminokiselina meusobno povezanih peptidnom vezom. U ljudskom tijelu, u kojem ih je otkriveno vie od 80000 razliitih, proteini imaju brojne vane funkcije. Sama rije protein dolazi od grke rijei ("prota") koja znai "od primarne vanosti". Proteini sudjeluju u rastu i uspostavi funkcija tjelesnih stanica, imaju strukturne funkcije u stanicama, mehanike funkcije u miiima, prenose tvari unutar stanice, izgrauju antitijela za obranu tijela od stranih tvari, sudjeluju u staninim procesima kao enzimi. U prirodi nalazimo 20 razliitih aminokiselina poznatih kao

1. Uvod
Lociranje aktivnog mjesta na lancu proteina, na kojem dolazi do interakcije, nuno je za razumijevanje brojnih biolokih procesa u kojima proteini sudjeluju, a jednu od primjena nalazi u otkrivanju novih lijekova. Postoje razliite metode predvianja mjesta interakcija. Naa metoda oslanja se iskljuivo na pretpostavku da je mogue predvidjeti mjesto interakcije iz samog niza aminokiselinskih ostataka koji ine lance proteina . U okviru ovog projekta pokuali smo potvrditi ovu pretpostavku, odnosno pokazati da je mogue istrenirati

standardne aminokiseline. U proteinu niz povezanih aminokiselina, odnosno aminokiselinskih ostataka, ini jedan lanac. Lance moemo dakle smatrati graevnim jedinicama proteina. U ovisnosti o broju lanaca od kojih su graeni, proteini se dijele na monomere i polimere, dakle one graene od samo jednog ili one graene od vie lanaca. Kada govorimo o strukturi proteina, hijerarhijski razlikujemo primarnu, sekundarnu, tercijarnu i kvarternarnu strukturu. Poput redoslijeda slova u rijei, primarna struktura podrazumijeva raspored ili redoslijed vezanja aminokiselina u polipeptidni lanac. Slika 1 prikazuje primarnu strukturu inzulina, proteina za reguliranje razine eera u krvi. Inzulin se sastoji od dva lanca (dimer). Svaka aminokiselina je predstavljena troslovnom kraticom svoga imena.

Aktivna mjesta na povrini proteina, koja se mogu okarakterizirati parametrima kao to su veliina povrine, polarnost i geometrijski oblik, mogu nam pruiti uvid u vrstu proteinskih reakcija kojima e posluiti, pa time i u funkciju proteina koji sudjeluju u reakciji. S odreenom tonou, a moda i sigurno, mogue je predvidjeti aktivna mjesta na proteinu analizirajui samo njegovu primarnu strukturu. Ovdje je, meutim, vano takoer primijetiti da mjesta na povrini lanaca na kojima dolazi do interakcija izmeu dva proteina A i B ne moraju biti mjesta interakcija izmeu proteina A i nekog drugog proteina C .

3. Materijali i metode
3.1 Tumaenje uzoraka Mjesto interakcije meu lancima proteina pokuavamo predvidjeti pomou neuronske mree trenirane na nizovima aminokiselinskih ostataka, tj. segmentima lanaca primarne strukture proteina, za koje je utvreno jesu li mjesta interakcije. Za potrebe projekta raspolaemo skupom proteinskih lanaca kod kojih za svaki prozor veliine 9 aminokiselinskih ostataka pouzdano znamo je li sredinji aminokiselinski ostatak mjesto na kojem dolazi do interakcije s nekim drugim lancem. Svaki element poetnog skupa uzoraka sastoji se od oznake proteinske strukture u RSCB PDB bazi struktura (4 znaka), oznake lanca (1 slovo), sekvence od 9 aminokiselinskih ostataka koji su povezani u lanac u danom

Slika inzulina

1:

Primarna

struktura

Proteinske interakcije su vrlo sloeni procesi koji ovise o velikom broju parametara. Razumijevanje principa po kojima se one odvijaju kljuno je za razumijevanje veze izmeu njihove bioloke funkcije i molekularne strukture. Da bi neki proteini reagirali nuno je ne samo da se oni sretnu, nego se svakako moraju susresti njihove odgovarajue aktivne povrine, odnosno mjesta interakcije.

proteinu (svaka od 20 standardnih aminokiselina predstavljena troslovnom kraticom), te oznake je li sredinji ostatak u sekvenci mjesto interakcije (0 ili 1), to je utvreno eksperimentalno. Sekvenca je oznaena kao aktivno mjesto ako je sredinji aminokiselinski ostatak u kontaktu s aminokiselinskim ostatkom u drugom lancu. Svaki od 170192 uzorka iz ukupno 333 PDB strukture zapisan je kao jedan redak ARFF (Attribute-Relation File Format) datoteke (vidi Dodatak 1: ). 3.2 Kodiranje uzoraka Neuronsku mreu odluili smo pokuati implementirati u programskom alatu MATLAB. Uzorke je stoga prije koritenja potrebno kodirati u vektore kojima emo trenirati mreu. Kodiranje smo proveli na nain da se sekvenca od 9 ostataka pretvori u 180-bitni binarni vektor. Na svakom od 9 mjesta, naime, moe biti zapisana jedna od 20 standardnih aminokiselina. Prisutna aminokiselina oznaena je jedinicom na mjestu koje odgovara mjestu naziva aminokiseline u abecednom poretku, dok je ostalih 19 bitova postavljeno na nulu. Koristimo jo jedan bit koji oznaava da li je sekvenca aktivno mjesto (1) ili nije (0), to na kraju daje matricu kodiranih uzoraka sa 181 retkom. Matrica se prije treniranja i testiranja mree rastavlja u matrice uzoraka za treniranje i testiranje sa 180-bitnim stupcima i matrice pripadnih vrijednosti, s tim da u matrici vrijednosti nule zamjenjujemo s -1 na jestima gdje ona znai da nema interakcije na sredinjem aminokiselinskom

ostatku. Ova zamjena nije nuna, samo praktina jer klasifikaciju onda konano moemo obavljati gledajui samo predznak izlaza iz neuronske mree. MATLAB funkcije koje obavljaju kodiranje opisane su u Dodatku 1 ( i ). 3.3 Neuronska mrea Trenirali smo nekoliko vieslojnih mrea razliite topologije kako bismo dobili to bolje rezultate. Ulazi mree su 180-bitni vektori koji predstavljaju kodirane uzorke, a izlazni sloj se sastoji od samo jednog neurona i klasificira uzorak kao aktivno ili neaktivno mjesto na lancu. Aktivacijska funkcija svih neurona je sigmoidalna (tansig). Izlazni neuron daje vrijednost u rasponu [-1,1] te se vrijednost 0 uzima kao granica odvajanja klasa. Mrea koristi resilient algoritam uenja s povratnom propagacijom pogreke (trainrp). Ovaj algoritam je relativno spor, ali manje memorijski zahtjevan, to se pokazalo bitnim s obzirom na relativno veliku dimenziju i velik broj uzoraka. Broj skrivenih slojeva i neurona u svakom od skrivenih slojeva mijenjan je s ciljem postizanja to manje pogreke pri treniranju i predvianju. Kao mjera pogreke uenja uzeta je MSE funkcija (Mean Squared Error), dok je kod testiranja kao mjera pogreke raunat omjer pogreno predvienih uzoraka i ukupnog broja predvienih uzoraka, i to za uzorke koji su se nalazili u skupu za uenje kao i za nove uzorke iz skupa za testiranje. Mijenjali smo takoer i broj elemenata i nain izbora elemenata skupa za uenje i testiranje.

Naredbe koritene za inicijalizaciju, treniranje i testiranje mree navedene su u Dodatku 1 (Error: Reference source not found i Error: Reference source not found).

4. Rezultati i rasprava
Kao rezultat projekta dobili smo vie istreniranih neuronskih mrea koje su se razlikovale po nekoliko parametara: broju neurona u skrivenom sloju, skupu uzoraka na kojima su trenirane i testirane, te, naravno, po tonosti uenja i predvianja. Mrea koja je davala najbolje rezultate, tj. najtonije predviala, vieslojni je perceptron sa jednim skrivenim slojem veliine 50 neurona i izlaznim slojem od jednog neurona. Pozitivan izlaz znai da sredinji aminoskiselinski ostatak je, a negativna vrijednost da nije mjesto interakcije. Za manji broj neurona mrea bi presporo uila i openito davala slabije rezlutate za iste poetne uvjete. Vei broj neurona doveo bi pak do pretraivanja prevelikog prostora rjeenja pa bi mrea davala slabije rezultate za uzorke na kojima se testira. Rezultati ove mree prikazani su u tablici 1 i 2 u Dodatku 2. Na temelju rezultata iz tablice vidimo da, iako pogreka nad uzorcima ukupno pada, mrea iteriranjem gubi svojstvo openitosti (postaje pretrenirana) i sve slabije klasificira nepoznate uzorke. Ovaj problem pokuali smo rijeiti smanjenjem broja uzoraka za uenje, ali do znatnijeg poboljanja nije dolo, jer uz manje uzoraka mrea bre ui uzorke iz skupa za uenje, ali

loije nastupa za uzorke iz skupa za testiranje. Mrea s najboljim nastupom nakon treniranja od 2000 iteracija ispravno klasificira oko 85% uzoraka na kojima je testirana i 70% nepoznatih uzoraka. Daljnjim treniranjem broj ispravno klasificiranih testnih uzoraka raste vrlo sporo, a svojstvo openitosti sve se vie gubi.

5. Zakljuak
Ovaj rad pokazuje pokazuje postojanje snanih korelacija izmeu primarne strukture dijelova lanaca proteina i aktivnih mjesta na njima koje se mogu iskoristiti za treniranje neuronske mree. S obzirom na tehniku kojom smo pristupili rjeavanju problema, boljim rezultatima sigurno bi pripomogla vea raznolikost PDB struktura u skupu uzoraka za uenje, iako se ve i ovako metoda moe koristiti kao dopuna ili provjera za rezultate dobivene nekom drugom metodom.

Zahvala
Zahvaljujemo se dr. sc. Mili ikiu za ustupanje uzoraka segmenata proteinskih lanaca s odgovarajuim vrijednostima aktivnih mjesta.

Literatura
[1] Ofran, Y., Rost, B., Predicted protein-protein interaction sites from local sequence information, 2003. [2] Petrovi, J., Automatska izrada testnog skupa za predvianje proteinskih interakcija; zavrni rad, FER, Zagreb, 2008. (4-23)

[3] www.rcsb.org, RSCB PDB baza podataka

Dodatak 1
A. testni_uzorci.arff (jedan redak datoteke)
1A0O,A,ALA,ASP,LYS,GLU,LEU,LYS,PHE,LEU,VAL,0

B. get_samples.m funkcija koja kodira uzorke i zapisuje ih u matricu u novu datoteku


function get_samples() % otvaranje ulazne datoteke file = fopen('testni_uzorci.arff','r'); file_out = fopen ('matrica_kodiranih_uzoraka.txt', 'w'); % citanje linije line = fgetl(file); counter = 0; while line counter = counter +1 % inicijalizacija vektora uzorka pattern = zeros(1,180); % prevoenje aminokiselina u ulazni vektor for i = 0:8 pattern ( 1 , i*20 + conversion(line(8+i*4:10+i*4)) ) = 1; end % dodavanje zeljenog izlaza za trenutni uzorak pattern(181) = line(44)-48; % upis uzorka u datoteku s matricom dlmwrite ('matrica_kodiranih_uzoraka.txt', pattern, '-append'); % citanje sljedece linije line = fgetl(file); end fclose(file); fclose(file_out);

C. conversion.m funkcija za pretvaranje oznake aminokiseline u redni broj


function y = conversion(x) switch x case 'ALA' y=1; case 'ARG' y=2; case 'ASN' y=3;

end

case 'ASP' y=4; case 'CYS' y=5; case 'GLU' y=6; case 'GLN' y=7; case 'GLY' y=8; case 'HIS' y=9; case 'ILE' y=10; case 'LEU' y=11; case 'LYS' y=12; case 'MET' y=13; case 'PHE' y=14; case 'PRO' y=15; case 'SER' y=16; case 'THR' y=17; case 'TRP' y=18; case 'TYR' y=19; case 'VAL' y=20; otherwise disp('Greska u prepoznavanju aminokiseline!')

D. Naredbe za inicijalizaciju i treniranje mree


net = newff(patterns, values, [50 1], {'tansig' 'tansig'}, 'trainrp'); % patterns je matrica uzoraka, values matrica pripadnih vrijednosti. mrea ima dva sloja: skriveni od 50 neurona i izlazni od 1 neurona. net.trainParam.min_grad = 0.000000001; % definiranje monimalnog gradijenta net.trainParam.epochs = 2000; % postavljanje broja epoha uenja train( net, patterns, values ); % treniranje mree za zadani broj epoha

E. Naredba za simuliranje mree


sim ( net, test_patterns);

Dodatak 2
Tablica 1: Rezultati za mreu sa skrivenim slojem od 50 neurona treniranu na dvije treine skupa uzoraka (113462 uzorka)

Broj epoha za uenje: 100 500 1000 1500 2000

Pogreka u Pogreka u skupu za skupu za uenje testiranje 0.2435 0.1999 0.1719 0.1593 0.1467 0.2814 0.299 0.3085 0.3105 0.3141

Srednja kvadratna pogreka 0.698 0.561 0.549 0.522 0.5

Ukupna pogreka meu svim uzorcima 0.256 0.233 0.217 0.21 0.203

Tablica 2: Granine izlazne vrijednosti mree u ovisnosti o broju epoha (eljene vrijednosti: -1, 1):

Broj epoha za uenje: 100 500 1000 1500 2000

Granine izlazne vrijednosti: -0.9687, 0.8555 -0.9975, 0.9847 -0.9999, 0.9992 -1, 0.9996 -1, 1

You might also like