Download as pdf or txt
Download as pdf or txt
You are on page 1of 6

‫‪1‬‬

‫اراﺋﻪ اﻟﮕﻮرﯾﺘﻤﯽ ﺑﻬﯿﻨﻪ ﺟﻬﺖ ﺗﻌﯿﯿﻦ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ‬


‫در ﺗﻮاﻟﯽ ‪DNA‬‬
‫ﺣﻤﯿﺪرﺿﺎ ﺻﺎﺑﺮﮐﺎري‪ ،‬ﻣﻮﺳﯽ ﺷﻤﺴﯽ و ﻣﺤﻤﺪﺣﺴﯿﻦ ﺻﺪاﻗﯽ‬

‫ﺑﯿﻮﻟﻮژﯾﮑﯽ ﻣﻬﻤﯽ از ﺟﻤﻠﻪ ذﺧﯿﺮه و اﻧﺘﻘﺎل اﻃﻼﻋﺎت ژﻧﺘﯿﮏ ﻣﯽﺑﺎﺷﺪ‪ .‬اﯾﻦ‬


‫‪‬‬

‫ﭼﮑﯿﺪه ‪ -‬ﺷﻨﺎﺳﺎﯾﯽ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ در ژنﻫﺎ ﺑﺎ اﺳﺘﻔﺎده از اﺑﺰارﻫﺎي‬


‫ﻣﻠﮑﻮل از دو رﺷﺘﻪ ﭘﻠﯿﻤﺮﺧﻄﯽ ﺗﺸﮑﯿﻞ ﺷﺪه و ﻣﺘﺸﮑﻞ از واﺣﺪﻫﺎي ﻣﻨﻮﻣﺮي‬ ‫اﺑﺰارﻫﺎي ﭘﺮدازش ﺳﯿﮕﻨﺎل در ﺳﺎلﻫﺎي اﺧﯿﺮ ﺑﻪ ﭼﺎﻟﺸﯽ در ﺑﯿﻮاﻧﻔﻮرﻣﺎﺗﯿﮏ ﺗﺒﺪﯾﻞ ﺷﺪه‬
‫اﺳﺖ‪ .‬ﺑﺴﯿﺎري از روشﻫﺎي ﭘﺮدازش ﺳﯿﮕﻨﺎلﻫﺎي ژﻧﻮﻣﯿﮏ ﺑﺮ ﻣﺒﻨﺎي ﺧﺎﺻﯿﺖ ﺗﻨﺎوب‪-‬‬
‫ﺑﻪﻧﺎم ﻧﻮﮐﻠﺌﻮﺗﯿﺪ ﻣﯽﺑﺎﺷﺪ]‪ .[1‬ﺷﮑﻞ‪ 1‬ﺳﺎﺧﺘﺎر ﻣﻠﮑﻮل ‪ DNA‬را ﻧﺸﺎن ﻣﯽدﻫﺪ‪.‬‬
‫‪ 3‬ﺑﺎزﻫﺎي ﻣﻮﺟﻮد در رﺷﺘﻪﻫﺎي ‪ DNA‬ﻣﺘﻤﺮﮐﺰ ﺑﻮده و ﺳﭙﺲ ﺗﺤﻠﯿﻞﻫﺎي ﻃﯿﻔﯽ ﺑﻪﻣﻨﻈﻮر‬
‫ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣﺸﺎﻫﺪه ﻣﯽﺷﻮد‪ ،‬ﻫﺮ ﻣﻠﮑﻮل ﺣﺎوي ﻧﻮﮐﻠﺌﻮﺗﯿﺪﻫﺎي ﻣﺨﺘﻠﻒ ﺑﻮده و‬ ‫ﯾﺎﻓﺘﻦ ﻣﻮﻗﻌﯿﺖ ﻣﻮﻟﻔﻪﻫﺎي ﻣﺘﻨﺎوب ﺑﺮ روي ﺗﻮاﻟﯽﻫﺎي ﻋﺪدي ‪ DNA‬اﻋﻤﺎل ﻣﯽﺷﻮد‪ .‬در‬
‫ﻫﺮ ﻧﻮﮐﻠﺌﻮﺗﯿﺪ از ﺳﻪ ﺑﺨﺶ ﺗﺸﮑﯿﻞ ﺷﺪه اﺳﺖ‪ :‬ﯾﮏ ﻗﻨﺪ ﭘﻨﺞ ﮐﺮﺑﻨﻪ )ﻗﻨﺪ‬ ‫اﯾﻦ ﻣﻘﺎﻟﻪ اﻟﮕﻮرﯾﺘﻤﯽ ﺑﻬﯿﻨﻪ ﺑﺮ ﻣﺒﻨﺎي ﺗﺮﮐﯿﺐ ‪ DFT‬و ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺘﻪ ﺑﻪ ﻣﻨﻈﻮر‬
‫دﺋﻮﮐﺴﯽ رﯾﺒﻮز(‪ ،‬ﯾﮏ ﺗﺎ ﺳﻪ ﮔﺮوه ﻓﺴﻔﺎت ) ‪ (P‬و ﻧﯿﺰ ﯾﮏ ﺑﺎز آﻟﯽ ﻧﯿﺘﺮوژن‪-‬‬ ‫ﺷﻨﺎﺳﺎﯾﯽ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ در ﺗﻮاﻟﯽ ‪ DNA‬اراﺋﻪ ﻣﯽﮐﻨﯿﻢ‪ .‬ﻫﻤﭽﻨﯿﻦ اﺛﺮ ﭘﻨﺠﺮه‪-‬‬
‫ﻫﺎي ﻣﺨﺘﻠﻒ در ﺣﺬف ﻧﻮﯾﺰ ﭘﺲزﻣﯿﻨﻪ ﺑﺮرﺳﯽ ﻣﯽﺷﻮد‪ .‬ﻧﺘﺎﯾﺞ ﺷﺒﯿﻪﺳﺎزي ﺑﺮ روي ﭼﻨﺪ‬
‫دار‪ .‬ﺑﺎزﻫﺎي ﻣﻮﺟﻮد در ﻧﻮﮐﻠﺌﻮﺗﯿﺪﻫﺎ ﻧﯿﺰ ﭼﻬﺎر ﻧﻮع ﻣﺨﺘﻠﻒ دارﻧﺪ ﮐﻪ در ﺷﮑﻞ‪1‬‬
‫ژن ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي ﻣﯽ ﺗﻮان ﻣﻮﻗﻌﯿﺖ اﮐﺴﻮنﻫﺎ را‬
‫ﺷﻨﺎن داده ﺷﺪه اﺳﺖ؛ آدﻧﯿﻦ)‪ (A‬و ﮔﻮاﻧﯿﻦ)‪ (G‬از دﺳﺘﻪ ﭘﻮرﯾﻦﻫﺎ ﺑﻮده و دو‬
‫در ﺗﻮاﻟﯽ ‪ DNA‬ﺑﻪﺧﻮﺑﯽ آﺷﮑﺎر ﻧﻤﻮد‪.‬‬
‫ﺣﻠﻘﻪاي ﻫﺴﺘﻨﺪ و ﺗﯿﻤﯿﻦ)‪ ،(T‬ﺳﯿﺘﻮزﯾﻦ)‪ (C‬از دﺳﺘﻪ ﭘﯿﺮﯾﻤﯿﺪﯾﻦﻫﺎ ﺑﻮده و ﺗﮏ‪-‬‬
‫ﺣﻠﻘﻪاي ﻫﺴﺘﻨﺪ‪ .‬در ﻣﻠﮑﻮل ‪ RNA‬ﺑﺎز ﯾﻮراﺳﯿﻞ)‪ (U‬ﺟﺎﯾﮕﺰﯾﻦ ﺗﯿﻤﯿﻦ )‪ (T‬ﻣﯽ‪-‬‬ ‫ﮐﻠﯿﺪ واژه‪ -‬ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ‪ ،‬ﺗﻨﺎوب‪ ،3-‬ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺘﻪ‪ ،‬اﮐﺴﻮن‪.‬‬
‫ﺷﻮد]‪.[2‬‬
‫‪ -1‬ﻋﻼﺋﻢ اﺧﺘﺼﺎري‬
‫‪DNA: Deoxyribonucleic Acid‬‬
‫‪RNA: Ribonucleic Acid‬‬
‫‪DFT: Discrete Fourier Transform‬‬
‫‪CWT: Continues Wavelet Transform‬‬
‫‪EIIP: Electron Ion Interaction Potential‬‬
‫‪FIR: Finite Impulse Response‬‬

‫‪ -2‬ﻣﻘﺪﻣﻪ‬
‫ژﻧﺘﯿﮏ زﻣﺎﻧﯽ ﺑﻪﻋﻨﻮان ﯾﮏ ﻋﻠﻢ ﻧﻤﻮد ﭘﯿﺪا ﮐﺮد ﮐﻪ ﺑﺸﺮ درﯾﺎﻓﺖ ﻫﯿﭻ‬
‫ﻣﻮﺟﻮدي ﯾﮏ ﮐﭙﯽ از ﺧﻮد را ﺑﻪ ﻧﺴﻞ ﺑﻌﺪ ﻣﻨﺘﻘﻞ ﻧﻤﯽﻧﻤﺎﯾﺪ‪ ،‬ﺑﻠﮑﻪ ﻣﺠﻤﻮﻋﻪاي‬
‫از اﻃﻼﻋﺎت را ﺑﻪﻧﺴﻞ ﺑﻌﺪ ﻣﻨﺘﻘﻞ ﻣﯽﮐﻨﺪ ﮐﻪ وﯾﮋﮔﯽﻫﺎي ﻣﺘﻔﺎوﺗﯽ را در ﻧﺴﻞ‬
‫ﺑﻌﺪ از ﺧﻮد اﯾﺠﺎد ﻣﯽﮐﻨﺪ‪ .‬داﮐﺴﯽ رﯾﺒﻮﻧﻮﮐﻠﺌﯿﮏ اﺳﯿﺪ )‪ (DNA‬از ﮐﻠﯿﺪيﺗﺮﯾﻦ‬
‫و اﺻﻠﯽﺗﺮﯾﻦ ﺗﺮﮐﯿﺒﺎت ﺷﯿﻤﯿﺎﺋﯽ در ﺳﻠﻮلﻫﺎي ﺟﺎﻧﺪاران‪ ،‬ﺑﺎﮐﺘﺮيﻫﺎ و ﺑﺮﺧﯽ‬
‫ﺷﮑﻞ ‪ :1‬ﺳﺎﺧﺘﺎر ﻣﻮﻟﮑﻮل ‪DNA‬‬
‫وﯾﺮوسﻫﺎ ﻣﯽﺑﺎﺷﺪ‪ .‬ﯾﮏ رﺷﺘﻪ ‪ DNA‬ﻣﻠﮑﻮل ﻃﻮﯾﻠﯽ از ﺧﺎﻧﻮاده‬
‫ﺑﯿﻮﭘﻠﯿﻤﺮﻫﺎﺳﺖ ﮐﻪ اﻃﻼﻋﺎت ژﻧﺘﯿﮑﯽ را ﺣﻤﻞ ﻣﯽﮐﻨﺪ و داراي وﻇﺎﯾﻒ‬
‫در ﯾﻮﮐﺎرﯾﻮتﻫﺎ ‪ DNA‬ﺑﻪ دو ﻧﺎﺣﯿﻪ ژﻧﯽ و ﺑﯿﻦ ژﻧﯽ ﺗﻘﺴﯿﻢ ﻣﯽﺷﻮد‪ .‬ﺗﻨﻬﺎ‬
‫ﻧﺎﺣﯿﻪ ژﻧﯽ ﯾﺎ ﺑﻪ اﺧﺘﺼﺎر ژن اﻃﻼﻋﺎت را ﺑﺮاي ﺳﻨﺘﺰ ﭘﺮوﺗﺌﯿﻦﻫﺎ ﺣﻤﻞ ﻣﯽﮐﻨﺪ‪.‬‬
‫ﻫﺮ ژن ﻧﯿﺰ ﺑﻪ ﻧﻮﺑﻪ ﺧﻮد ﻣﺘﺸﮑﻞ از ﻧﻮاﺣﯽ اﮐﺴﻮن ‪ 1‬و اﻧﺘﺮون ‪ 2‬ﻣﯽﺑﺎﺷﺪ ﮐﻪ در‬
‫ﺣﻤﯿﺪرﺿﺎ ﺻﺎﺑﺮﮐﺎري‪ ،‬داﻧﺸﮕﺎه ﺻﻨﻌﺘﯽ ﺳﻬﻨﺪ‪ ،‬داﻧﺸﮑﺪه ﺑﺮق‪ ،‬ﺗﺒﺮﯾﺰ ) ‪email:‬‬
‫ﺷﮑﻞ‪ 2‬ﻧﺸﺎن داده ﺷﺪه اﺳﺖ‪ .‬ﺑﻨﺎﺑﺮاﯾﻦ اﮐﺴﻮنﻫﺎ ﮐﺪﻫﺎي ﻻزم را ﺑﺮاي ﺗﻮﻟﯿﺪ‬ ‫‪(h_saberkari@sut.ac.ir‬‬
‫ﻣﻮﺳﯽ ﺷﻤﺴﯽ‪ ،‬داﻧﺸﮕﺎه ﺻﻨﻌﺘﯽ ﺳﻬﻨﺪ‪ ،‬داﻧﺸﮑﺪه ﺑﺮق‪ ،‬ﺗﺒﺮﯾﺰ ) ‪email:‬‬
‫‪(shamsi@sut.ac.ir‬‬
‫‪1‬‬
‫‪Exon‬‬ ‫ﻣﺤﻤﺪﺣﺴﯿﻦ ﺻﺪاﻗﯽ‪ ،‬داﻧﺸﮕﺎه ﺻﻨﻌﺘﯽ ﺳﻬﻨﺪ‪ ،‬داﻧﺸﮑﺪه ﺑﺮق‪ ،‬ﺗﺒﺮﯾﺰ ) ‪email:‬‬
‫‪2‬‬
‫‪Intron‬‬ ‫‪(sedaaghi@sut.ac.ir‬‬
‫‪2‬‬

‫‪ -4‬اﺳﺘﻔﺎده از ‪ DFT‬در ﺗﻌﯿﯿﻦ ﻣﻮﻟﻔﻪﻫﺎي ﺗﻨﺎوب‪3-‬‬ ‫ﭘﺮوﺗﺌﯿﻦ ﺣﻤﻞ ﻣﯽﮐﻨﻨﺪ‪ ،‬از اﯾﻦرو ﺑﻪ آنﻫﺎ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ ﻣﯽﮔﻮﯾﻨﺪ‪.‬‬
‫ﺗﻨﻬﺎ ﺣﺪود ‪ 2‬اﻟﯽ ‪ 5‬درﺻﺪ از ﮐﻞ ‪ DNA‬اﻧﺴﺎن را ﻧﻮاﺣﯽ ژﻧﯽ ﺗﺸﮑﯿﻞ ﻣﯽدﻫﺪ‪.‬‬
‫از ‪ DFT‬ﺑﺮاي ﺗﺤﻠﯿﻞ ﻃﯿﻔﯽ ﺗﻮاﻟﯽ ﻋﺪدي ‪ DNA‬ﺑﺎ ﻃﻮل ﻣﺤﺪود اﺳﺘﻔﺎده‬
‫ﻣﯽﺷﻮد‪ .‬ﻃﺒﻖ ﺗﻌﺮﯾﻒ ﺑﺮاي ﯾﮏ ﺑﻠﻮك )‪ x(n‬ﺑﻪ ﻃﻮل ‪ DFT ،N‬ﻋﺒـﺎرت اﺳـﺖ‬
‫از]‪:[6‬‬
‫‪N 1‬‬
‫‪ j2 kn‬‬
‫‪X[k ]   x (n ) w (n ) e N ,0  k  N  1‬‬ ‫)‪(1‬‬
‫‪n 0‬‬

‫ﮐﻪ )‪ w(n‬ﭘﻨﺠﺮهاي ﺑﻪ ﻃﻮل ‪ N‬اﺳﺖ‪ .‬ﺑﺎ ﻣﺤﺎﺳﺒﻪ ‪ DFT‬ﺑﺮاي دﻧﺒﺎﻟﻪ ]‪X[k‬‬ ‫ﺷﮑﻞ‪ : 2‬ﻧﻮاﺣﯽ اﮐﺴﻮن‪ -‬اﻧﺘﺮون در ‪ DNA‬ﯾﻮﮐﺎرﯾﻮﺗﯽ‬
‫ﻃﯿﻒ ﺗﻮاﻟﯽ ‪ DNA‬ﻋﺒﺎرت اﺳﺖ از‪:‬‬
‫] ‪S [k ]  X [k‬‬
‫‪2‬‬ ‫)‪(2‬‬ ‫ﯾﮑﯽ از ﻣﺤﺮكﻫﺎي اﺳﺎﺳﯽ در اﺳﺘﻔﺎده از اﺑﺰارﻫﺎي ﭘﺮدازش ﺳﯿﮕﻨﺎل در‬
‫ﺑﻪﻣﻨﻈﻮر ﺗﻌﯿﯿﻦ ﻣﻮﻟﻔﻪ ﺗﻨﺎوب‪) 3-‬در ﻓﺮﮐﺎﻧﺲ =‪ ،(f‬ﻣﯽﺗﻮان ﻣﻘﺪار ﻃﯿﻒ‬ ‫ژﻧﻮﻣﯿﮏ‪ ،‬ﯾﺎﻓﺘﻦ ﺗﻨﺎوبﻫﺎي ﭘﻨﻬﺎن و ﯾﺎ اﻟﮕﻮﻫﺎي ﻧﻮﺳﺎنﮐﻨﻨﺪه در ﺗﻮاﻟﯽﻫﺎي‬
‫]‪ S[k‬را در ﻧﻘﻄﻪ =‪ K‬ﺑﺎ ﻓﺮض اﯾﻨﮑﻪ ﻃﻮل ‪ N‬ﻣﻀﺮﺑﯽ ازﺳﻪ اﺳﺖ‪ ،‬ﻣﺤﺎﺳﺒﻪ‬ ‫ژﻧﯽ اﺳﺖ ﮐﻪ ﺗﻮﺳﻂ ‪ Trifonove‬در ]‪ [3‬ﺑﻪﻋﻨﻮان ﺗﻨﺎوبﻫﺎي ‪200 ،10/5 ،3‬‬
‫ﮐﺮد‪ .‬اﮔﺮ ﺗﻮاﻟﯽ ‪ DNA‬ﻣﺘﻌﻠﻖ ﺑﻪ ﯾﮏ ﻧﺎﺣﯿﻪ ﭘﺮوﺗﺌﯿﻨﯽ ﺑﺎﺷﺪ ]‪ S[K‬در داراي‬ ‫و ‪ 400‬ﺑﺎز ﺗﻮﺻﯿﻒ ﺷﺪه اﺳﺖ‪ .‬در ﻣﯿﺎن آنﻫﺎ ﺧﺎﺻﯿﺖ ﺗﻨﺎوب‪ 3-‬ﺑﻪﻋﻨﻮان ﯾﮏ‬
‫ﻣﻘﺪار ﭘﯿﮏ ﺑﻮده در ﺣﺎﻟﯿﮑﻪ اﯾﻦ ﭘﯿﮏ در ﻧﻮاﺣﯽ ﻏﯿﺮﭘﺮوﺗﺌﯿﻨﯽ ﻣﺸﺎﻫﺪه ﻧﻤﯽ‪-‬‬ ‫ﻣﺸﺨﺼﻪ اﺻﻠﯽ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ در ﺗﻮاﻟﯽﻫﺎي ﯾﻮﮐﺎرﯾﻮت و ﭘﺮﯾﮑﺎرﯾﻮت‬
‫ﺷﻮد‪ .‬ﻧﮑﺘﻪ ﻣﻬﻢ ﺗﻌﯿﯿﻦ ﻃﻮل ﭘﻨﺠﺮه )‪ (N‬اﺳﺖ‪ .‬ﻣﻘﺪار ‪ N‬را ﺑﺎﯾﺪ ﺑﺰرگ در ﻧﻈﺮ‬ ‫ﺷﻨﺎﺧﺘﻪ ﻣﯽﺷﻮد‪ .‬اﯾﻦ ﺧﺎﺻﯿﺖ ﻣﯽﺗﻮاﻧﺪ ﺑﻪﻋﻠﺖ اﺳﺘﻔﺎده ﻏﯿﺮﻫﻤﮕﻦ از ﮐﺪونﻫﺎ‬
‫ﮔﺮﻓﺖ ﮐﻪ در اﯾﻨﺼﻮرت ﭘﯿﮏﻫﺎي اﯾﺠﺎد ﺷﺪه ﻧﺎﺷﯽ از ﺧﺎﺻﯿﺖ ﺗﻨﺎوﺑﯽ ﺑﺮ ﻧﻮﯾﺰ‬ ‫ﺑﺎﺷﺪ‪ .‬اﯾﻦ ﺑﺪﯾﻦ ﻣﻌﻨﯽ اﺳﺖ ﮐﻪ ﺑﺎ وﺟﻮد اﯾﻨﮑﻪ ﭼﻨﺪ ﮐﺪون ﻣﻤﮑﻦ اﺳﺖ ﯾﮏ‬
‫ﭘﺲزﻣﯿﻨﻪ ﻏﻠﺒﻪ ﻣﯽﮐﻨﺪ‪ .‬از ﻃﺮﻓﯽ ﻃﻮل ﭘﻨﺠﺮه را ﻧﺒﺎﯾﺪ زﯾﺎد ﺑﺰرگ در ﻧﻈﺮ‬ ‫اﺳﯿﺪ آﻣﯿﻨﻪ ﺧﺎص را رﻣﺰدﻫﯽ ﮐﻨﻨﺪ‪ ،‬ﻫﻤﻪ آنﻫﺎ ﺑﺎ اﺣﺘﻤﺎل ﯾﮑﺴﺎﻧﯽ در ﻣﻮﺟﻮدات‬
‫ﮔﺮﻓﺖ زﯾﺮا اﯾﻦ ﮐﺎر ﺑﺎﻋﺚ اﻓﺰاﯾﺶ ﻣﺤﺎﺳﺒﺎت و در ﻧﺘﯿﺠﻪ ﮐﺎﻫﺶ رزوﻟﻮﺷﻦ‬ ‫زﻧﺪه ﻇﺎﻫﺮ ﻧﻤﯽﺷﻮﻧﺪ‪ .‬ﻣﺜﻼ ﻧﻮﮐﻠﺌﻮﺗﯿﺪ ‪ G‬در ﻣﻮﻗﻌﯿﺖﻫﺎي ﺧﺎﺻﯽ در ﮐﺪونﻫﺎي‬
‫ﺑﺮاي ﺗﻌﯿﯿﻦ ﻣﻮﻗﻌﯿﺖﻫﺎي اﺑﺘﺪاﯾﯽ و اﻧﺘﻬﺎﯾﯽ اﮐﺴﻮن ﺧﻮاﻫﺪ ﺷﺪ‪ .‬ﻣﻘﺪار ﭘﯿﺸﻨﻬﺎد‬ ‫ﻧﻮاﺣﯽ اﮐﺴﻮن ﺟﺎ ﻣﯽﮔﯿﺮد]‪.[4‬‬
‫ﺷﺪه ﺑﺮاي ‪ N‬در ﻣﻘﺎﻻت ﺑﺮاﺑﺮ ‪ 351‬اﺳﺖ ﮐﻪ ﻣﺎ ﻧﯿﺰ در اﯾﻦ ﻣﻘﺎﻟﻪ از اﯾﻦ ﻣﻘﺪار‬ ‫در اﯾﻦ ﻣﻘﺎﻟﻪ اﻟﮕﻮرﯾﺘﻤﯽ ﺑﺮ ﻣﺒﻨﺎي ﺗﺮﮐﯿﺐ ‪ DFT‬و ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺘﻪ‬
‫اﺳﺘﻔﺎده ﮐﺮدهاﯾﻢ]‪.[7‬‬ ‫ﺑﻪﻣﻨﻈﻮر ﺷﻨﺎﺳﺎﯾﯽ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ در ﺗﻮاﻟﯽ ‪ DNA‬اراﺋﻪ ﻣﯽﮐﻨﯿﻢ‪.‬‬
‫ﻫﻤﭽﻨﯿﻦ اﺛﺮ ﭘﻨﺠﺮهﻫﺎي ﻣﺨﺘﻠﻒ در ﺣﺬف ﻧﻮﯾﺰ ﭘﺲزﻣﯿﻨﻪ ﺑﺮرﺳﯽ ﻣﯽﺷﻮد‪.‬‬
‫‪ -5‬اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي‬ ‫ﭘﯿﮑﺮﺑﻨﺪي ﻣﻘﺎﻟﻪ ﺑﻪﺻﻮرت زﯾﺮ اﺳﺖ‪ :‬در ﺑﺨﺶ‪ 3‬ﻧﮕﺎﺷﺖ ‪ EIIP‬ﺑﻪﻋﻨﻮان روش‬
‫در اﯾﻦ ﺑﺨﺶ اﻟﮕﻮرﯾﺘﻤﯽ ﺑﻬﯿﻨﻪ ﺟﻬﺖ ﺗﻌﯿﯿﻦ ﻣﮑﺎن ﻧﻮاﺣﯽ ﭘﺮوﺗﺌﯿﻦ ﺑﺮ‬ ‫ﺑﻪﮐﺎر رﻓﺘﻪ در اﯾﻦ ﻣﻘﺎﻟﻪ ﺑﻪﻣﻨﻈﻮر ﺗﺒﺪﯾﻞ ﺗﻮاﻟﯽﻫﺎي ‪ DNA‬ﺑﻪ ﺳﯿﮕﻨﺎلﻫﺎي‬
‫ﻣﺒﻨﺎي ﺗﺮﮐﯿﺐ ‪ DFT‬و ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺘﻪ اراﺋﻪ ﻣﯽﺷﻮد‪ .‬ﺟﺰﺋﯿﺎت ﻣﺮﺑﻮط ﺑﻪ‬ ‫ﻋﺪدي ﻣﻌﺮﻓﯽ ﻣﯽﺷﻮد‪ .‬در ﺑﺨﺶ‪ 4‬از ﺗﺒﺪﯾﻞ ‪ DFT‬ﺑﻪﻣﻨﻈﻮر ﺗﻌﯿﯿﻦ ﻣﻮﻟﻔﻪﻫﺎي‬
‫اﯾﻦ اﻟﮕﻮرﯾﺘﻢ در ﺷﮑﻞ‪ 3‬ﻧﺸﺎن داده اﺳﺖ‪.‬‬ ‫ﺗﻨﺎوب‪ 3-‬در ﺗﻮاﻟﯽ ‪ DNA‬اﺳﺘﻔﺎده ﻣﯽﮐﻨﯿﻢ‪ .‬در ﺑﺨﺶ‪ 5‬اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي‬
‫ﺑﻪﻣﻨﻈﻮر ﺣﺬف ﻧﻮﯾﺰ ﻓﺮﮐﺎﻧﺲ ﺑﺎﻻ در ﻃﯿﻒ ﻓﻮرﯾﻪ ﺗﻮاﻟﯽ ‪ DNA‬و در ﻧﺘﯿﺠﻪ‬ ‫ﺑﺮ ﻣﺒﻨﺎي ﺗﺮﮐﯿﺐ ‪ DFT‬و ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﻣﻌﺮﻓﯽ و ﺑﻪ ﻣﻨﻈﻮر ﺑﻬﺒﻮد ﮐﯿﻔﯿﺖ‬
‫ﺑﻬﺒﻮد ﮐﯿﻔﯿﺖ ﺗﺨﻤﯿﻦ ﻧﻮاﺣﯽ ژﻧﯽ از ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺖ اﺳﺘﻔﺎده ﮐﺮده و‬ ‫ﺗﺨﻤﯿﻦ اﺛﺮ ﭘﻨﺠﺮهﻫﺎي ﻣﺨﺘﻠﻒ در ﺗﻌﯿﯿﻦ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ ﺑﺮرﺳﯽ ﻣﯽ‪-‬‬
‫آنرا ﺑﺮروي ]‪ S[k‬اﻋﻤﺎل ﻣﯽﮐﻨﯿﻢ‪ .‬اﯾﻦ ﺗﺒﺪﯾﻞ ﺑﻪﺻﻮرت ﺟﻤﻊ ﺑﺮروي ﻫﻤﻪ‬ ‫ﺷﻮد‪ .‬ﻧﺘﺎﯾﺞ ﺷﺒﯿﻪﺳﺎزي ﺑﺮ روي ﭼﻨﺪ ژن در ﭘﺎﯾﮕﺎه ‪ Genebank‬در ﺑﺨﺶ‪6‬‬
‫زﻣﺎن ﺳﯿﮕﻨﺎل ﺗﻌﺮﯾﻒ ﻣﯽﺷﻮد ﮐﻪ در ﻧﺴﺨﻪﻫﺎي ﺗﻮزﯾﻦ ﺷﺪه‪ 1‬و اﻧﺘﻘﺎل ﯾﺎﻓﺘﻪ از‬ ‫ﻣﻮرد ﺑﺮرﺳﯽ ﻗﺮار ﮔﺮﻓﺘﻪ و ﻧﻬﺎﯾﺘﺎ ﺑﺨﺶ‪ 7‬ﺷﺎﻣﻞ ﺟﻤﻊﺑﻨﺪي از ﻣﻘﺎﻟﻪ و ﻧﺘﯿﺠﻪ‪-‬‬
‫ﺗﺎﺑﻊ وﯾﻮﻟﺖ ﺿﺮب ﺷﺪه اﺳﺖ‪ .‬ﺿﺮاﯾﺐ اﯾﻦ ﺗﺒﺪﯾﻞ ﺑﻪﺻﻮرت زﯾﺮ ﺗﻌﺮﯾﻒ ﻣﯽ‪-‬‬ ‫ﮔﯿﺮي اﺳﺖ‪.‬‬
‫ﺷﻮد]‪:[8‬‬
‫‪1‬‬ ‫)‪(3‬‬ ‫‪ -3‬ﺗﺒﺪﯾﻞ ﺗﻮاﻟﯽﻫﺎي ‪ DNA‬ﺑﻪ ﺳﯿﮕﻨﺎلﻫﺎي دﯾﺠﯿﺘﺎل‬
‫‪xb‬‬
‫‪W‬‬‫‪(a , b) ‬‬
‫‪f‬‬ ‫‪‬‬ ‫( ‪S[ k]‬‬ ‫‪)dx‬‬
‫‪a‬‬ ‫‪a‬‬ ‫‪R‬‬
‫در اﯾﻦ ﻣﻘﺎﻟﻪ از ﻧﮕﺎﺷﺖ ‪ EIIP‬ﺑﺮاي ﺗﺒﺪﯾﻞ ﺗﻮاﻟﯽ ﻧﻮﮐﻠﺌﻮﺗﯿﺪﻫﺎ ﺑﻪ ﺳﯿﮕﻨﺎل‬
‫ﮐﻪ در آن ‪ Ψ‬ﺗﺎﺑﻊ ﮐﺎوش‪ 2‬ﺑﻮده و در اﯾﻦ ﻣﻘﺎﻟﻪ از ﺗﺎﺑﻊ ‪ Symlet‬اﺳﺘﻔﺎده ﺷﺪه‬ ‫ﻋﺪدي اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ‪ .‬اﯾﻦ روش ﺑﺮ اﺳﺎس ﻧﯿﺮوي ﻣﺘﻘﺎﺑﻞ اﻟﮑﺘﺮون‪ -‬ﯾﻮن‬
‫اﺳﺖ‪ a ،‬ﺑﻪ ﻋﻨﻮان ﯾﮏ ﻣﻘﯿﺎس زﻣﺎﻧﯽ ﻣﻄﺮح اﺳﺖ و ‪ b‬ﺑﺮاي اﻧﺘﻘﺎل )‪ x(t‬در‬ ‫در ﻫﺮ ﻧﻮﮐﻠﺌﻮﺗﯿﺪ ﺗﻌﺮﯾﻒ ﻣﯽﺷﻮد‪ .‬ﻣﻘﺎدﯾﺮ ‪ EIIP‬ﺑﺮاي ﻫﺮ ﻧﻮﮐﻠﺌﻮﺗﯿﺪ ﻋﺒﺎرت‬
‫ﻃﻮل زﻣﺎن ‪ t‬اﺳﺘﻔﺎده ﻣﯽﺷﻮد‪ .‬ﻫﻤﭽﻨﯿﻦ ﻋﺎﻣﻞ ﻧﺮﻣﺎﻟﯿﺰاﺳﯿﻮن √ ﺗﻀﻤﯿﻦ ﻣﯽ‪-‬‬ ‫اﺳﺖ از‪ T =0/1335 ،G =0/0806 ،A=0/1260 :‬و ‪.[5] C =0/1340‬‬
‫ﮐﻨﺪ ﮐﻪ اﻧﺮژي ﺑﺮاي ﺗﻤﺎم ﻣﻘﺎدﯾﺮ ‪ a‬ﯾﮑﺴﺎن ﺧﻮاﻫﺪ ﺑﻮد‪.‬‬

‫‪1‬‬
‫‪Scaled version‬‬
‫‪2‬‬
‫‪Probing Function‬‬
‫‪3‬‬

‫ﺟﺪول‪ : 1‬ﻣﺸﺨﺼﺎت ﭘﻨﺠﺮهﻫﺎي ‪[6] FIR‬‬ ‫ﻓﺮاﺧﻮاﻧﯽ ﺗﻮاﻟﯽ ‪DNA‬‬

‫ﺗﺒﺪﯾﻞ ﺗﻮاﻟﯽ ‪ DNA‬ﺑﻪ ﺳﯿﮕﻨﺎل ﻋﺪدي ﺑﺎ اﺳﺘﻔﺎده از روش ‪EIIP‬‬

‫ﺗﻮاﻟﯽﻫﺎي ﻋﺪدي ‪ C ،T ،A‬و ‪G‬‬

‫اﻧﺘﺨﺎب ﭘﻨﺠﺮه ‪ w‬ﺑﻪﻃﻮل ‪ 351‬و ﻟﻐﺰاﻧﺪن آن ﺑﺮ روي ﻫﺮ‬


‫ﯾﮏ از ﺗﻮاﻟﯽﻫﺎي ﻋﺪدي‬

‫اﻋﻤﺎل ‪ DFT‬و ﻣﺤﺎﺳﺒﻪ ﻃﯿﻒ ]‪ S[k‬ﺑﺮ اﺳﺎس رواﺑﻂ )‪ (1‬و‬


‫)‪ (2‬ﺑﻪﻣﻨﻈﻮر ﺗﻌﯿﯿﻦ ﻣﻮﻟﻔﻪﻫﺎي ﺗﻨﺎوب‪3-‬‬

‫ﺷﮑﻞ‪ : 4‬ﻣﻘﺎﯾﺴﻪ ﭘﺎﺳﺦ ﻓﺮﮐﺎﻧﺴﯽ ﭘﻨﺠﺮهﻫﺎي ‪FIR‬‬


‫آﯾﺎ ﭘﻨﺠﺮه ﺑﻪ اﻧﺘﻬﺎي ﺗﻮاﻟﯽ ‪ DNA‬رﺳﯿﺪه‬
‫ﺧﯿﺮ‬
‫اﺳﺖ؟‬
‫ﻧﺘﺎﯾﺞ ﺷﺒﯿﻪﺳﺎزي‬ ‫‪-6‬‬
‫ﺑﻠﯽ‬
‫ﺑﻪﻣﻨﻈﻮر ﻣﻘﺎﯾﺴﻪ دو روش ‪ DFT‬و اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي از ژنﻫﺎي‬
‫‪ AF009962 ،AF019074.1 ،AF016052 ،F56F11.4‬و ‪AJ223321.1‬‬ ‫اﻋﻤﺎل ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺘﻪ ﺑﻪ ]‪ S[k‬ﺑﺮ اﺳﺎس ﻣﻌﺎدﻟﻪ‬
‫ﻣﻮﺟﻮد درﭘﺎﯾﮕﺎه داده ‪ Genebank‬اﺳﺘﻔﺎده ﻣﯽﮐﻨﯿﻢ‪ .‬ﺗﻮاﻟﯽ اﯾﻦ ژنﻫﺎ ﺑﻪﺗﺮﺗﯿﺐ‬ ‫)‪ (3‬و رﺳﺎﻧﺪن ﺿﺮاﯾﺐ وﯾﻮﻟﺖ ﺑﻪ ﻣﻘﯿﺎس ‪a‬‬
‫داراي ﻃﻮل ‪ 7422 ،6350 ،9700 ،9833‬و ‪ 5321‬ﺟﻔﺖ ﺑﺎز ﺑﻮده و ‪1 ،3 ،3 ،5‬‬
‫و ‪ 1‬ﻧﺎﺣﯿﻪ ژﻧﯽ در آنﻫﺎ وﺟﻮد دارد]‪ .[9‬ﺷﮑﻞ‪ 5‬ﻧﻤﻮدار ﻣﯿﻠﻪاي درﺻﺪ ﺣﻀﻮر‬
‫ﺗﻌﯿﯿﻦ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ در ﻧﻘﺎط ﭘﯿﮏ‬
‫ﻧﻮﮐﻠﺌﻮﺗﯿﺪﻫﺎ را ﺑﺮﺣﺴﺐ ﻓﺮﮐﺎﻧﺲ آنﻫﺎ ﺑﻪﺗﺮﺗﯿﺐ در ژنﻫﺎي ﻧﻤﻮﻧﻪ‬
‫‪ AF016052 ،F56F11.4‬و ‪ AF019074.1‬ﻧﺸﺎن ﻣﯽدﻫﺪ‪ .‬از اﯾﻦ ﻧﻤﻮدار‬ ‫ﺷﮑﻞ‪ : 3‬ﺑﻠﻮك دﯾﺎﮔﺮام اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي‬
‫ﻣﯽﺗﻮان ﺑﻪﻣﻨﻈﻮر ﻣﺤﺎﺳﺒﻪ ﻋﺪدي ﻣﻘﺪار ﻣﺤﺘﻮاي ‪ G+C‬در ﻧﻮاﺣﯽ ﭘﺮوﺗﺌﯿﻨﯽ‬
‫اﺳﺘﻔﺎده ﻧﻤﻮد‪ .‬اﯾﻦ ﻣﻘﺪار ﺑﺮاي ژنﻫﺎي ﻣﻄﺮح ﺷﺪه ﺑﻪﺗﺮﺗﯿﺐ ﺑﺮاﺑﺮ ‪0/39 ،0/34‬‬ ‫‪ -1-5‬ﺑﺮرﺳﯽ اﺛﺮ ﭘﻨﺠﺮهﻫﺎي ﻣﺨﺘﻠﻒ در ﺣﺬف ﻧﻮﯾﺰ‬
‫و ‪ 0/55‬ﻣﯽﺑﺎﺷﺪ‪ .‬ﺷﮑﻞﻫﺎي‪ 6‬و ‪ 7‬ﺑﻪﺗﺮﺗﯿﺐ ﻣﻘﺎﯾﺴﻪ روش‪ DFT‬و اﻟﮕﻮرﯾﺘﻢ‬ ‫ﺑﻪﻣﻨﻈﻮر ﺑﺮرﺳﯽ اﺛﺮ ﭘﻨﺠﺮهﻫـﺎي ‪ FIR‬در ﺣـﺬف ﻧـﻮﯾﺰ ﭘـﺲﻣﯿﻨـﻪ‪ ،‬ﭘﻨﺠـﺮه‬
‫ﭘﯿﺸﻨﻬﺎدي را در ﺣﺬف ﻧﻮﯾﺰ ﭘﺲزﻣﯿﻨﻪ و ﻫﻤﭽﻨﯿﻦ ﻧﻮاﺣﯽ ﻏﯿﺮﭘﺮوﺗﺌﯿﻨﯽ در دو‬ ‫ﻣﺴﺘﻄﯿﻠﯽ را ﺑﺎ اﻧﻮاع دﯾﮕﺮ ﭘﻨﺠﺮهﻫﺎي ﻧﺸـﺎن داده ﺷـﺪه در ﺟـﺪول‪ 1‬ﺟـﺎﯾﮕﺰﯾﻦ‬
‫ﺣﺎﻟﺖ ﭘﻨﺠﺮه ﻣﺴﺘﻄﯿﻠﯽ و ‪ Blackman‬ﻧﺸﺎن ﻣﯽدﻫﺪ‪ .‬در ﻫﺮ دو روش از‬ ‫داﻣﻨـﻪ ﻧﺴـﺒﯽ ﺑﺰرﮔﺘـﺮﯾﻦ ﻟـﻮب ﮐﻨـﺎري‪Δω ،‬‬ ‫ﻣﯽﮐﻨﯿﻢ‪ .‬در اﯾﻦ ﺟـﺪول‬
‫ﭘﻨﺠﺮه ﺑﻪ ﻃﻮل‪ 351‬اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ‪ .‬ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣﺸﺎﻫﺪه ﻣﯽﺷﻮد اﻟﮕﻮرﯾﺘﻢ‬ ‫ﭘﻬﻨﺎي ﺗﻘﺮﯾﺒﯽ ﻟﻮب اﺻﻠﯽ‪ β ،‬ﭘﻨﺠﺮه ﮐﯿﺰر ﻫﻢ ارز و ‪ Δ‬ﭘﻬﻨﺎي ﮔـﺬر ﭘﻨﺠـﺮه‬
‫ﭘﯿﺸﻨﻬﺎدي ﻧﺴﺒﺖ ﺑﻪ روش ‪ DFT‬ﻧﻮﯾﺰ ﭘﺲزﻣﯿﻨﻪ و ﻧﻮاﺣﯽ ﻏﯿﺮﭘﺮوﺗﺌﯿﻨﯽ را ﺑﻪ‬ ‫ﮐﯿﺰر ﻫﻢ ارز اﺳﺖ‪ .‬ﭘﺎﺳﺦ ﺿﺮﺑﻪ ﻓﯿﻠﺘﺮ ‪ Blackman‬ﺑﻪﺻﻮرت زﯾﺮ ﺗﻌﺮﯾـﻒ ﻣـﯽ‪-‬‬
‫ﻣﯿﺰان زﯾﺎدي ﺣﺬف ﻣﯽﮐﻨﺪ‪.‬‬ ‫ﺷﻮد]‪:[6‬‬
‫‪ 42 1‬‬
‫‪‬‬ ‫‪ cos‬‬
‫‪2n‬‬
‫‪‬‬
‫‪8‬‬
‫(‪cos‬‬
‫‪4n‬‬
‫‪),0  n  L  1‬‬ ‫)‪(4‬‬
‫ﻧﺘﯿﺠﻪ ﮔﯿﺮي‬ ‫‪-7‬‬
‫‪100 2‬‬ ‫‪L‬‬ ‫‪100‬‬ ‫‪L‬‬
‫‪‬‬ ‫‪0, othewise‬‬

‫در اﯾﻦ ﻣﻘﺎﻟﻪ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﯾﺘﻢ ﺗﺮﮐﯿﺒﯽ ‪ DFT‬و ﺗﺒﺪﯾﻞ ﻣﻮﺟﮏ ﭘﯿﻮﺳﺘﻪ‬ ‫ﺷﮑﻞ‪ 4‬ﭘﺎﺳﺦ ﻓﺮﮐﺎﻧﺴﯽ ﭘﻨﺠﺮهﻫﺎي ﻣﺨﺘﻠﻒ ‪ FIR‬را ﻧﺸﺎن ﻣﯽدﻫﺪ‪.‬‬
‫ﺑﻪ ﺗﻌﯿﯿﻦ ﻣﮑﺎن ﭘﺮوﺗﺌﯿﻦﻫﺎ در ﺗﻮاﻟﯽ ‪ DNA‬ﭘﺮداﺧﺘﯿﻢ‪ .‬ﺑﻪﻣﻨﻈﻮر از ﺑﯿﻦ ﺑﺮدن‬ ‫ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣﺸﺎﻫﺪه ﻣﯽﮐﻨﯿﻢ ﭘﻨﺠﺮه ﻣﺴﺘﻄﯿﻠﯽ داراي ﺑﺎرﯾﮏﺗﺮﯾﻦ ﻟﻮب اﺻﻠﯽ‬
‫ﮐﺎﻣﻞ ﻧﻮﯾﺰ ﭘﺲزﻣﯿﻨﻪ از ﭘﻨﺠﺮه ‪ Blackman‬ﺑﺠﺎي ﭘﻨﺠﺮه ﻣﺴﺘﻄﯿﻠﯽ اﺳﺘﻔﺎده‬ ‫و در ﻧﺘﯿﺠﻪ ﮐﻤﺘﺮﯾﻦ ﻣﯿﺰان ﺗﻀﻌﯿﻒ و ﭘﻨﺠﺮه ‪ Blackman‬داراي ﺑﯿﺸﺘﺮﯾﻦ‬
‫ﻧﻤﻮدﯾﻢ‪ .‬اﯾﻦ ﭘﻨﺠﺮه ﺑﻪ دﻟﯿﻞ اﺧﺘﺼﺎص دادن وزن زﯾﺎد ﺑﻪ ﮐﺪونﻫﺎي ﻣﻮﺟﻮد در‬ ‫ﻣﯿﺰان ﺗﻀﻌﯿﻒ ﻟﻮب اﺻﻠﯽ اﺳﺖ‪ .‬ﻫﺮﭼﻪ اﯾﻦ ﻣﯿﺰان ﺗﻀﻌﯿﻒ ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ﺣﺬف‬
‫ﻣﺮﮐﺰ ﭘﻨﺠﺮه ﻧﺴﺒﺖ ﺑﻪ ﭘﻨﺠﺮه ﻣﺴﺘﻄﯿﻠﯽ ﻧﺘﯿﺠﻪ ﺑﻬﺘﺮي ﺑﻪدﺳﺖ ﻣﯽدﻫﺪ‪ .‬ﻃﻮل‬ ‫ﻧﻮﯾﺰ ﭘﺲزﻣﯿﻨﻪ ﺑﻬﺘﺮ اﻧﺠﺎم ﻣﯽﮔﯿﺮد‪.‬‬
4

All positions
0.35 0.35
1st positions 2nd postitions
0.35 0.35
3rd positions ‫ اﻧﺘﺨﺎب اﯾﻦ ﻃﻮل‬.‫ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪه ﺑﻮد‬351 ‫ﭘﻨﺠﺮه ﺑﮑﺎررﻓﺘﻪ در اﯾﻦ ﻣﻘﺎﻟﻪ‬
0.3 0.3 0.3 0.3
-‫ ﺗﺮﮐﯿﺐ ﺗﮑﻨﯿﮏ‬.‫ﻧﻤﯽﺗﻮاﻧﺪ ﻧﻮاﺣﯽ ﭘﺮوﺗﺌﯿﻨﯽ ﺑﺎ اﺑﻌﺎد ﮐﻮﭼﮏ را ﺷﻨﺎﺳﺎﯾﯽ ﮐﻨﺪ‬
‫ﻫﺎي ﭘﯿﺸﺮﻓﺘﻪ ﭘﺮدازش ﺳﯿﮕﻨﺎل ﺑﺎ اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي ﻣﯽﺗﻮاﻧﺪ ﻣﻨﺠﺮ‬
0.25 0.25 0.25 0.25
‫ﺑﻪ ﺷﻨﺎﺳﺎﯾﯽ دﻗﯿﻖﺗﺮ ﻣﻮﻗﻌﯿﺖ ﻧﻮاﺣﯽ ﮐﺪﮐﻨﻨﺪه ﭘﺮوﺗﺌﯿﻦ ﺑﺮاي ﻫﺮﻧﻤﻮﻧﻪ‬
Frequency (%)

0.2 0.2 0.2 0.2


.‫ ﺑﺎ ﺻﺮف ﮐﻤﺘﺮﯾﻦ زﻣﺎن و ﭘﯿﭽﯿﺪﮔﯽ ﻣﺤﺎﺳﺒﺎﺗﯽ ﮔﺮدد‬DNA ‫از ﺗﻮاﻟﯽ‬
0.15 0.15 0.15 0.15
DNA ‫ﻫﺪف ﻣﺎ در ﮐﺎرﻫﺎي آﺗﯽ ﻣﻄﺎﻟﻌﻪ اﺛﺮ ﻃﻮلﻫﺎي ﻣﺘﻐﯿﺮ ﭘﻨﺠﺮه روي ﺗﻮاﻟﯽ‬
0.1 0.1 0.1 0.1
‫و ﻫﻤﭽﻨﯿﻦ اراﺋﻪ اﻟﮕﻮرﯾﺘﻢﻫﺎي ﻣﻄﻠﻮبﺗﺮ ﺟﻬﺖ ﺷﻨﺎﺳﺎﯾﯽ دﻗﯿﻖ ﻣﻮﻗﻌﯿﺖ‬
0.05 0.05 0.05 0.05
.‫ اﺳﺖ‬DNA ‫اﮐﺴﻮنﻫﺎ و ﺗﺤﻠﯿﻞ ﺳﺎﺧﺘﺎر‬
0 0 0 0
A C G T A C G T A CG T A CG T
All positions 1st positions 2nd postitions 3rd positions
0.35 0.35 0.35 0.35
(‫)ج‬
0.3 0.3 0.3 0.3

:‫ ﻧﻤﻮدار ﻣﯿﻠﻪاي درﺻﺪ ﺣﻀﻮر ﻧﻮﮐﻠﺌﻮﺗﯿﺪﻫﺎ در ژنﻫﺎي‬:5 ‫ﺷﮑﻞ‬


0.25 0.25 0.25 0.25
.AF019074.1 (‫ ج‬،AF016052 (‫ ب‬،F56F11.4 (‫اﻟﻒ‬

Frequency (%)
0.2 0.2 0.2 0.2

F56F11.4 0.15 0.15 0.15 0.15


0.5
DFT
Proposed method
CodingRegion 0.1 0.1 0.1 0.1
Period-3 power spectrum

0.4

0.3 0.05 0.05 0.05 0.05

0.2 0 0 0 0
A CGT A CGT ACGT A CGT

0.1

(‫)اﻟﻒ‬
0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Relative base location, n All positions 1st positions 2nd postitions 3rd positions
0.35 0.35 0.35 0.35
(‫)اﻟﻒ‬
0.3 0.3 0.3 0.3
AF016052
1.4
Frequency (%)

DFT 0.25 0.25 0.25 0.25


1.2 Proposed method
Period-3 power spectrum

CodingRegion
1 0.2 0.2 0.2 0.2

0.8
0.15 0.15 0.15 0.15
0.6

0.4 0.1 0.1 0.1 0.1

0.2
0.05 0.05 0.05 0.05
0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Relative base location, n
0 0 0 0
ACGT ACGT ACGT ACGT
( ‫)ب‬
AF019074.1 (‫)ب‬
0.7
DFT
0.6 Proposed method
CodingRegion
Period-3 power spectrum

0.5

0.4

0.3

0.2

0.1

0
0 1000 2000 3000 4000 5000 6000 7000
Relative base location, n

(‫)ج‬
5

AF019074.1 AF009962
0.5 0.35
DFT DFT
Proposed method 0.3 Proposed method
0.4
Period-3 power spectrum

CodingRegion CodingRegion

Period-3 power spectrum


0.25
0.3
0.2

0.2 0.15

0.1
0.1
0.05
0
0 1000 2000 3000 4000 5000 6000 7000 0
Relative base location, n 0 1000 2000 3000 4000 5000 6000 7000 8000
Relative base location, n
(‫)ج‬
(‫) د‬
AF009962 AJ223321.1
0.35
0.12
DFT
DFT
0.3 Proposed method
0.1 Proposed method
CodingRegion

Period-3 power spectrum


CodingRegion
Period-3 power spectrum

0.25
0.08
0.2
0.06
0.15

0.04 0.1

0.02 0.05

0
0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
0 1000 2000 3000 4000 5000 6000 7000 8000 Relative base location, n
Relative base location, n
(‫) ه‬
(‫)د‬ ‫ و اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي ﺑﺎ اﻧﺘﺨﺎب ﭘﻨﺠﺮه‬DFT ‫ ﻣﻘﺎﯾﺴﻪ روش‬: 6‫ﺷﮑﻞ‬
AJ223321.1 (‫ ج‬،AF016052 (‫ ب‬،F56F11.4 (‫ اﻟﻒ‬:‫ﻣﺴﺘﻄﯿﻠﯽ در ژنﻫﺎي‬
0.12
DFT .AJ223321.1 (‫ د‬،AF009964 (‫ د‬،AF019074.1
Proposed method
0.1 CodingRegion
Period-3 power spectrum

F56F11.4
0.08
0.35
DFT
0.06 0.3 Proposed method
Period-3 power spectrum

CodingRegion
0.25
0.04
0.2
0.02
0.15

0 0.1
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Relative base location, n
0.05
( ‫)ه‬ 0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Relative base location, n

‫ و اﻟﮕﻮرﯾﺘﻢ ﭘﯿﺸﻨﻬﺎدي ﺑﺎ اﻧﺘﺨﺎب ﭘﻨﺠﺮه‬DFT ‫ ﻣﻘﺎﯾﺴﻪ روش‬: 7 ‫ﺷﮑﻞ‬ (‫)اﻟﻒ‬

(‫ ج‬،AF016052 (‫ ب‬،F56F11.4 (‫اﻟﻒ‬: ‫ در ژنﻫﺎي‬Blackman


AF016052.txt
0.4
DFT
.AJ223321.1 (‫ د‬،AF009964 (‫ د‬،AF019074.1 Proposed method
Period-3 power spectrum

CodingRegion
0.3

‫ﻣﺮاﺟﻊ‬ 0.2

[1] Snustad D.P. and Simmons M.J., Principles of Genetics, John 0.1
Wiley & Sons Inc., 2000.
[2] Dougherty E. R, et al., Genomic signal processing and 0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
statistics, EURASIP Book Series on Signal Processing and Relative base location, n
Communications, 2005.
( ‫)ب‬
[3] Trinfonov EN, “3- 10.5-, 200- and 400 base periodicities in
genome sequences,” Physica A, vol. 249, pp. 511-516, 1998.
[4] Wan X.F., Xu D., Kleinhofs A. and Zhou J., “Quantitative
relationship between synonymous codon usage bias and GC
composition across unicellular genomes”, BMC Evolutionary
Biology, vol. 4, no. 19, 2004.
6

[5] K.D. Rao and M.N.S. Swamy “Analysis of genomics and


proteomics using DSP techniques,” IEEE Transactions on
Circuits and Systems, vol. 55, no. 1, pp. 370-378, 2008.
[6] Oppenheim A.V. and Schafer R.W., Discrete Time Signal
Processing, Prentice Hall, Inc, NJ, 1999.
[7] Anastassiou D., “Genomic signal processing”, IEEE Signal
Processing Magazine, vol. 18, pp.8-20, 2001.
[8] Deng S., et al., “Prediction of Protein Coding Regions by
Combining Fourier and Wavelet Transform”, 3rd International
Congress of Image and Signal Processing (CISP2010), pp.
4113- 4117, 2010.
[9] National Center for Biotechnology Information National
Institutes of Health, National Library of Medicine,
http://www.ncbi.nlm.nih.gov/Genebank/index.html.

You might also like