Professional Documents
Culture Documents
Klasyczne Metody QUSAR
Klasyczne Metody QUSAR
1
Część VI: Klasyczne metody QSAR
Aktywność biologiczna
Rys.7.1: Zakres typowych zastosowań różnych technik opisu zależności struktura - aktywność
n
Free-Wilsona (F-W), jedna z dwóch pierwszych technik
SKR ŷ j y j 2
min
QSAR, znajduje zastosowanie w przypadku jakościowego
j1
opisu struktury chemicznej poprzez informacje o obecności
Wartości ai dobierane (obliczane) są tak, aby spełniony był
określonych podstawników w określonych miejscach rdzenia
warunek minimum SKR.
cząsteczki.
Jednym z problemów występujących przy analizie
Druga z najdłużej stosowanych metod QSAR, metoda
regresji jest dobór ilości i rodzaju zmiennych niezależnych z
Hanscha, wymaga ilościowego opisu właściwości
występujących w równaniu regresji. Wymaga się zwykle, aby
fizykochemicznych analizowanych związków.
wszystkie człony równania były statystycznie istotne. Jednym
Do klasyfikacji i określania podobieństwa badanych
ze sposobów uzyskania równania regresji spełniającego ten
związków wykorzystuje się techniki matematyczne zwane
wymóg jest zastosowanie tzw. metody
"rozpoznawaniem obrazów". W przypadku, gdy podział na
o d r z u c a n i a . Obliczenia rozpoczyna się od równania
klasy znany jest przed wykonaniem obliczeń mamy do
zawierającego wszystkie człony. Po wyznaczeniu
czynienia z techniką "z nauczycielem", a zadanie sprowadza
współczynników ai określa się ich istotność statystyczną. O ile
się do określenia reguł klasyfikacji. Gdy podział na grupy nie
występują człony nieistotne usuwa się człon najmniej istotny i
jest narzucony to odpowiednie techniki określane są mianem
ponownie wyznacza współczynniki, tym razem już tylko k-1
"bez nauczyciele" i służą do określenia podobieństwa
współczynników. Usuwanie najmniej istotnych członów i
pomiędzy poszczególnymi związkami należącymi do
obliczanie nowych współczynników powtarza się tak długo, aż
analizowanego zbioru. Celem metod bez nauczyciele jest
wszystkie człony pozostające w równaniu regresji będą
często wykrycie tendencji pewnych elementów zbioru
statystycznie istotne.
związków do tworzenia mniej lub bardziej spójnych grup czy
Innym wymogiem stawianym prawidłowemu
klas.
równaniu regresji jest jego istotność jako całości. Najczęściej
W przypadku gdy choć jeden z opisów (aktywności
stosowaną miarą tej istotności jest statystyka F Snedecora.
lub struktury) opiera się na bardzo licznym zestawie wielkości
Uzyskanie równania charakteryzującego się wartością F
(baterii testów) zwykłe metody regresyjne zawodzą. Stosuje
większą od krytycznej wskazuje, że równanie jako całość jest
się wtedy technikę zwaną analizą głównych składowych dla
statystycznie wiarygodne i może być użyte do przewidywania
zredukowania liczby wielkości opisujących. Po takiej redukcji
wartości zmiennej zależnej (aktywności) na podstawie
znanych wartości zmiennych niezależnych. Informacje o
2
Część VI: Klasyczne metody QSAR
precyzji obliczania wartości zmiennej zależnej zawarte są w Równanie jako całość jest statystycznie bardzo istotne,
innych wskaźnikach statystycznych obliczanych równolegle z jednakże człon kwadratowy i sześcienny są nieistotne. Zgodnie
wartościami współczynników. Odchylenie standardowe z metodą odrzucania usuwamy człon najmniej istotny (w
naszym przypadku człon sześcienny) i powtarzamy obliczenia
równania, s, podaje przeciętne odchylenie standardowe (Tab.VIII.2.).
prognozowanych wartości zmiennej zależnej. Rzeczywisty
błąd prognozowanych wartości zależy nie tylko od jakości Tab.VIII.2. Wynik rozwiązania równania regresji bez członu
równania, ale również od wartości zmiennych niezależnych w sześciennego.
prognozowanym punkcie. Jego miarą jest wartość promienia i współczynnik odchylenie istotność
korytarza błędu w danym punkcie. Cenne informacje niesie ai standardowe
również współczynnik korelacji równania, r, a szczególnie 0 153,01 0,92 406,35
jego kwadrat zwany współczynnikiem determinacji. Określa 1 0,6118 0,0087 169,26
on jaki ułamek ogólnej zmienności zmiennej zależnej wyjaśnić
2 -0,092 0,016 11,75
można przy pomocy danego równania regresji.
Przy pomocy metody najmniejszych kwadratów s = 0,874 F = 101 243 R = 1,000
wyznaczać można nie tylko wartości współczynników w
liniowych równaniach regresji, ale również współczynniki w Po usunięciu członu sześciennego otrzymujemy równanie o
równań regresji krzywoliniowej. Najczęściej spotykanym bardzo podobnych charakterystykach statystycznych, z tym, że
przykładem takiej regresji jest tzw. regresja wielomianowa.
wszystkie jego człony są statystycznie istotne.
Zmienna zależna opisywana jest w niej równaniem:
================================================
y j ŷ j a 0 a 1 z j a 2 z 2j a 3 z 3j ... a k z kj
8.1. Metoda Free-Wilsona
Jeśli w równaniu tym potraktujemy poszczególne potęgi
zmiennej z jako zmienne niezależne to otrzymamy typowe NHR
1
równanie regresji liniowej. Tak więc również w przypadku
regresji krzywoliniowej zachowują moc omówione powyżej
mierniki istotności statystycznej i jakości prognozy. R3 R
2
N
Przykład 8.1: Zależność regresyjna. Rys.8.2: Struktura serii pochodnych akrydyny
3
Część VI: Klasyczne metody QSAR
W przypadku ogólnym założenie takie nie A i a j X ij o
wytrzymuje próby weryfikacji: znamy wiele przykładów gdy j
podstawniki wzmacniają lub znoszą swój wpływ w zależności gdzie: i - numer związku
od wzajemnego usytuowania. Widać to szczególnie wyrażnie j - numer podstawnikopozycji
w przypadku pochodnych związków aromatycznych: dwa, Ai - aktywność i-tego związku
odpowiednio dobrane podstawniki w pozycji orto mogą aj - wkład podstawnikopozycji do aktywności
tworzyć dla siebie wzajemnie zawadę przestrzenną; z koleji Xij - obecność podstawnikopozycji j w związku i
podstawniki w pozycji para mogą wywierać na siebie wpływ Wyjaśnienia wymaga określenie podstawnikopozycja.
poprzez efekty indukcyjne i/lub rezonansowe Ponieważ ten sam podstawnik umieszczony w różnych
Znane są jednak również bardzo liczne przykłady, gdy efekty pozycjach może wywierać różny wpływ na aktywność, więc
podstawników po prostu sumują się. Metoda zaproponowana należy określić niezależnie wpływ danego podstawnika w
przez Free i Wilsona nie jest więc podejściem uniwersalnym i każdej z pozycji w której może występować. Takie połączenie
wymaga w każdym indywidualnym przypadku potwierdzenia podstawnika z pozycją w strukturze bazowej w której
słuszności założenia o a d d y t y w n o ś c i w p ł y w u występuje nazywamy właśnie podstawnikopozycją.
podstawników. W przypadku analizowanych wcześniej pochodnych
Przyjmując słuszność tego założenia możemy zbudować akrydyny możemy mieć np. sytuację przedstawioną w
matematyczny model analizowanej zależności: Tab.VIII.3
Tab.VIII.3: Przykładowy zestaw podstawników jakie wystąpić mogą w pochodnych akrydyny (Rys.8.3) i odpowiadające im
podstawnikopozycje.
pozycja podstawnik j pozycja podstawnik j pozycja podstawnik j
8 OH 28
Mamy więc 28 podstawnikopozycji. Rozstrzygnięcia wymaga Na podstawie teorii modeli regresyjnych można przyjąć, że
teraz problem liczby związków jakie należy zsyntetyzować, dostatecznie dobre modele zależności otrzymuje się w sytuacji
aby wiarygodnie określić wpływ każdej podstawnikopozycji gdy Nrzecz jest większe lub równe Nmin + , gdzie wartość
na aktywność padanych pochodnych. Oddzielnym problemem powinna wynosić od 10 do 20. Tak więc w przypadku
jest taki dobór syntetyzowanych związków, aby przy danej ich analizowanych pochodnych akrydyny dla poprawnego
liczbie N otrzymać jak najwięcej, jak najbardziej wiarygodnej zastosowania metody Free-Wilsona należy dysponować serią
informacji o zależnościach struktura - aktywność. ok. 50 pochodnych (28 + 1 +20). W pierwszym momencie
Ponieważ model zaproponowany przez Free i może się to wydawać dużo, należy jednak pamiętać że
Wilsona jest liniowy ze względu na nieznane wartości aj budujemy model opisujący aktywność ponad 26 tysięcy
można więc go zidentyfikować (wyznaczyć nieznane wartości związków.
parametrów modelu) przy pomocy metody regresyjnej. Wiedząc już, ile powinna liczyć seria związków
Bezwzględnie minimalna liczba związków niezbędnych dla niezbędna dla wyznaczenia wpływu podstawnikopozycji
jednoznacznego wyznaczenia współczynników modelu należy rozstrzygnąć kwestię które z bardzo licznego zestawu
wynosi: możliwych pochodnych powinny zostać użyte do identyfikacji
Nmin = Z + 1 modelu. Nie ma tu, bo i nie może być, jednoznacznego
gdzie: Z - liczba podstawnikopozycji. algorytmu doboru związków. Istnieje za to kilka reguł którym
Model izdentyfikowany w oparciu o taki minimalny zestaw powinien podlegać zbiór pochodnych aby tworzony model
związków nie posiada wszakże żadnej zdolności miał dobre właściwości prognostyczne. I tak:
prognostycznej: odtwarza on d o k ł a d n i e (wraz z każda podstawnikopozycja powinna wystąpić
błędami pomiarowymi) aktywności związków na podstawie conajmniej w dwóch związkach. Jeszcze korzystniejsze jest
których został zidentyfikowany, ale błąd oszacowania gdy występuje w trzech lub czterech związkach. Zaczyna
aktywności innego związku jest nieokreślony. Dopiero wtedy działać statystyczne uśrednianie przypadkowych
zastosowanie liczby związków większej od Nmin pozwala z błędów wyznaczania aktywności i model nabiera zdolności
jednej strony na wyeliminowanie błędów pomiarowych, a z prognostycznych.
drugiej na statystyczne oszacowanie przedziału ufności należy unikać związków podstawionych tylko w
prognozy (korytarza błędu). Ponadto w przypadku jednej pozycji. Zbyt duża liczba takich związków utrudnia
n i e z n a c z n y c h odstępstw od wymogu addytywności spełnienie poprzedniej reguły. Jest to wymóg sprzeczny z
wpływu podstawników dostatecznie duża liczba związków tendencją obowiązującą w badaniach SAR w których dąży się
pozwala na zachowanie rozsądnych zdolności do indywidualnego określenia wpływu każdego elementu
prognostycznych modelu Free-Wilsona. struktury.
4
Część VI: Klasyczne metody QSAR
krotność występowania poszczególnych podstawnikopozycji. Z numerycznego punktu widzenia
podstawnikopozycji powinna być podobna. Przedział ufności oznacza to, że kolumny macierzy danych powinny być
wpływu podstawnikopozycji zależy m.in. od krotności jej możliwie ortogonalne (niezależne od siebie). Jeśli to tylko
występowania. Duże zróżnicowanie krotności możliwe podstawniki powinny być dobierane losowo.
podstawnikopozycji powoduje, że niektóre z wpływów będą Reguły te odbiegają na tyle istotnie od tradycyjnego
wyznaczone z błędem dużo większym niż inne. Ponieważ zestawu związków projektowanych dla badań SAR, że zwykle
zwykle z góry nie wiadomo która podstawnikopozycja jest dla prawidłowego zastosowania metody Free-Wilsona należy
istotna dla aktywności nie zachowanie tej reguły grozi przewidzieć jej zastosowanie już na etapie projektowania serii
powstaniem sytuacji gdy wpływ ważnej podstawnikopozycji związków (przed rozpoczęciem syntez). Przykładowy
określony zostanie z niedostatecznę precyzją. fragment tablicy podstawnikopozycji dla omawianych
należy unikać korelacji podstawnikopozycji, tzn. pochodnych akrydyny przedstawia Tab.VIII.4:
nadmiernie częstego występowania pewnej kombinacji
Należy zwrócić uwagę, że nie może wystąpić addytywność będzie istotnie większa niż wariancja oznaczeń.
sytuacja gdy w jednym związku występuje więcej niż jedna Hipotezę o adekwatności modelu testujemy testem 2:
podstawnikopozycja dla tej samej pozycji. Ponadto, w
omawianym przykładzie przyjęto założenie, że w każdym z
y i ŷ i 2
2 i
pierścieni (pozycje 14 i 58) może w danym związku
2e
wystąpić tylko jeden podstawnik.
Uzyskanie statystycznie istotnego rozwiązania gdzie: 2e - wariancja oznaczeń aktywności.
równania regresji jest jedynie pierwszym etapem metody Sumę kwadratów różnic można wygodnie obliczyć ze wzoru:
Free-Wilsona. Należy teraz sprawdzić, czy w tym konkretnym
przykładzie uzyskany model spełnia założenie o addytywności
y i ŷ i 2 s 2 N Z 1
i
wpływu podstawników. Z punktu widzenia statystyki problem
gdzie: s - odchylenie standardowe równania regresji
sprowadza się do weryfikacji hipotezy o adekwatności
N - liczba związków
modelu. Jeśli model jest adekwatny to wariancja resztowa
Z - liczba podstawnikopozycji.
modelu nie powinna być większa od wariancji oznaczeń
Hipotezę o adekwatności modelu, czyli o addytywności
aktywności. W przypadku nieaddytywnego wpływu
wpływu podstawników, odrzucamy jeśli:
podstawników wariancja resztowa modelu zakładającego
5
Część VI: Klasyczne metody QSAR
2
2, N Z 1 H
O N
obliczona wartość statystyki 2 nie jest mniejsza od wartości X
krytycznej znalezionej w tablicach dla poziomu istotności i R5
N-Z-1 stopni swobody. W przeciwnym przypadku nie ma
podstaw do odrzucenia testowanej hipotezy.
Jeśli potwierdzone zostanie założenie o R2 N
addytywności wpływu podstawników, to uzyskany model Jako pierwszy rozważymy symulowany przykład
regresyjny stanowi wiarygodne narzędzie do przewidywania addytywnego wpływu podstawników w pochodnych kwasu
aktywności innych pochodnych. Szybkim sposobem 4-pirydylokarboksylowego (rysunek obok). Modyfikacje
wyszukania pochodnej o przypuszczalnie najwyższej chemiczne dotyczą terminalnego podstawnika w łańcuchu
aktywności jest przegłąd wartości wpływów amidu (X) oraz w pozycjach 2 (R2) i 5 (R5) pierścienia
podstawnikopozycji. Należy przy tym pamiętać, że dla każdej pirydynowego. Obecna w łańcuchu amidu grupa hydroksylowa
może występować w formie wolnej (X = OH), jako eter
pozycji wybieramy podstawnik o największym wpływie.
metylowy (X = OMe) lub ester acetylowy (X = OAc). W pozycji 2
Pozwala to zaproponować syntezę przypuszczalnie bardzo występować może chlor, grupa metylowa, aminowa lub nitrowa,
aktywnego związku. Ponadto dla tego związku możemy a w pozycji 5 chlor, grupa metylowa, aminowa lub
wyznaczyć na podstawie równania regresji jego hydroksylowa. Tak więc liczba podstawnikopozycji w
przypuszczalną aktywność. analizowanej serii pochodnych wynosi 3 + 4 + 4 = 11.
Zsyntetyzowano 25 pochodnych spełniających omówione
powyżej reguły.
Przykład 8.2: Zastosowanie metody Free-Wilsona:
dane symulowane, przypadek addytywny.
Tab.VIII.5. Tablica podstawnikopozycji i aktywności biologicznej pochodnych kwasu 4-pirydylokarboksylowego (dane symulowane)
Nr X R2 R5 Akt.
krotn. 5 6 5 5 4 6 5 4 4 4 4
6
Część VI: Klasyczne metody QSAR
Po zastosowaniu metody Free-Wilsona powstał układ 25 H
równań z 12 niewiadomymi (11 współczynników przy O N
podstawnikopozycjach + wyraz wolny). OH
Rozwiązanie tego układu z wykorzystaniem algorytmu
odrzucania doprowadziło do modelu zawierającego 11 istotnych
Cl
parametrów:
7
Część VI: Klasyczne metody QSAR
2
20 0,437 o 2,76 0,07
2 2
381,94
0,1
N = 28 Z=7 s = 0,075
wobec wartości krytycznej 2 31,41 . Ponieważ wartość
0,05;20 F = 172,45 F0,05;7;20 = 2,87
obliczona jest większa od wartości krytycznej, więc model D = R2 = 0,984 R = 0,992
j e s t n i e a d e k w a t n y . Tym samym wykazano, że 2 = 26,627 20,05;20 = 31,41
istnieje oddziaływanie pomiędzy podstawnikami, a więc ich
wpływ nie jest addytywny. Uzyskane równanie jest statystycznie istotne,
Można zauważyć, że pomimo nieadekwatności wyjaśnia ponad 98% zmienności aktywności i opisuje
modelu struktura pochodnej o przypuszczalnie najwyższej adekwatny model. Jednakże płynące z niego wnioski nie są
aktywności przewidziana jest poprawnie: jest to ta sama zbyt budujące dla autorów omawianej pracy: z modelu wynika
pochodna co w Przykładzie 8.2. Co więcej przewidywana bowiem, że praktycznie żadna z badanych pochodnych
aktywność tej pochodnej A = 4,50,69 jest bardzo bliska acylowych nie daje nadziei na uzyskanie pochodnej o wyższej
poprzedniej prognozie (4,470,16). Sytuacja taka występuje aktywności. Jedyny dodatni wkład do aktywności wnosi
wtedy, gdy odstępstwa od addytywności nie dotyczą kombinacji obecność dodatkowej grupy hydroksylowej (R4).
podstawników o najsilniejszym wkładzie do aktywności. W przypadku szczepu K. pneumonia stwierdzono
================================================ podobne zależności struktura - aktywność:
= Poz. Podst. Wkład do Promień
aktywności przedziału
Od czasu zaproponowania metody przez Free i ufności
Wilsona była ona testowana nie tylko na danych R1 For ---
symulacyjnych (jak powyżej), ale również na licznych R1 Ac -0,10 0,05
przykładach rzeczywistych. Jeden z takich przykładów
zostanie omówiony poniżej. R2 For -0,16 0,06
R2 Ac -0,44 0,07
Przykład 8.4.: Zastosowanie metody Free-Wilsona: R2 Pro -0,60 0,10
dane rzeczywiste.
R3 For -0,17 0,09
Me NMe
2
R3 Ac -0,55 0,07
O R O
1
OH R3 Pro -0,69 0,13
Me
R O Me Me R4 OH
3 O O ---
R o 2,94 0,05
4 Me O
Me Me
Et O
O N = 27 Z=7 s = 0,061
Me F = 153,59 F0,05;7;19 = 2,87
OR D = R2 = 0,983 R = 0,991
O 2
Me OMe 2 = 16,73 20,05;19 = 30,14
Analizowany przykład ten dotyczy serii pochodnych antybiotyku Podstawowa różnica polega na tym, że wpływ dodatkowej
przeciwbakteryjnego erytromycyny B. Modyfikacje dotyczyły grupy hydroksylowej jest w przypadku K. pneumonia
wybiórczego acylowania trzech grup hydroksylowych (R1 i R2 w statystycznie nieistotny. Tym samym w przypadku tego
cukrach i R3 w pierścieniu makrolidowym) oraz obecności lub drobnoustroju żaden z elementów struktury erytromycyny B
braku dodatkowej grupy hydroksylowej w pierścieniu analizowanych w omawianej pracy nie wnosi dodatniego
makrolidowym (R4). Jako pochodne grup hydroksylowych wpływu do aktywności.
stosowano: ================================================
R1 formyl (For) lub acetyl (Ac)
R2 For, Ac lub propionyl (Pro) 8.2. Metoda Hanscha.
R3 For, Ac lub Pro. Poważnym ograniczeniem metody Free-Wilsona jest
W tej sytuacji minimalna liczba pochodnych wynosi: Nmin = 1 fakt, że optymalizacja obejmuje tylko te podstawnikopozycje,
+2 + 23 + 1 = 10. W rzeczywistych modelach stosowano 28 które występują w badanych związkach. Innym ograniczeniem
lub 27 pochodnych. Aktywność wyznaczana była w formie jest wymóg jednoczesnych zmian w kilku miejscach struktury
pIC50 na szczepach S.aureus i K.pneumonia z odchyleniem
bazowej. Wad tych pozbawiona jest inna metoda regresyjna
standardowym e = 0,065.
Aktywność w stosunku do S.aureus wyznaczono dla zaproponowana w latach '60 przez Hanscha i Fujitę. Istotą tej
28 pochodnych. Po zastosowaniu metody Free-Wilsona wraz z metody jest założenie, że o aktywności biologicznej decydują
algorytmem odrzucania uzyskano wyniki: właściwości fizykochemiczne związków.
Fakt ten znany był od dziesiątków lat. Istniały jednak dwa
Poz. Podst. Wkład do Promień
aktywności przedziału podstawowe problemy:
ufności i) ile i jakie właściwości wpływają na aktywność
R1 For --- biologiczną
ii) jak i l o ś c i o w o opisać wpływ tych właściwości.
R1 Ac -0,15 0,06 Zasługą Hanscha i Fujity było zaproponowanie logicznego
R2 For -0,28 0,07 zestawu cech fizykochemicznych oraz wykazanie (prace
R2 Ac -0,65 0,08 Hanscha), że cechy te rzeczywiście wpływają na aktywność
biologiczną bardzo różnorodnych grup związków. Autorzy
R2 Pro -0,74 0,13
zaproponowali i uzasadnili w oparciu o podstawowe prawa
R3 For --- biofizyki konieczność zastosowania do opisu zależności
R3 Ac -0,56 0,09 struktura - aktywność 3 parametrów fizykochemicznych:
parametru lipofilowego opisującego zdolność
R3 Pro -0,67 0,16
związku do przenikania przez błony biologiczne i tym samym
R4 OH 0,21 0,07 charakteryzującego właściwości transportowe i resorpcyjne
związku
8
Część VI: Klasyczne metody QSAR
parametru elektronowego podstawników lub najlepszy, bezpośredni miernik lipofilowości. W zespole
cząsteczki jako całości. Parametr taki opisuje rozkład gęstości Hanscha w trakcie wyznaczania wartości współczynników
elektronowej w cząsteczce, a tym samym reaktywność podziału stwierdzono dla wielu podstawników, że ich wpływ
związku i jego zdolność do elektrostatycznego oddziaływania na logP jest stały i niezależny zarówno od struktury bazowej
z celem molekularnym. do której ten podstawnik jest przyłączony jak i od obecności
parametru sterycznego opisującego geometrię innych podstawników. Wyrażając to samo inaczej, obserwacja
cząsteczki, a w szczególności zawadę przestrzenną w ta sugerowała, że wpływ podstawników na lipofilowość ma
sąsiedztwie miejsc reaktywnych lub ogólną wielkość i kształt charakter addytywny. Dalsze, szczegółowe prace zespołu
cząsteczki. Umożliwia to uwzględnienie dopasowania związku Hanscha doprowadziły do potwierdzenia tej hipotezy i
do jego celu komórkowego. zaproponowania nowej stałej charakteryzującej podstawnik:
W pierwszych swoich pracach Hansch zastosował stałej lipofilowości . Definiowana jest ona dla danego
najprostszy z możliwych modeli opisujących zależność podstawnika X jako:
aktywności biologicznej od właściwości fizykochemicznych - = logPX - logPH
model liniowy: gdzie: PX - współczynnik podziału związku
logA = ao + a1L + a2E + a3S podstawionego
gdzie: A - aktywność biologiczna PH -współczynnik podziału związku
L - parametr lipofilowy niepodstawionego
E - parametr elektronowy Wartości stałych lipofilowości dla częściej spotykanych
S - parametr steryczny. podstawników przedstawia poniższa tabela.
Wykazano, że model ten, pomimo swego skrajnego
prymitywizmu, całkiem dobrze (adekwatnie) opisuje wiele Tab.VIII.8. Wartości stałych lipofilowości dla częściej
przypadkach obserwowanych zależności spotykanych podstawników
struktura - aktywność. Stwierdzono również, że w znacznej
Podstawnik Podstawnik
liczbie przypadków zależność aktywności biologicznej od
lipofilowości nie jest liniowa, lecz charakteryzuje się Br 0,86 CHO -0,65
obecnością wyraźnego maksimum. W tej sytuacji Hansch CH3 0,50 CH=NOH -0,38
rozszerzył swój model dodając do niego człon kwadratowy. CH2 0,50 COCH3 -0,55
Powstało w ten sposób tzw. pełne równanie Hanscha o CF3 0.88 CONH2 -1,49
postaci: etyl 1,02 COOCH3 -0,01
logA = ao + a1L + a2L2 + a3E + a4S
propyl 1,55 COOCH2CH3 0,51
Wartości liczbowe współczynników ai oblicza się metodą i-propyl 1,53 CH2COOH -0,72
regresji wielorakiej (ang. Multiple Regression Analysis MRA).
CH2OH -1,03 CH2CONH2 -1,68
Ponieważ równanie Hanscha ma służyć m.in. do celów
prognostycznych (przewidywanie aktywności nowych CH2NH2 -1,04 CH2COOCH3 -0,69
pochodnych), więc podstawowym wymogiem jest CCH 0,40 4-pirydyl 0,32
wiarygodność uzyskanych wartości współczynników. Jednym CN -0,57 fenyl 1,89
z podstawowych wielkości określających tą wiarygodność jest
liczba związków w badanej serii. Z rozważań statystycznych
Hansch zaproponował również sposób obliczania logP dla
wynika, że powinno ich być conajmniej po 4 5 na każdy całych związków bazując na danych dla kilkudziesięciu
parametr. W przypadku pełnego równania Hanscha oznacza to
związków bazowych, wartościach podstawników oraz
potrzebę użycia 5 4 = 20 związków. poprawkach na wiązania wielokrotne i rozgałęzienia. Np. :
Dla danej serii związków należy przede wszystkim określić
wiązanie podwójne = -0,30
czy wszystkie człony równania mają statystycznie istotny
wiązanie potrójne = -0,52
wpływ na aktywność. Dokonuje się tego poprzez ocenę
istotności wsółczynników równania. Ostateczne równanie rozgałęzienie = -0,20
powinno być: CH2 w pierścieniu = 0,41
istotne jako całość: test F Snedecora -CH=CH-CH=CH- = 1,35
posiadać tylko istotne współczynniki: dla każdego System ten posiadał jednak szereg niedogodności. Przede
współczynnika test t Studenta wszystkim dla uwzględnienia wpływu sąsiedztwa
być adekwatne: test 2. podstawników wymagał bardzo rozbudowanego systemu
W metodzie Hanscha kluczową rolę odgrywa poprawek, co w połączeniu z drugim mankamentem:
poprawny dobór właściwości fizykochemicznych niejednoznacznością, czyniło go metodą obarczoną dużą dozą
korelowanych z aktywnością biologiczną. W klasycznych subiektywizmu. Dwa poniższe przykłady obrazują zakres
pracach Hanscha jako parametr lipofilowy wykorzystywany niejednoznaczności tego systemu.
był log(P), czyli współczynnik podziału w układzie Dibenzyl: -CH2-CH2-.
n-oktanol : woda. Jako parametr elektronowy podstawników Logarytm współczynnika podziału dla dibenzylu
Hansch zastosował stałe Hammetta , a jako parametr obliczyć można z co najmniej trzech schematów:
steryczny podstawników stałe Tafta Es. Inni autorzy a) 2logP(H) + 2(CH2) = 22,13 + 20,5 = 5,26
wykorzystali inne właściwości fizykochemiczne do wyrażenia b) logP(H) + 2(CH2) + () = 2,13 + 20,5 + 1,89 = 5,02
trzech podstawowych zdaniem Hanscha parametrów: c) 2(CH2) + 2() = 20,5 + 21,89 = 4,78
lipofilowego, elektronowego i sterycznego. Poniżej omówione Rzeczywista, zmierzona wartość logP dla dibenzylu wynosi
zostaną właściwości fizykochemiczne najczęściej 4,81.
wykorzystywane do określania w/w parametrów. Toluen: -CH3
Również dla tak prostego związku jak toluen, logP
8.2.1. Parametry lipofilowe.
obliczyć można conajmniej 2 sposobami:
Jak już wspomniano, pierwszym parametrem
a) logP(H) + (CH3) = 2,31 + 0,5 = 2,81
opisującym właściwości lipofilowe związków był logarytm
współczynnika podziału w układzie n-oktanol : woda (bufor). b) logP(CH4) + () = 0,9 + 1,89 = 2,79
Parametr ten jest ciągle używany, gdyż uznawany jest za
9
Część VI: Klasyczne metody QSAR
W tym przypadku z obydwu sposobów otrzymujemy bardzo n
zbliżone wartości logP. log P a i f i
Szczegółowa analiza tego typu niejednoznaczności i 1
oraz szczególnie dużych różnic pomiędzy wartościami logP gdzie: fi - stała hydrofobowa fragmentu i
obliczonych w/g różnych sposobów skłoniła Nysa i Rekkera ai - liczba określająca ile razy fragment i występuje
(1973) do zaproponowania innego modelu służącego do w cząsteczce
oblicznia logP. W modelu tym nie wyróżnia się struktury n - łączna liczba fragmentów w cząsteczce.
bazowej i podstawników, lecz całą strukturę traktuje się jako Zgodnie z tym modelem logP dibenzylu oblicza się ze wzoru
złożoną z fragmentów. Każdy z fragmentów wnosi addytywnie (Tab.VIII.9):
swój wkład do końcowej wartości logP: logP(-CH2-CH2-) = 2f() + 2f() = 21,896
+ 20,527 = 4,85
Tabela VIII.9. Stałe hydrofobowe wyznaczone przez Nysa i Rekkera dla typowych składników związków organicznych.
Fragment falif. faromat. Fragment faromat i fheterocykl
C 0,14 0,14 CAr 0,158
.
CH 0,236 0,236 C Ar 0,297
CH2 0,527 0,527 CHAr 0,344
CH3 0,702 0,702 (N) -0,98
CH2=CH 0,93 0,93 (O) 0,10
CH=C 0,51 0,51 (S) 0,44
H 0,193 0,193 (NH) -0,60
F -0,51 0,425 pirolil 0,59
Cl 0,06 0,930 furanyl 1,22
Br 0,24 1,169 tienyl 1,62
J 0,59 1,456 pirydynyl 0,543
O -1,536 -0,458 chinolinyl 1,85
OH -1,440 -0,374 fenyl (C6H5) 1,896
OCH3 -0,834 0,244 (C6H4) 1,732
N -2,133 -1,07 (C6H3) 1,477
NH -1,864 -0,93 naftyl 3,17
NH2 -1,380 -0,911
NO2 -1,06 -0,089
COOH -1,003 0,000
-
COO -1,281 -0,40
OCH2COOH 1,21 -0,609
CONH2 -1,99 -1,26
=C=0 -1,69 -0,99
CN -1,13 -0,20
10
Część VI: Klasyczne metody QSAR
AH L logS - rozpuszczalność związku w wybranym
D
AH W A rozpuszczalniku, np. wodzie lub chloroformie
[P] - parachora: wielkość addytywna wiążąca
gdzie indeks L dotyczy fazy lipidowej, a indeks W fazy
objętość molową cieczy Vc i jej napięcie powierzchniowe .
wodnej. Ponieważ istnieją trudności techniczne z precyzyjnym
W literaturze od wielu dziesiątków lat istnieją tablice parachor
pomiarem stężeń obu form kwasu w roztworach wodnych,
atomowych i parachor wiązań.
więc dla celów praktycznych wprowadzono wzory
przybliżone: Parametry lipofilowe podzielić można, ze względu
dla kwasu:
log D log P log 1 10
pH pK a
na sposób ich wyznaczania na dwie klasy:
parametry doświadczalne dla których wyznaczenia
dla zasady: pK pH
log D log P log 1 10 a należy posiadać próbkę analizowanego związku i wykonać na
Chromatograficzne metody wyznaczania parametrów niej odpowiednie pomiary
lipofilowych. parametry teoretyczne (tablicowe) których wartość
Dla niektórych związków bardzo trudno jest można wyznaczyć dysponując jedynie wzorem związku.
wyznaczyć współczynnik podziału. Dotyczy to np. związków Parametry doświadczalne, wyznaczane dla konkretnych
nietrwałych, zanieczyszczonych lub tworzących stabilne związków zapewniają bardziej adekwatny opis właściwości
emulsje. Dla takich przypadków zaproponowano wyznaczać związków. Mają więc istotne znaczenie na etapie
parametr lipofilowy metodami chromatografii cienko- poszukiwania zależności. Wadą tak uzyskanej zależności jest
warstwowej jako tzw. wartość Rm. Metoda okazała się tak jednak niemożność projektowania na jej podstawie
wygodna, że stosuje się ją również w przypadku związków konkretnych nowych pochodnych. Możliwe jest jedynie
pozbawionych w/w niedogodności. wskazanie trendów (kierunków) zmian. Wady tej pozbawione
Zaletami metody chromatograficznej są: i) małe zużycie są modele oparte na parametrach obliczanych lub tablicowych.
związku; ii) brak wymogu specjalnej czystości; iii) możliwość Po uzyskaniu statystycznie istotnej zależności można na jej
jednoczesnego (na jednej płytce) oznaczania kilku lub nawet podstawie oszacować aktywność związku jedynie na
kilkunastu związków. podstawie jego wzoru.
Stwierdzono, że pomiędzy stałą Rm, a logarytmem 8.2.2. Parametry elektronowe.
współczynnika podziału P istnieje zależność liniowa : Przypuszczano od dawna, że rozkład ładunku w
Rm = alogP + b obrębie cząsteczki ma istotny wpływ na jej reaktywność
gdzie stałe a i b zależą od warunków chromatografii, np. chemiczną i efekty biologiczne. Brakowało jednak prostego
podłoża i składu fazy ruchomej. sposobu opisu zależności pomiędzy rozkładem ładunku a
Dla wyeliminowania innych niż podział efektów właściwościami chemicznymi lub biologicznymi.
chromatograficznych (głównie sorpcji na żelu) stosuje się W roku 1935 Hammett stwierdził, że istnieje
neutralne nośniki, takie jak metylocelulozę, lub liniowa zależność pomiędzy zmianami energii swobodnej
chromatografię faz odwróconych. Istnieje prosta zależność wywołanej wprowadzeniem podstawnika w pochodnych
pomiędzy wielkością Rm a ruchliwością chromatograficzną kwasu benzoesowego, a ich powinowactwem elektronowym.
Rf: Zależność tę dla równowag dysocjacji można wyrazić
1 wzorem:
R m log 1 . Ks
R
f log
W przypadku związków ulegających dysocjacji dla Ko
zapewnienia stałego pH stosuje się buforowaną fazę ruchomą. gdzie: Ks - stała dysocjacji podstawionego kwasu
Burzliwy rozwój chromatografii HPLC, w tym benzoesowego
również na fazach odwróconych, spowodował, że ostatnio Ko - stała dysocjacji kwasu benzoesowego
głównie ta technika stosowana jest do chromatograficznego - stała charakteryzująca podstawnik (stała
wyznaczania parametrów lipofilowych. Okazało się przy tym, Hammetta)
że wielkością liniowo zależna od współczynnika podziału jest - stała zależna od warunków pomiaru
skorygowany czas retencji, k’. Jest to jednocześnie typowy Stałe Hammetta stosuje się do układów aromatycznych w
parametr wyznaczany w technikach HPLC. których podstawnik jest w pozycji para lub meta do centralnej
Inne parametry lipofilowe. grupy reagującej. Stałe te opisują w zasadzie wpływ
Oprócz omówionych powyżej, klasycznych metod indukcyjny podstawnika. Przykładowe wartości stałych
wyznaczania właściwości lipofilowych proponowano Hammetta dla typowych podstawników przedstawia poniższa
zastosować szereg innych wielkości. Spośród nich pewne tabela.
zastosowanie znajdują:
Rm dla podstawników - wielkość proporcjonalna
do parametru
11
Część VI: Klasyczne metody QSAR
Zasługą Hanscha i Fujity jest zastosowanie stałych pracami Hammetta i jego szkoły dostarczył niezbędnych
Hammetta jako opisu właściwości elektronowych serii narzędzi.
związków. Trzeba było dużej dozy odwagi intelektualnej aby Taft badając wpływ podstawników na szybkość
zastosować prosty parametr chemiczny dla opisu wpływu hydrolizy estrów alkoholi alifatycznych i aromatycznych
modyfikacji chemicznej na oddziaływanie leku z jego kwasów karboksylowych podstawionych w pozycji meta
makromolekularnym celem komórkowym. stwierdził, że oprócz stałej Hammetta, czyli wpływów
Oprócz stałej Hammetta w metodzie Hanscha elektronowych, na szybkość hydrolizy wpływa również efekt
stosowane są liczne inne parametry elektronowe. Niektóre z przestrzenny podstawników i zaproponował zależność:
nich są tylko modyfikacjami klasycznej stałej Hammetta. Do ks
takich parametrów należą: log ES
ko
orto - stała Hammetta dla pozycji orto
I - stała indukcyjna (alifatyczna) Wielkość ES nazwana została stałą Tafta i jest szeroko
R - stała rezonansowa (alifatyczna) stosowana dla opisu zawady przestrzennej podstawników
* - stała polarności (alifatyczna) zarówno w badaniu reaktywności chemicznej jak i zależności
F - aromatyczna stała indukcyjna struktura chemiczna - aktywność biologiczna.
R - aromatyczna stała rezonansowa Ogólna koncepcja wpływu zawady przestrzennej
Istnieją również stałe elektronowe oparte na odmiennych niż została szeroko przyjęta i rozbudowana dla innych
stała Hammetta podstawach fizykochemicznych. Do szczegółowych przypadków. I tak wprowadzono:
najczęściej stosowanych w badaniach QSAR należą: E So - stałą Tafta dla podstawników w pozycji orto
pKa lub pKa - stała dysocjacji lub jej zmiana w stosunku
E Sm - stałą Tafta dla podstawników w pozycji meta
do związku odniesienia
1 M - polaryzowalność molowa E SC - stałą Hancock'a uwzględniającą hiperkoniu-
2 gację wodorów
- stała dielektryczna Stała Tafta i jej analogi znajduje zastosowanie jedynie w
M - masa cząsteczkowa przypadku serii związków będących prostymi, podstawionymi
- gęstość w tym samym miejscu, pochodnymi tej samej sztywnej
- moment dipolowy struktury bazowej. Nie nadają się zupełnie do opisu bardziej
- przesunięcie chemiczne w NMR zróżnicowanych serii związków lub pochodnych o pewnej
1/ - położenie maximum absorpcji w widmach UV/VIS swobodzie konformacyjnej. Dlatego opracowano całą gammę
Rozwój metod obliczeniowych chemii kwantowej parametrów opisujących wielkość i ogólny kształt cząsteczki:
spowodował, że jako parametry elektronowe w badaniach V - objętość molową
QSAR zaczęto również stosować wielkości kwantowo- rV - promień Van der Waalsa podstawnika
chemiczne. Do najczęściej używanych parametrów tego typu * VV - objętość cząsteczki z uwzględnieniem promieni
należą energie tzw. orbitali granicznych: Van der Waalsa
HOMO - energia najwyższego obsadzonego orbitalu (ang. Dij - odległość pomiędzy wybranymi atomami i i j
Highest Occupied Molecular Orbital) parametry STERIMOL - grupa 5 parametrów
LUMO - energia najniższego nieobsadzonego orbitalu opisujących kształt cząsteczek. Parametry te nadają się
(ang. Lowest Unoccupied Molecular Orbital) szczególnie dla sztywnych cząsteczek
Wartości energii tych orbitali są miarą podatności cząsteczki parametry Kiera: molecular connectivity i molekularne
jako całości do oddawania (HOMO) lub przyjmowania indeksy kształtu - na bazie grafu reprezentującego
(LUMO) elektronów. Oprócz takich globalnych parametrów pozbawiony atomów wodoru szkielet cząsteczki można
elektronowych metody obliczeniowe chemii kwantowej otrzymać szereg parametrów opisujących topologię
dostarczają również parametrów opisujących bardziej cząsteczki
"lokalne" właściwości fragmentów cząsteczki. Parametrami Dla poprawnego wyznaczenia wartości parametrów tego typu,
takimi są np. ładunki cząstkowe wybranych atomów lub rzędy za wyjątkiem parametrów Kiera, potrzebna jest znajomość
określonych wiązań. rzeczywistego kształtu cząsteczek. Bardzo często
Obliczenia kwantowo-chemiczne pozwalają również na wykorzystuje się w tym celu metody modelowania
oszacowanie wartości takich doświadczalnych parametrów molekularnego w tym również półempiryczne metody chemii
elektronowych jak np. moment dipolowy, energia jonizacji lub kwantowej. Innym źródłem informacji o kształcie cząsteczki
wartość przesunięcia chemicznego w NMR. mogą być struktury otrzymane metodami analizy dyfrakcyjnej
Podobnie jak w przypadku parametrów lipofilowych monokryształów.
dysponujemy więc również w przypadku parametrów Ponieważ kształt cząsteczki ma wiele aspektów i nie
elektronowych dwoma typami parametrów: wydaje się możliwe pełne jego określenie przy pomocy
parametrami doświadczalnymi dla których pojedynczej wielkości liczbowej zaproponowano jego opis
wyznaczenia należy posiadać próbkę analizowanego związku i przy pomocy rodziny parametrów z których każdy opisuje
wykonać na niej odpowiednie pomiary inny jego aspekt. założeniu to legło u podstaw parametrów
parametrami teoretycznymi (tablicowymi) których typu STERIMOL oraz indeksów Kiera.
wartość można wyznaczyć dysponując jedynie proponowanym Parametry STERIMOL.
wzorem związku. Bardzo prostym, ale skutecznym opisem kształtu sztywnych
8.2.3. Parametry steryczne. cząsteczek są tzw. parametry STERIMOL. Opisują one 5
Przed opublikowaniem prac Hanscha i Fujity maksymalnych wymiarów cząsteczki. Przed przystąpieniem do
wydawało się, że opis kształtu cząsteczki nastręczać będzie ich wyznaczania należy przyjąć określoną orientację każdej z
szczególnie wiele problemów przy poszukiwaniu zależności cząsteczek. Zwykle w tym celu wybiera się jeden z atomów
struktura - aktywność. Na szczęście rozwój w latach '50 i na każdej z cząsteczek stanowiących badaną serię jako tzw. atom
początku '60 tzw. fizycznej chemii organicznej będący bazowy i lokuje się go w początku układu współrzędnych. Z
wynikiem sukcesu koncepcji wpływu podstawników na kolei definiuje się dwa wiązania w których ten atom
właściwości chemiczne całej cząsteczki zapoczątkowany
12
Część VI: Klasyczne metody QSAR
uczestniczy i określa się ich orientację w stosunku do układu potrzebna znajomość rzeczywistego, trójwymiarowego
współrzędnych. kształtu cząsteczki: wystarcza wzór strukturalny. W ujęciu tym
wzór cząsteczki traktowany jest jako graf: zespół węzłów
RNH NO połączonych wiązadłami. Do najpopularniejszych parametrów
2
s i j k
s
3 3
- istnieją dwa indeksy : P dla liniowego
U
ułożenia czwórki atomów i 3 dla ułożenia gwiaździstego
C
[7.4a.] 1
3
P l
t i j k t
[7.4b.] 1
C
3
D
u i j k l
u
Obliczenia indeksów molecular connectivity dla 5 izomerów
heksamu przedstawia poniższy przykład.
W
L R Przykład 8.5. Indeksy molecular connectivity dla
Rys.8.3: Sposób definiowania parametrów STERIMOL na izomerów heksanu.
przykładzie pochodnej 1-nitro-9-metyloaminoakrydyny. Kolorem Rozpocznijmy od wypisania struktur i wartości dla
fioletowym zaznaczono atomy wykorzystywane przy orientacji i
cząsteczki. wszystkich 5 izomerów heksanu:
Parametry Kiera.
Innym bardzo popularnym podejściem do opisu
kształtu cząsteczek jest zastosowanie teorii grafów. W
odróżnieniu od parametrów STERIMOL nie jest przy tym
1 2 2 1 1 1
2 2 1 3 1
3 2 2
1 1 3 3
4
1 2 2 1
1 2 1 1
1 1 1
2-metylopentan 3-metylopentan 2,2-dimetylobutan
heksan 2,3-dimetylobutan
13
Część VI: Klasyczne metody QSAR
Heksan. 2-Metylopentan.
0 1 1 0 1 1 1
2 4 4,828 3 2 4,992
1 2 1 2 3
1 1 1 1 1 1 1
2 3 2,914 1
2
1 2 22 1 2 1 3 22 23
2,770
2 1 1 2 1 1 1 1
2 2 1,707 2 2,183
4 8 3 4 6 12
3 1 1 1
P 2 0,957 3
P 3 0,866
8 16 12
3 1
C 0 3
C 0,408
6
3-Metylopentan. 2,3-Dimetylobutan.
0 1 1 1 0 1 1
3 2 4,992 4 2 5,155
1 2 3 1 3
1 1 1 1 1 1 1 1
2 2 4
1 2 1 3 22 23 1 3 3 3
2,808 2,643
2 1 1 2 1 1
4 1,922 2 4 2,488
6 12 3 9
1 1 3 1 1
3
P 2 2 1,394 P 2 2 1,394
6 12 6 12
1 3 1
3
C 0,289 C 0,289
12 12
2,2-Dimetylobutan.
0 1 1 1
4 5,207
1 2 4
1 1 1 1
3 2,561
1 2 1 4 24
2 1 1
3 4 2,914
4 8
3 1 3 1 1
P 3 1,061 C 3 1,561
8 4 8
14
Część VI: Klasyczne metody QSAR
[7.6.] 1 AA 12 A 1A 32
dla nieparzystego A
1 P 2 [7.8.]
3
3 2
P
A 3A 2 dla parzystego A
1 2
gdzie: P jest liczbą wiązań w cząsteczce pozbawionej
atomów wodoru.
Indeks rzędu 2 dotyczy trójek bezpośrednio z sobą
3
P
2
związanych atomów i obliczany jest ze wzoru: Poniższy przykład zawiera wyniki obliczeń molekularnych
indeksów kształtu dla izomerów heksanu.
[7.7.] 2
A 1A 22
2 P2 Przykład 8.6. Molekularne indeksy kształtu dla
izomerów heksanu
2
gdzie: P jest liczbą trójek atomów.
Indeks rzędu 3 dotyczy czwórek związanych z sobą atomów i
obliczany jest w/g jednego z poniższych wzorów:
1 2 2 1 1 1
2 2 1 3 1
3 2 2
1 1 3 3
4
1 2 2 1
1 2 1 1
1 1 1
2-metylopentan 3-metylopentan 2,2-dimetylobutan
heksan 2,3-dimetylobutan
Rozpocznijmy od wyznaczenia zawartości informacji i dla wszystkich 5 izomerów heksanu:
heksan:
6
6 6 6 6 6
i 2 log 2 2 log 2 2 log 2 3 2 log 2 0,4771
6
6
2-metylopentan: i 2 log2 4 1 log1 0,6778
6 6 6 6
3-metylopentan; i 2 2 log2 2 1 log1 0,5775
6 6 6 6
2,3-dimetylobutan: i 4
6
log 4
6
2
6
log 2
6
0,2764
2,2-dimetylobutan: i 3 log 3 log 0,5396
3 1 1
6 6 6 6
Należy jeszcze ustalić liczbę par, trójek i czwórek atomów. Jest to bardzo podobne do postępowania omówionego w Przykł.7-V.
Możemy teraz obliczyć wartości poszczególnych indeksów:
1 2 2 1 1 1
2 2 1 3 1
3 2 2
1 1 3 3
4
1 2 2 1
1 2 1 1
1 1 1
2-metylopentan 3-metylopentan 2,2-dimetylobutan
heksan 2,3-dimetylobutan
i = 0,4771 = 0,6778 = 0,5775 = 0,2764 = 0,5396
0
2,863 = 4,067 = 3,465 = 1,659 = 3,238
1 =5 =5 =5 =5
P =5
1
6 =6 =6 =6 =6
2 =5 =5 =6 =7
P =4
2
2,813 = 1,800 = 1,800 = 1,250 = 0,918
3 =3 =4 =4 =3
P =3
3
5,333 = 5,333 =3 =3 = 5,333
15
Część VI: Klasyczne metody QSAR
sobą dwojakiego rodzaju korzyści: prognostyczne i czynnych. Występowanie lub brak w uzyskanym modelu
poznawcze. określonych członów sugeruje istotność takich a nie innych
Po pierwsze umożliwia ono przewidzenie kierunku oddziaływań dla aktywności biologicznej w testowanym
poszukiwań nowych pochodnych o korzystniejszych układzie. Poniżej zestawiono typową interpretację roli
właściwościach biologicznych i farmakologicznych. Jest to poszczególnych członów i parametrów w równaniu Hanscha.
dotychczas główny cel stosowania tej metody: uzyskanie Obecność w równaniu członu opisującego
informacji prognostycznych. Do tej samej grupy informacji w ł a ś c i w o ś c i l i p o f i l o w e (logP, lub RM)
należy również uzyskanie podstaw dla przerwania dalszych oznacza, że w układzie istotny jest transport związku lub jego
poszukiwań gdy z analizy równania wynika, że nie ma wiązanie z elementami surowicy. Występowanie członu
realnych szans na uzyskanie pochodnych o istotnie lepszych kwadratowego pozwala wyznaczyć optymalne właściwości
cechach biologicznych. Warto wtedy czasami poszukać lipofilowe. Brak tego członu wskazuję, że znajdujemy się z
podstawników o podobnych właściwościach fizyko- dala od optimum (można się spodziewać poprawy
chemicznych determinujących aktywność, ale jednocześnie aktywności), a znak współczynnika dostarcza informacji o
zmieniających cechy niekorzystne np. brak rozpuszczalności, kierunku zmian.
nietrwałość chemiczną lub też łatwiejszych w syntezie: tańsze Istotność parametru elektrono-
substraty, obejście zastrzeżeń patentowych. w e g o typu stałej Hammetta wskazuje na istotność efektów
Z drugiej strony, ponieważ w równaniu Hanscha elektronowych. W zależności od tego jaki konkretny rodzaj
występują parametry mające określony sens fizyczny jest stałej okaże się istotny mamy podstawy do snucia hipotez o
możliwe uzyskanie tą drogą pośrednich informacji o mechanizmie oddziaływania z receptorem:
mechanizmie działania badanej grupy związków biologicznie
Stała Sugestie
m lub p Istotna rola zmian gęstości elektronowej w pierścieniu aromatycznym. Przypuszczalnie
istotną rolę odgrywa zmiana jonizacji cząsteczki i/lub oddziaływania ładunek-ładunek lub
ładunek-dipol.
- Istotna rola oddziaływań z wolnymi parami elektronowymi
+ Istotna rola oddziaływań nukleofilowych
HOMO Cząsteczka ulega jonizacji (oddaje elektron lub przyjmuje proton)
LUMO Cząsteczka przyjmuje elektron lub parę elektronów
NH H
3
O O CH
2
H * refrakcja molowa MR
H
NH * molecular connectivity w/g Kiera
NH NH
- NH
+ 5 parametrów binarnych opisujących:
H
HO H O H COO 3 * typ pochodnej (ester 1, amid 0) IE
HO HO * typ pochodnej (ester 0, amid 1) IA
NH
* obecność atomy azotu w podstawniku DN
O
+ * wypadkowy ładunek cząsteczki q
Edeina A + NH
2
NH
* ilość grup aminowych w cząsteczce n
NH
3
Nie użyto parametrów elektronowych, gdyż przy
O
zastosowanych typach pochodnych nie mają one istotnego
Edeina A należy do grupy antybiotyków peptydowych
znaczenia.
produkowanych przez bakterię Bacillus brevis. Antybiotyki tej Ponieważ nie należy używać w jednym równaniu
grupy charakteryzują się szerokim spektrum dwóch lub więcej parametrów tego samego typu w pierwszym
przeciwbakteryjnym i przeciwgrzybowym. Wykazują również etapie analizy zastosowano pary równań zawierające RM i
aktywność immunosupresyjną i cytotoksyczną. Niestety refrakcję molową MR lub indeks Kiera. W każdym z równań
charakteryzują się również bardzo wysoką toksycznością w stosowano wszystkie parametry binarne. Przy ustalaniu równań
stosunku do organizmów wyższych. Celem omawianych tu
16
Część IV: Metody QSAR
modelu zastosowano metodę odrzucania uzyskując dla dawki obniżającej o 50% ciężar guza w mysim mięsaku Sa-
poszczególnych drobnoustrojów następujące pary równań: 180. Jako parametry fizykochemiczne przyjęto:
S.cerevisiae * parametr lipofilowy Hanscha
(1) pIC50 = -2,2 RM - 0,038 MR + 0,50q - 2,69 * 4 różne tablicowe parametry steryczne.
W I etapie analizowano 4 różne równania Hanscha (po jednym
R = 0,913
dla każdego parametru sterycznego). Ze wszystkich po
(2) pIC50 = -1,4 RM - 0,044()2 - 0,91 zastosowaniu metody odrzucania otrzymano ten sam model:
R = 0,848 pED50 = -0,0742 + 2,57 R = 0,848
B.subtilis Model ten był adekwatny. Tym samym wykazano, że efekty
(3) pIC50 = -1,3 RM - 1,73 steryczne wokół terminalnego atomu azotu nie mają istotnego
wpływu na aktywność przeciwnowotworową (przynajmniej w
R = 0,746 tym teście).
(4) pIC50 = -1,0 RM - 0,17()2 + 0,5()- 1,85 4.0
R = 0,928
E.coli
(5) pIC50 = -1,1 RM + 0,20q - 2,52
R = 0,901
(6) pIC50 = -2,8(RM)2-2,6RM - 0,40() +1,4DN - 1,61 2.0
R = 0,981
Uzyskane zależności wskazują, że we wszystkich testach
aktywności istotny jest wpływ właściwości lipofilowych.
Jednakże zastosowany parametr empiryczny nie pozwala
przewidzieć właściwości związków na etapie ich projektowania.
Dlatego też w II etapie zastosowano wyłącznie parametry 0.0
tablicowe lub obliczane i uzyskano zależności:
S.cerevisiae -5.0 0.0 5.0
(7) pIC50 = 0,33 - 0,10()2 + 0,28q - 1,64 Analizując zakres jaki obejmują badane związki
R = 0,903 zauważono ważny fakt: wszystkie wartości były dodatnie i
leżały w przedziałe od 0 do 3. W tej sytuacji nie dziwi wysoka
B.subtilis korelacja pomiędzy zmiennymi i 2 (r = 0,979). Nasuwało to
(8) pIC50 = 0,44 -0,12()2 + 0,58n - 3,72 wątpliwości co do prawidłowego wyboru przez metodę
R = 0,948 odrzucania kwadratu parametru lipofilowego, a nie samego
parametru, w trakcie usuwania nieistotnych parametrów. Po
E.coli świadomym usunięciu 2 z danych początkowych uzyskano
(9) pIC50 = 0,50 -0,11()2 +0,99DN - 0,79 równanie:
R = 0,956 pED50 = -0,24 + 2,73
Uzyskane równania wskazują, że model zależności powinien R = 0,834
zawierać parametr lipofilowy, steryczny oraz wskaźnik stopnia I to równanie również było adekwatnym modelem zależności.
jonizacji cząsteczki (q, n lub DN; poza edeiną i cykloedeiną Jakość obu modeli jest praktycznie jednakowa i z punktu
parametry te są identyczne). Zastanawiające jest podobieństwo widzenia statystyki są one równocenne. Jednakże wnioski z
uzyskanych równań. Jedynie wpływ stopnia jonizacji jest dla nich płynące są diametralnie odmienne (patrz wykres obok).
każdego testu istotnie różny. Model kwadratowy sugeruje, że maksimum aktywności jest już
Poszukując pochodnej o najwyższej aktywności widzimy że: osiągnięte dla =0 (pEDmax = pED50(0) = 2,57 wobec
i) właściwości lipofilowe: korzystny jest wzrost pED(n-Pro)=2,61, pED(di-Me)=2,53, pED(Et)=2,56). Model
lipofilowości i to znaczny (brak istotności członu kwadratowego) liniowy zapowiada wzrost aktywności dla związków o ujemnym
ii) właściwości steryczne: korzystny możliwie mały
, np. pED(=-1)=2,97, a pED(=-2)=3,21. W tej sytuacji
podstawnik
rozróżnienie pomiędzy obu modelami było sprawą kluczową dla
iii) stopień jonizacji: im większy tym lepiej.
dalszego poszukiwania nowych związków z tej grupy.
Charakterystyczne są sprzeczne przesłanki wynikające z tych
Zaprojektowano więc i wykonano syntezę 4 nowych
postulatów: wzrost lipofilowości i wzrost stopnia jonizacji,
pochodnych: 3 o ujemnym :
wzrost lipofilowości i zmniejszenie podstawnika. W efekcie
wydaje się, że te sprzeczne wymagania najlepiej spełniają ester -CH2-CH2-OH o = -0,16
i amid butylowy. -CH(CH3)(CH2-OH)2 o = -0,65
==============================================
-C(CH2-OH)3 o = -1,81
Przykład 8.8: pochodne Ledakrinu (Zofia Mazerska - oraz pochodną n-heksylową o = 3,0 dla poszerzenia zakresu
doktorat). zmienności.
W trakcie badań biologicznych żadna z pochodnych
R
1 nie była aktywniejsza niż związki wcześniej zsyntetyzowane.
(CH ) N Ponownie wyznaczono współczynniki równania Hanscha dla 4
2 3
NO N zestawów parametrów i ponownie otrzymano z każdego
2 R
2
zestawu takie same równanie:
pED50 = -0,902 + 0,083 + 2,47
R = 0,887 n = 14 s = 0,11
N
Równanie to opisuje paraboliczną zależność aktywności
H
przeciwnowotworowej od właściwości lipofilowych z maksimum
Analizie poddano serię 10 mono- i dialkilo aktywności pEDmax = 2,47 przypadającym dla ~0,5. Tak więc
pochodnych 1-nitro-9-aminopropyloaminoakrydyny o widać teraz, że bliższy prawdy był poprzednio model
właściwościach przeciwnowotworowych. Jako miarę aktywności kwadratowy.
przeciwnowotworowej przyjęto pED50 - ujemny logarytm z Z uzyskanej zależności widać też wyraźnie, że nie należy się w
tej grupie pochodnych spodziewać związków o aktywności dużo
17
Część IV: Metody QSAR
wyższej niż ok. 2,5, a ewentualne dalsze poszukiwania LUMO. Wpływ energii HOMO jest dużo mniej istotny. Związek
pochodnych o lepszych właściwościach farmakologicznych( o wysokiej aktywności powinien więc charakteryzować się:
mniejsza toksyczność, lepsza rozpuszczalność w wodzie) logP ~ 8, co odpowiada łańcuchowi C13
dotyczyć powinny związków o ~ 0,5. niską (możliwie ujemną) energią LUMO
wysoką (jak najmniej ujemną) energią HOMO.
Dwa ostatnie wymogi są przeciwstawne, lecz wpływ LUMO jest
4.0 ok. 4 razy silniejszy i on decyduje. Obliczono wartości energii
LUMO i HOMO dla różnych kombinacji grup hydroksylowych w
pozycjach od R2 do R5 i okazało się, że najkorzystniejszymi
wartościami tych energii charakteryzują się związki zawierające
2 grupy hydroksylowe w pozycjach R3 i R4. Związek o takiej
strukturze części aromatycznej i łańcuchu C13 wykazał
znaczącą aktywność przeciwnowotworową w dwóch testach na
2.0 mysich nowotworach przeszczepialnych.
=========================================
R
5
18
Część IV: Metody QSAR
statystycznego nie pozwalają na pokonanie tego problemu. bez nadmiernych problemów syntetycznych. Dla tak
Dlatego też model bilinearny stosowany bywa jedynie dobranego zestawu pochodnych, w oparciu o tablicowe
sporadycznie i tylko w przypadku wyraźnej asymetrii wartości parametrów wykonujemy "mapę" - planszę metody-
zależności aktywności biologicznej od właściwości w układzie - (dla aromatycznej struktury bazowej) lub -Es
lipofilowych. (dla alifatycznej struktury bazowej).
Wybieramy teraz trzy pochodne tworzące w pobliżu
9. Nieregresyjne metody optymalizacji struktury środka mapy możliwie równoramienny trójkąt. Wybrane
W latach '70, po wykazaniu słuszności założeń związki syntetyzujemy i oznaczamy ich aktywność
metody Hanscha, jedną z przeszkód w jej szerokim biologiczną. Rozpoczynamy teraz poszukiwanie maksimum
stosowaniu okazała się bariera statystyczno-obliczeniowa. aktywności biologicznej uproszczoną metodą sympleksów
Rozwiązanie równania Hanscha wymaga pewnego nakładu (patrz przykład poniżej). Z wierzchołka trójkąta
pracy obliczeniowej, zwłaszcza gdy należy powtórzyć odpowiadającego pochodnej o najniższej aktywności
kilkakrotnie obliczenia dla różnych zestawów parametrów lub prowadzimy środkową przeciwległego boku i w obszarze
gdy odrzucamy człony nieistotne. Wykonanie takich obliczeń mapy przez który przechodzi ta prosta poszukujemy punktu
ręcznie, nawet z zastosowaniem kalkulatora (a był to na tworzącego nowy, możliwie równoramienny trójkąt. Po
początku lat '70 jeszcze dosyć drogi i rzadki przyrząd), wybraniu nowego wierzchołka syntetyzujemy odpowiadający
wymaga kilku godzin żmudnych obliczeń. Dostęp do mu związek i oznaczamy jego aktywność biologiczną.
komputerów był wtedy bardzo ograniczony. Ponadto Powstał w ten sposób nowy simpleks z którym postępujemy
większość chemików, biologów i farmakologów nie posiadało analogicznie jak z simpleksem poprzednim.
dostatecznej znajomości podstaw statystyki, aby z lawiny Postępowanie przerywamy, gdy osiągneliśmy już maksimum
równań produkowanych przez komputer wybrać prawidłowo aktywności lub wyczerpały się możliwe do otrzymania
to najlepsze. Poniższy przykład ilustruje ten problem. pochodne w kierunku oczekiwanego maksimum.
4NO2
Postać matematyczna tej funkcji nie jest nam znana i nie 4OMe
19
Część IV: Metody QSAR
Najgorszym wierzchołkiem jest pochodna 4-chloro i z niej
prowadzimy środkową przeciwległego boku.
3NO2;4CF3
3NO2;4CF3 3NO2 ;4Cl
4NO2
3NO2 ;4Cl 4CN
3NO 2 4CF3 3Cl;4Cl
4NO2
4CN 4COMe 3Cl
3NO 2 4CF3 3CF3
3Cl;4Cl 4Br
4Cl
4COMe 3Cl 3CF3
4Br H
4Cl
4OMe
4NHMe 3Me 4Me
4OMe
4NH2
L 4 3 4
C(CH3)3 CH3 ; CH3
L 3 3 5 3 5
CF3; CF3
3
NO2
4 T CF3 Cl; Cl
4
Cl CH3 T 3
3
G Cl CH3 2 2 2
Cl CH3 OCH 3
G N(CH )
3
32
4 4 4
NO2 CN F
4 4
COCH 3 CONH2
4 4
SO 2 CH3 SO 2 NH2
L 3 4
CH3 ; N(CH3)2
L 4 T
N(CH3)2 4 4 3 4
T G NH2 OH CH 3 ; OCH3
4
OCH 3 3
G Cl
Schematy te umożliwiają wybór kierunku syntezy zależy od lipofilowości więc jako pierwszą pochodną Topliss
następnych związków w zależności od wyników zaproponował pochodną 4-chloro (=0,70; =0,23; Es=0,27).
biologicznych związków poprzednio zsyntetyzowanych. Mogą Pochodna ta może mieć aktywność lepszą (L), taką samą (T)
one być szczególnie pomocne w pracach chemika-syntetyka lub gorszą (G) niż związek niepodstawiony. Wzrost
nie mającego możliwości lub chęci przeprowadzenia obliczeń aktywności może wynikać ze wzrostu lipofilowości i/lub
komputerowych. efektów elektronowych. Dlatego też w przypadku wzrostu
W przypadku podstawników pierścienia aktywności dla 4-chloropochodnej schemat proponuje "pójść
benzenowego startujemy od związku niepodstawionego. za ciosem" i dalej zwiększać oba efekty: pochodna 3,4-
Ponieważ w większości przypadków aktywność biologiczna dichloro (=1,25; =0,52).
20
Część IV: Metody QSAR
Pochodna 3,4-dichloro może być bardziej aktywna niż 4- -CO-R -NHR -CO-NHR i
chloro, mieć taką samą aktywność lub wykazywać spadek -NH-CO-R.
aktywności. I tu znowu schemat przewiduje odpowiednie Schemat opiera się na parametrach , * i Es, z tym że
postępowanie. głównie brana jest pod uwagę lipofilowość i zawada
Analogiczne wnioskowanie przeprowadzić można w sytuacji przestrzenna.
gdy 4-chloropochodna obniża aktywność.
Topliss zaproponował również schemat doboru
podstawnika R w ugrupowaniach typu:
L
CH 3
T T
i- C 3H7 C 2H5
G CHCl 2 CF 3 CH 2 CF 3
CH 2 SCH3 CH 2 C 6H5
21
Część IV: Metody QSAR
22