Download as pdf or txt
Download as pdf or txt
You are on page 1of 22

Część VI: Klasyczne metody QSAR

QSAR mają również funkcje prognostyczne: pozwalają


7. Ilościowe zależności struktura chemiczna – oszacować aktywność biologiczną związków na podstawie ich
aktywność biologiczna właściwości fizykochemicznych, a czasami tylko na podstawie
Rozwój ilościowych metod określania aktywności wzoru chemicznego, nawet bez konieczności ich
biologicznej skłonił wielu badaczy do poszukiwania metod syntetyzowania. Przyczynia się to do znacznego
ilościowej analizy uzyskanych wyników. Tak powstały w przyspieszenia i potanienia poszukiwania i projektowania
pierwszej połowie XX w.: nowych leków.
 farmakometria W chwili obecnej metody QSAR przestały już być
 farmakokinetyka wyłącznie ciekawostką teoretyczną, a stały się użytecznym
 farmakodynamika. narzędziem o szerokich możliwościach.
Jednakże próby ilościowego powiązania budowy chemicznej z Metody QSAR wykorzystują wiele, czasami dosyć
aktywnością biologiczną przez szereg dziesięcioleci nie zaawansowanych, metod numerycznych. Celem naszego
dawały zadawalających wyników. Wydaje się, że główna wykładu jest zapoznanie Państwa z możliwościami
przeszkoda miała charakter psychologiczny: jak wyrazić wykorzystania tych metod przy projektowaniu nowych
ilościowo jakościowe przecież informacje o budowie chemoterapeutyków, a nie ze stosowanymi metodami
chemicznej cząsteczki. numerycznymi. Jednakże nie będzie możliwe całkowite
Pomoc przyszła ze strony teoretycznej chemii pominięcie problemów numerycznych. Ograniczymy się
organicznej: prace Hammeta i Tafta nad wpływem jednak w takich przypadkach do omówienia założeń
podstawników na szybkość przebiegu reakcji chemicznych niezbędnych dla poprawnego doboru metodyki oraz do
zapoczątkowały nowe spojrzenie na opis budowy chemicznej. poglądowych interpretacji sposobu działania algorytmów.
W opisie tym struktura chemiczna cząsteczki dzieli się na: Nacisk położony będzie raczej na możliwe zastosowania
 stały w danej serii związków rdzeń poszczególnych technik oraz sposoby prawidłowej
 fragmenty zmienne traktowane jako podstawniki rdzenia. interpretacji wyników obliczeń.
Pozwala to na ilościowy opis cząsteczki poprzez podanie W metodach QSAR spotkać można trzy
wpływu podstawników. podstawowe sposoby opisu aktywności biologicznej:
Z drugiej strony, nie do przecenienia jest również  skala nominalna: w większości przypadków podział
zachodzący w tym czasie postęp w możliwościach badanych związków na dwie klasy, np. związki aktywne
technicznych: rozwój i dostępność komputerów umożliwił i nieaktywne. W bardziej zaawansowanych metodach
wykorzystanie różnorodnych metod numerycznych nie istnieje możliwość zastosowania większej liczby klas.
stosowanych wcześniej ze względu na ich pracochłonność.  pojedynczy, ilościowy test aktywności: zwykle w formie
Na początku lat '60 zakiełkowała nowa, ujemnego logarytmu ze stężenia wywołującego
multidyscyplinarna gałąź wiedzy: ilościowe standardową odpowiedź biologiczną. Z wykorzystaniem
zależności pomiędzy strukturą tego opisu powstały pierwsze metody QSAR.
chemiczną i aktywnością biologiczną  bateria testów ilościowych: jednoczesne zastosowanie
(QSAR). W ramach QSAR wykorzystywana jest wiedza z wielu testów pozwala na pełniejszy opis zależności.
wielu tradycyjnych dziedzin nauki: Stwarza jednak również określone problemy
 chemia organiczna obliczeniowe.
 chemia fizyczna Również opis struktury związków dokonany być może na
 biochemia wiele sposobów:
 farmakologia i farmakometria  jakościowy opis podstawników
 statystyka matematyczna  ilościowy opis właściwości fizykochemicznych całego
 metody numeryczne związku. Można tu rozróżnić przypadek ograniczonego
 techniki komputerowe. zestawu właściwości oraz wersję z baterią właściwości.
Metody QSAR przez ostatnie 30 lat rozgałęziły się,  ilościowe wielkości uzyskane z metod chemii
rozrosły, okrzepły i w tej chwili zajmują istotne miejsce w obliczeniowej, np. rzędy wiązań lub ładunki cząstkowe
poszukiwaniu i projektowaniu nowych leków, w tym również  jakościowy opis elementów struktury
chemoterapeutyków. Dobitnie świadczy o tym ilość publikacji  struktura trójwymiarowa cząsteczki, ewentualnie z
naukowych z tej dziedziny. W ostatnich latach wiele z nich opisem rozkładu pola elektrostatycznego generowanego
jest finansowanych przez liczące się ośrodki naukowe lub przez cząsteczkę
duże firmy farmaceutyczne. Wynika to z faktu, że metody W zależności od sposobu opisu aktywności
ilościowego opisu zależności struktura - aktywność posiadają biologicznej i opisu budowy chemicznej stosowane są
zdolność do dostarczania informacji dwojakiej natury. odmienne techniki analizy ilościowych zależności
Z jednej strony uzyskane zależności traktowane być mogą struktura - aktywność. Przed przystąpieniem do ich
jako modele matematyczne pewnych procesów, którym systematycznego omawiania celowe jest jednak zapoznanie się
podlegają związki biologicznie czynne. Stanowią więc z zakresem ich zastosowań, które ilustruje poniższy schemat
wygodną metodę falsyfikacji pewnych teorii czy hipotez. (Rys.7.1.).
Przyczynia się to do istotnego przyspieszenia poznania wielu
bardzo skomplikowanych zjawisk zachodzących w
organizmach żywych. Oprócz tej roli poznawczej metody

1
Część VI: Klasyczne metody QSAR

Aktywność biologiczna

Opis jakościowa ilościowa


struktury
dwuklaso wieloklaso pojedyncze bateria
jakościowy SAR nRMO F-W
podstawnik Metoda
właściw. głównych
pojedyn m. Hanscha składowych
fiz.- cze
Rozpozna- i
chem.
bateri wanie regresja wielokrotna
obrazów
elementy z
nauczycielem
struktury Rozpoznawanie
obrazów
struktura bez
trójwymiarowa nauczyciela

Rys.7.1: Zakres typowych zastosowań różnych technik opisu zależności struktura - aktywność

wymiarowości problemu stosuje się typowe metody regresji


W przypadku nominalnej skali aktywności wielokrotnej.
biologicznej (klasyfikacja aktywne - nieaktywne) stosuje się
zwykle tylko najprostszy sposób opisu budowy chemicznej: 8. Metody regresyjne.
jakościowy opis podstawników. W sytuacji takiej Załóżmy, że zmienna niezależna y (w metodach
zastosowanie ilościowych form opisu wydaje się być dosyć QSAR jest nią aktywność biologiczna) może być z rozsądnym
trudne. Powszechnie za to stosuje się opisy jakościowe czyli przybliżeniem wyrażona jako kombinacja liniowa k
metodę SAR. zmiennych zależnych z:
Nieregresyjne metody optymalizacji struktury y j  ŷ j  a 0  a1z1 j  a 2 z 2 j  a 3z 3 j  ...  a k z kj
(nRMO) znajdują w zasadzie zastosowanie w przypadku
pojedynczych, ilościowych testów aktywności i jakościowym Mamy wtedy do czynienia z najprostszym przypadkiem
opisie struktury, chociaż niektóre z nich mogą być również metody regresyjnej tzw. r e g r e s j ą liniową.
zastosowane w przypadku jakościowego, wieloklasowego Występujące w regresji liniowej współczynniki ai obliczane są
opisu aktywności biologicznej. z wykorzystaniem zasady minimum sumy
W przypadku pojedynczych testów aktywności kwadratów różnic zwanej także metodą
szerokie zastosowanie znajdują metody regresyjne. Metoda najmniejszych kwadratów. Zasada ta daje się wyrazić wzorem:

 
n
Free-Wilsona (F-W), jedna z dwóch pierwszych technik
SKR   ŷ j  y j 2
 min
QSAR, znajduje zastosowanie w przypadku jakościowego
j1
opisu struktury chemicznej poprzez informacje o obecności
Wartości ai dobierane (obliczane) są tak, aby spełniony był
określonych podstawników w określonych miejscach rdzenia
warunek minimum SKR.
cząsteczki.
Jednym z problemów występujących przy analizie
Druga z najdłużej stosowanych metod QSAR, metoda
regresji jest dobór ilości i rodzaju zmiennych niezależnych z
Hanscha, wymaga ilościowego opisu właściwości
występujących w równaniu regresji. Wymaga się zwykle, aby
fizykochemicznych analizowanych związków.
wszystkie człony równania były statystycznie istotne. Jednym
Do klasyfikacji i określania podobieństwa badanych
ze sposobów uzyskania równania regresji spełniającego ten
związków wykorzystuje się techniki matematyczne zwane
wymóg jest zastosowanie tzw. metody
"rozpoznawaniem obrazów". W przypadku, gdy podział na
o d r z u c a n i a . Obliczenia rozpoczyna się od równania
klasy znany jest przed wykonaniem obliczeń mamy do
zawierającego wszystkie człony. Po wyznaczeniu
czynienia z techniką "z nauczycielem", a zadanie sprowadza
współczynników ai określa się ich istotność statystyczną. O ile
się do określenia reguł klasyfikacji. Gdy podział na grupy nie
występują człony nieistotne usuwa się człon najmniej istotny i
jest narzucony to odpowiednie techniki określane są mianem
ponownie wyznacza współczynniki, tym razem już tylko k-1
"bez nauczyciele" i służą do określenia podobieństwa
współczynników. Usuwanie najmniej istotnych członów i
pomiędzy poszczególnymi związkami należącymi do
obliczanie nowych współczynników powtarza się tak długo, aż
analizowanego zbioru. Celem metod bez nauczyciele jest
wszystkie człony pozostające w równaniu regresji będą
często wykrycie tendencji pewnych elementów zbioru
statystycznie istotne.
związków do tworzenia mniej lub bardziej spójnych grup czy
Innym wymogiem stawianym prawidłowemu
klas.
równaniu regresji jest jego istotność jako całości. Najczęściej
W przypadku gdy choć jeden z opisów (aktywności
stosowaną miarą tej istotności jest statystyka F Snedecora.
lub struktury) opiera się na bardzo licznym zestawie wielkości
Uzyskanie równania charakteryzującego się wartością F
(baterii testów) zwykłe metody regresyjne zawodzą. Stosuje
większą od krytycznej wskazuje, że równanie jako całość jest
się wtedy technikę zwaną analizą głównych składowych dla
statystycznie wiarygodne i może być użyte do przewidywania
zredukowania liczby wielkości opisujących. Po takiej redukcji
wartości zmiennej zależnej (aktywności) na podstawie
znanych wartości zmiennych niezależnych. Informacje o

2
Część VI: Klasyczne metody QSAR
precyzji obliczania wartości zmiennej zależnej zawarte są w Równanie jako całość jest statystycznie bardzo istotne,
innych wskaźnikach statystycznych obliczanych równolegle z jednakże człon kwadratowy i sześcienny są nieistotne. Zgodnie
wartościami współczynników. Odchylenie standardowe z metodą odrzucania usuwamy człon najmniej istotny (w
naszym przypadku człon sześcienny) i powtarzamy obliczenia
równania, s, podaje przeciętne odchylenie standardowe (Tab.VIII.2.).
prognozowanych wartości zmiennej zależnej. Rzeczywisty
błąd prognozowanych wartości zależy nie tylko od jakości Tab.VIII.2. Wynik rozwiązania równania regresji bez członu
równania, ale również od wartości zmiennych niezależnych w sześciennego.
prognozowanym punkcie. Jego miarą jest wartość promienia i współczynnik odchylenie istotność
korytarza błędu w danym punkcie. Cenne informacje niesie ai standardowe
również współczynnik korelacji równania, r, a szczególnie 0 153,01 0,92 406,35
jego kwadrat zwany współczynnikiem determinacji. Określa 1 0,6118 0,0087 169,26
on jaki ułamek ogólnej zmienności zmiennej zależnej wyjaśnić
2 -0,092 0,016 11,75
można przy pomocy danego równania regresji.
Przy pomocy metody najmniejszych kwadratów s = 0,874 F = 101 243 R = 1,000
wyznaczać można nie tylko wartości współczynników w
liniowych równaniach regresji, ale również współczynniki w Po usunięciu członu sześciennego otrzymujemy równanie o
równań regresji krzywoliniowej. Najczęściej spotykanym bardzo podobnych charakterystykach statystycznych, z tym, że
przykładem takiej regresji jest tzw. regresja wielomianowa.
wszystkie jego człony są statystycznie istotne.
Zmienna zależna opisywana jest w niej równaniem:
================================================
y j  ŷ j  a 0  a 1 z j  a 2 z 2j  a 3 z 3j  ...  a k z kj
8.1. Metoda Free-Wilsona
Jeśli w równaniu tym potraktujemy poszczególne potęgi
zmiennej z jako zmienne niezależne to otrzymamy typowe NHR
1
równanie regresji liniowej. Tak więc również w przypadku
regresji krzywoliniowej zachowują moc omówione powyżej
mierniki istotności statystycznej i jakości prognozy. R3 R
2
N
Przykład 8.1: Zależność regresyjna. Rys.8.2: Struktura serii pochodnych akrydyny

R(t) Rozważmy sytuację, gdy dysponujemy związkiem


600
chemicznym wykazującym interesujący nas rodzaj aktywności
biologicznej. Zadanie polega na znalezieniu pochodnej o
500 możliwie wysokiej aktywności. Jeśli z punktu widzenia
możliwości syntetycznych istnieje możliwość wprowadzenia
400 różnych podstawników w kilku miejscach cząsteczki, to
zastanówmy się ile takich pochodnych może być. Dla
300 przykładu poddajmy analizie serię pochodnych akrydyny
przedstawioną na Rys.8.2 przyjmując, że modyfikować
200 możemy:
 łańcuch boczny w pozycji 9 (4 różne podstawniki)
100  lewy pierścień (3 podstawniki w czterech pozycjach 14)
-100 0 100 200 300 400 500 600 700 t [C]  prawy pierścień (3 podstawniki w czterech pozycjach
Rys.8.1: Zależność oporu platyny od temperatury. 58).
Liczba różnych pochodnych wynosi w tej sytuacji:
Zmierzono opór elektryczny cewki platynowej N = 4  34  34 = 26 244
utrzymywanej w stałej temperaturze. Pomiary wykonano w 9 Każdy związek należałoby zsyntetyzować i przetestować
różnych temperaturach w zakresie od -85 do 630C. Zmierzony biologicznie. Jest to ogromna praca wymagająca kolosalnych
opór zmieniał się od ok.100 do ok. 500 m (patrz rysunek nakładów. Pojawia się więc pytanie, czy nie dałoby się
obok). Rozkład uzyskanych wyników sugeruje, że zależność
może być nieliniowa. Chcąc stworzyć model zależności oporu
zmniejszyć liczby związków dzięki zastosowaniu jakichś reguł
od temperatury przyjęto model wielomianowy stopnia co wyboru. Oczywiście można coś takiego zastosować. Dobór
najwyżej trzeciego: związków opierać się może na szeregu kryteriach: od zupełnej
R t   R̂ t   a 0  a 1 t  a 2 t 2  a 3 t 3 losowości po rozważania oparte na regułach teoretycznej
chemii organicznej. Zawsze jednak stracimy część informacji
Nie znamy ani poprawnego stopnia wielomianu, ani wartości i nie będziemy do końca pewni czy nie pominęliśmy
współczynników. Spróbujmy zastosować metodę odrzucania
najlepszej pochodnej.
(Tab.VIII.1).
Istnieje wszakże pewien sposób pozwalający
Tab.VIII.1. Wynik rozwiązania równania regresji stopnia zminimalizować ryzyko pominięcia najlepszych pochodnych.
trzeciego Można mianowicie zbudować i zweryfikować model
i współczynnik odchylenie istotność zależności aktywności biologicznej od obecności lub braku
ai standardowe określonego podstawnika w określonej pozycji w cząsteczce.
0 152,8411 1,04 376,82 Przez wiele lat wydawało się jednak, że model taki musi
zawierać bardzo skomplikowane i niepoznane dotychczas
1 0,6073 0,014 106,05
zależności funkcyjne. Jednakże w roku 1964 ukazała się
2 -0,000063 0,000072 -0,31 publikacja Free i Wilsona w której autorzy zaproponowali
3 -0,000000035 0,0000000848 -1,52 bardzo prosty model. Przyjęli mianowicie założenie, że dany
s = 0,867 F = 68 612,6 R = 1,000 podstawnik w danym miejscu cząsteczki ma na aktywność
biologiczną zawsze taki sam wpływ niezależnie od obecności
innych podstawników w innych miejscach.

3
Część VI: Klasyczne metody QSAR
W przypadku ogólnym założenie takie nie A i   a j  X ij   o
wytrzymuje próby weryfikacji: znamy wiele przykładów gdy j
podstawniki wzmacniają lub znoszą swój wpływ w zależności gdzie: i - numer związku
od wzajemnego usytuowania. Widać to szczególnie wyrażnie j - numer podstawnikopozycji
w przypadku pochodnych związków aromatycznych: dwa, Ai - aktywność i-tego związku
odpowiednio dobrane podstawniki w pozycji orto mogą aj - wkład podstawnikopozycji do aktywności
tworzyć dla siebie wzajemnie zawadę przestrzenną; z koleji Xij - obecność podstawnikopozycji j w związku i
podstawniki w pozycji para mogą wywierać na siebie wpływ Wyjaśnienia wymaga określenie podstawnikopozycja.
poprzez efekty indukcyjne i/lub rezonansowe Ponieważ ten sam podstawnik umieszczony w różnych
Znane są jednak również bardzo liczne przykłady, gdy efekty pozycjach może wywierać różny wpływ na aktywność, więc
podstawników po prostu sumują się. Metoda zaproponowana należy określić niezależnie wpływ danego podstawnika w
przez Free i Wilsona nie jest więc podejściem uniwersalnym i każdej z pozycji w której może występować. Takie połączenie
wymaga w każdym indywidualnym przypadku potwierdzenia podstawnika z pozycją w strukturze bazowej w której
słuszności założenia o a d d y t y w n o ś c i w p ł y w u występuje nazywamy właśnie podstawnikopozycją.
podstawników. W przypadku analizowanych wcześniej pochodnych
Przyjmując słuszność tego założenia możemy zbudować akrydyny możemy mieć np. sytuację przedstawioną w
matematyczny model analizowanej zależności: Tab.VIII.3

Tab.VIII.3: Przykładowy zestaw podstawników jakie wystąpić mogą w pochodnych akrydyny (Rys.8.3) i odpowiadające im
podstawnikopozycje.
pozycja podstawnik j pozycja podstawnik j pozycja podstawnik j

ł.boczny C2H4NHMe 1 2 NH2 10 5 OH 19


ł.boczny C2H4NMe2 2 3 NO2 11 6 Cl 20
ł.boczny C3H6NHMe 3 3 OMe 12 6 Me 21
ł.boczny C3H6NMe2 4 3 NH2 13 6 OH 22
1 NO2 5 4 NO2 14 7 Cl 23
1 OMe 6 4 OMe 15 7 Me 24
1 NH2 7 4 NH2 16 7 OH 25
2 NO2 8 5 Cl 17 8 Cl 26
2 OMe 9 5 Me 18 8 Me 27

8 OH 28

Mamy więc 28 podstawnikopozycji. Rozstrzygnięcia wymaga Na podstawie teorii modeli regresyjnych można przyjąć, że
teraz problem liczby związków jakie należy zsyntetyzować, dostatecznie dobre modele zależności otrzymuje się w sytuacji
aby wiarygodnie określić wpływ każdej podstawnikopozycji gdy Nrzecz jest większe lub równe Nmin + , gdzie wartość 
na aktywność padanych pochodnych. Oddzielnym problemem powinna wynosić od 10 do 20. Tak więc w przypadku
jest taki dobór syntetyzowanych związków, aby przy danej ich analizowanych pochodnych akrydyny dla poprawnego
liczbie N otrzymać jak najwięcej, jak najbardziej wiarygodnej zastosowania metody Free-Wilsona należy dysponować serią
informacji o zależnościach struktura - aktywność. ok. 50 pochodnych (28 + 1 +20). W pierwszym momencie
Ponieważ model zaproponowany przez Free i może się to wydawać dużo, należy jednak pamiętać że
Wilsona jest liniowy ze względu na nieznane wartości aj budujemy model opisujący aktywność ponad 26 tysięcy
można więc go zidentyfikować (wyznaczyć nieznane wartości związków.
parametrów modelu) przy pomocy metody regresyjnej. Wiedząc już, ile powinna liczyć seria związków
Bezwzględnie minimalna liczba związków niezbędnych dla niezbędna dla wyznaczenia wpływu podstawnikopozycji
jednoznacznego wyznaczenia współczynników modelu należy rozstrzygnąć kwestię które z bardzo licznego zestawu
wynosi: możliwych pochodnych powinny zostać użyte do identyfikacji
Nmin = Z + 1 modelu. Nie ma tu, bo i nie może być, jednoznacznego
gdzie: Z - liczba podstawnikopozycji. algorytmu doboru związków. Istnieje za to kilka reguł którym
Model izdentyfikowany w oparciu o taki minimalny zestaw powinien podlegać zbiór pochodnych aby tworzony model
związków nie posiada wszakże żadnej zdolności miał dobre właściwości prognostyczne. I tak:
prognostycznej: odtwarza on d o k ł a d n i e (wraz z  każda podstawnikopozycja powinna wystąpić
błędami pomiarowymi) aktywności związków na podstawie conajmniej w dwóch związkach. Jeszcze korzystniejsze jest
których został zidentyfikowany, ale błąd oszacowania gdy występuje w trzech lub czterech związkach. Zaczyna
aktywności innego związku jest nieokreślony. Dopiero wtedy działać statystyczne uśrednianie przypadkowych
zastosowanie liczby związków większej od Nmin pozwala z błędów wyznaczania aktywności i model nabiera zdolności
jednej strony na wyeliminowanie błędów pomiarowych, a z prognostycznych.
drugiej na statystyczne oszacowanie przedziału ufności  należy unikać związków podstawionych tylko w
prognozy (korytarza błędu). Ponadto w przypadku jednej pozycji. Zbyt duża liczba takich związków utrudnia
n i e z n a c z n y c h odstępstw od wymogu addytywności spełnienie poprzedniej reguły. Jest to wymóg sprzeczny z
wpływu podstawników dostatecznie duża liczba związków tendencją obowiązującą w badaniach SAR w których dąży się
pozwala na zachowanie rozsądnych zdolności do indywidualnego określenia wpływu każdego elementu
prognostycznych modelu Free-Wilsona. struktury.

4
Część VI: Klasyczne metody QSAR
 krotność występowania poszczególnych podstawnikopozycji. Z numerycznego punktu widzenia
podstawnikopozycji powinna być podobna. Przedział ufności oznacza to, że kolumny macierzy danych powinny być
wpływu podstawnikopozycji zależy m.in. od krotności jej możliwie ortogonalne (niezależne od siebie). Jeśli to tylko
występowania. Duże zróżnicowanie krotności możliwe podstawniki powinny być dobierane losowo.
podstawnikopozycji powoduje, że niektóre z wpływów będą Reguły te odbiegają na tyle istotnie od tradycyjnego
wyznaczone z błędem dużo większym niż inne. Ponieważ zestawu związków projektowanych dla badań SAR, że zwykle
zwykle z góry nie wiadomo która podstawnikopozycja jest dla prawidłowego zastosowania metody Free-Wilsona należy
istotna dla aktywności nie zachowanie tej reguły grozi przewidzieć jej zastosowanie już na etapie projektowania serii
powstaniem sytuacji gdy wpływ ważnej podstawnikopozycji związków (przed rozpoczęciem syntez). Przykładowy
określony zostanie z niedostatecznę precyzją. fragment tablicy podstawnikopozycji dla omawianych
 należy unikać korelacji podstawnikopozycji, tzn. pochodnych akrydyny przedstawia Tab.VIII.4:
nadmiernie częstego występowania pewnej kombinacji

Tab.VIII.4: Fragment tablicy podstawnikopozycji dla zestawu pochodnych akrydyny


Pozycja Podstaw- Podstaw-nik Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10
nikopoz.
1 C2H4NHMe 1 1
łańcuch 2 C2H4NMe2 1 1 1
boczny 3 C3H6NHMe 1 1 1
4 C3H6NMe2 1 1
5 NO2 1
1 6 OMe 1
7 NH2 1
8 NO2 1
2 9 OMe 1
10 NH2 1
11 NO2 1
3 12 OMe 1
13 NH2 1
14 NO2 1
4 15 OMe
16 NH2
17 Cl 1
5 18 Me 1
19 OH 1
20 Cl 1
6 21 Me 1
22 OH 1
23 Cl 1
7 24 Me 1
25 OH
26 Cl 1
8 27 Me 1
28 OH

Należy zwrócić uwagę, że nie może wystąpić addytywność będzie istotnie większa niż wariancja oznaczeń.
sytuacja gdy w jednym związku występuje więcej niż jedna Hipotezę o adekwatności modelu testujemy testem 2:
podstawnikopozycja dla tej samej pozycji. Ponadto, w
omawianym przykładzie przyjęto założenie, że w każdym z
 y i  ŷ i 2
2 i
pierścieni (pozycje 14 i 58) może w danym związku  
 2e
wystąpić tylko jeden podstawnik.
Uzyskanie statystycznie istotnego rozwiązania gdzie:  2e - wariancja oznaczeń aktywności.
równania regresji jest jedynie pierwszym etapem metody Sumę kwadratów różnic można wygodnie obliczyć ze wzoru:
Free-Wilsona. Należy teraz sprawdzić, czy w tym konkretnym
przykładzie uzyskany model spełnia założenie o addytywności
 
 y i  ŷ i 2  s 2  N  Z  1
i
wpływu podstawników. Z punktu widzenia statystyki problem
gdzie: s - odchylenie standardowe równania regresji
sprowadza się do weryfikacji hipotezy o adekwatności
N - liczba związków
modelu. Jeśli model jest adekwatny to wariancja resztowa
Z - liczba podstawnikopozycji.
modelu nie powinna być większa od wariancji oznaczeń
Hipotezę o adekwatności modelu, czyli o addytywności
aktywności. W przypadku nieaddytywnego wpływu
wpływu podstawników, odrzucamy jeśli:
podstawników wariancja resztowa modelu zakładającego

5
Część VI: Klasyczne metody QSAR
2
   2, N  Z 1 H
O N
obliczona wartość statystyki 2 nie jest mniejsza od wartości X
krytycznej znalezionej w tablicach dla poziomu istotności  i R5
N-Z-1 stopni swobody. W przeciwnym przypadku nie ma
podstaw do odrzucenia testowanej hipotezy.
Jeśli potwierdzone zostanie założenie o R2 N
addytywności wpływu podstawników, to uzyskany model Jako pierwszy rozważymy symulowany przykład
regresyjny stanowi wiarygodne narzędzie do przewidywania addytywnego wpływu podstawników w pochodnych kwasu
aktywności innych pochodnych. Szybkim sposobem 4-pirydylokarboksylowego (rysunek obok). Modyfikacje
wyszukania pochodnej o przypuszczalnie najwyższej chemiczne dotyczą terminalnego podstawnika w łańcuchu
aktywności jest przegłąd wartości wpływów amidu (X) oraz w pozycjach 2 (R2) i 5 (R5) pierścienia
podstawnikopozycji. Należy przy tym pamiętać, że dla każdej pirydynowego. Obecna w łańcuchu amidu grupa hydroksylowa
może występować w formie wolnej (X = OH), jako eter
pozycji wybieramy podstawnik o największym wpływie.
metylowy (X = OMe) lub ester acetylowy (X = OAc). W pozycji 2
Pozwala to zaproponować syntezę przypuszczalnie bardzo występować może chlor, grupa metylowa, aminowa lub nitrowa,
aktywnego związku. Ponadto dla tego związku możemy a w pozycji 5 chlor, grupa metylowa, aminowa lub
wyznaczyć na podstawie równania regresji jego hydroksylowa. Tak więc liczba podstawnikopozycji w
przypuszczalną aktywność. analizowanej serii pochodnych wynosi 3 + 4 + 4 = 11.
Zsyntetyzowano 25 pochodnych spełniających omówione
powyżej reguły.
Przykład 8.2: Zastosowanie metody Free-Wilsona:
dane symulowane, przypadek addytywny.
Tab.VIII.5. Tablica podstawnikopozycji i aktywności biologicznej pochodnych kwasu 4-pirydylokarboksylowego (dane symulowane)
Nr X R2 R5 Akt.

OH OMe OAc Me Cl NO2 NH2 Me Cl OH NH2 biol.


I 1 1 1 1,86
II 1 1 1 1,55
III 1 1 1 1,00
IV 1 1 0,04
V 0,99
VI 1 2,07
VII 1 0,57
VIII 1 1 0,75
IX 1 1 1 1,28
X 1 1 2,18
XI 1 1 1 2,41
XII 1 1 1 2,36
XIII 1 1 1 3,67
XIV 1 1 1,31
XV 1 1 1 2,18
XVI 1 1 0,23
XVII 1 0,57
XVIII 1 1 1 0,30
XIX 1 1 1,50
XX 1 2,65
XXI 1 1 3,56
XXII 1 1 1,33
XXIII 1 1 2,39
XXIV 1 1,02
XXV 1 1 0,36

krotn. 5 6 5 5 4 6 5 4 4 4 4

6
Część VI: Klasyczne metody QSAR
Po zastosowaniu metody Free-Wilsona powstał układ 25 H
równań z 12 niewiadomymi (11 współczynników przy O N
podstawnikopozycjach + wyraz wolny). OH
Rozwiązanie tego układu z wykorzystaniem algorytmu
odrzucania doprowadziło do modelu zawierającego 11 istotnych
Cl
parametrów:

Tab.VIII.6. Istotne współczynniki modelu Free-Wilsona dla O2N N


danych symulacyjnych (wersja z addytywnościa wpływu Tak więc można założyć, że najaktywniejszym związkiem
podstawników będzie pochodna o budowie przedstawionej obok. Jej
Poz. Podst. P.p. Wkład do Promień aktywność oszacować można na równą:
aktywności przedziału A = 1,077 + 0,97 + 0,91 + 1,52 = 4,470,16
ufności Należy pamiętać, że zaproponowana pochodna jest przypusz-
X OH 1 0,97 0,12 czalnie najaktywniejsza tylko w obrębie d z i e d z i n y
(przedziału ważności) modelu. W przypadku metody
X OMe 2 0,29 0,12
Free-Wilsona dziedzinę ogranicza zestaw podstawnikopozycji.
X OAc 3 -0,51 0,13 Tak więc pochodna o przedstawionej powyżej strukturze jest
najaktywniejsza spośród 455 = 100 możliwych pochodnych
R2 Me 4 -0,23 0,13 zawierających w łańcuchu bocznym i pozycjach 2 i 5
R2 Cl 5 --- wymienione powyżej podstawniki lub atom wodoru. Wadą
metody Free-Wilsona jest niemożliwość przewidzenia
R2 NO2 6 0,91 0,13 aktywności dla innych podstawników niż uwzględnione w
R2 NH2 7 -0,56 0,12 analizowanym zestawie.
===============================================
R5 Me 8 0,98 0,12
R5 Cl 9 1,52 0,13 Przykład 8.3.: Zastosowanie metody Free-Wilsona:
dane symulowane, przypadek braku addytywności
R5 OH 10 -0,49 0,14 Dla zobrazowania sytuacji jaka powstaje, gdy
R5 NH2 11 -0,54 0,14 dochodzi do interakcji pomiędzy podstawnikami zmodyfikowano
nieznacznie Przykład 7-I. Modyfikacja polegała na tym, że dla
o 1,077 0,093 związków w których w pozycji 2 występowała grupa nitrowa a w
pozycji 5 grupa hydroksylowa lub aminowa (związki III, IX i XII)
N = 25 Z = 10 s = 0,093 zwiększono aktywność o 1 jednostkę.
F = 274,1 F0,05;10;14 = 2,60 Tak przygotowany zestaw poddano analizie regresjii z
D = R2 = 0,995 R = 0,998 zastosowaniem algorytmu odrzucania. Otrzymane wyniki
przedstawia Tab. VIII.7.
Uzyskane równanie regresji posiada wysoką istotność jako
całość (duża wartość testu F, współczynnik determinacji bliski Tab.VIII.7. Istotne współczynniki modelu Free-Wilsona dla
jedności). Dzięki zastosowaniu algorytmu odrzucania z danych symulacyjnych (wersja bez addytywnego wpływu
końcowego równaniu usunięty został człon opisujący wkład podstawników)
wnoszony do aktywności przez atom chloru w pozycji R2. Poz. Podst. P.p. Wkład do Promień
Oznacza to, że z prawdopodobieństwem conajmnie 95% jego aktywności przedziału
wkład do aktywności nie jest istotny. Wszystkie pozostałe ufności
człony mają istotny udział w aktywności badanej serii
X OH 1 0,86 0,47
związków.
Należy teraz określić, czy uzyskany model adekwatnie opisuje X OMe 2 ---
zmienność aktywności biologicznej w badanej serii. Potrzebna
jest do tego znajomość odchylenia standardowego pomiarów X OAc 3 ---
aktywności biologicznej. Informacja taka powinna być dostępna R2 Me 4 ---
w pracowni wykonującej oznaczenia aktywności. W naszym
przykładzie przyjmiemy wartość tego odchylenia jako równą e R2 Cl 5 ---
= 0,1 j.a. Możemy teraz obliczyć wartość statystyki 2: R2 NO2 6 1,41 0,45
2 
N  Z  1  s 2 
14  0,0932
 12,11 R2 NH2 7 ---
 e2 0,12 R5 Me 8 1,18 0,52
Krytyczna wartość 0,05;14 = 23,69. Ponieważ wartość R5 Cl 9
krytyczna jest większa od obliczonej więc nie ma podstaw do 1,58 0,53
odrzucenia hipotezy o adekwatności uzyskanego modelu R5 OH 10 ---
zależności struktura - aktywność. Oznacza to, że w przypadku R5 NH2 11
badanej serii związków spełnione jest założenie o adekwatności ---
wpływu podstawników. Można więc uznać ten model za o 0,65 0,27
posiadający zdolności prognostyczne i podjąć na jego
podstawie próbę znalezienia pochodnej o przypuszczalnie N = 25 Z=4 s = 0,44
najwyższej aktywności. F = 28,72 F0,05;4;20 = 2,87
Należy w tym celu spośród podstawnikopozycji dotyczących D = R2 = 0,852 R = 0,923
każdej z pozycji wybrać podstawnik posiadający największy
wkład do aktywności. W przypadku analizowanej serii będą to: Przede wszystkim widać, że w zaistniałej sytuacji wpływ 7
w łańcuchu bocznym  OH z wkładem 0,970,12 podstawnikopozycji okazał się statystycznie nieistotny.
w pozycji 2  NO2 z wkładem 0,910,13 Pozostały jedynie podstawnikopozycje o najsilniejszych
w pozycji 5  Cl z wkładem 1,520,13 wkładach do aktywności. Zmniejszyła się też znacznie jakość
dopasowania, choć równanie jako całość pozostaje w dalszym
ciągu statystycznie istotne (F > Fkryt). W ślad za spadkiem
jakości dopasowania wzrosły też znacznie przedziały ufności
parametrów modelu. Sprawą kluczową jest jednak ocena
adekwatności modelu. Obliczona wartość testu 2 wynosi:

7
Część VI: Klasyczne metody QSAR
2
20  0,437 o 2,76 0,07
2  2
 381,94
0,1
N = 28 Z=7 s = 0,075
wobec wartości krytycznej  2  31,41 . Ponieważ wartość
0,05;20 F = 172,45 F0,05;7;20 = 2,87
obliczona jest większa od wartości krytycznej, więc model D = R2 = 0,984 R = 0,992
j e s t n i e a d e k w a t n y . Tym samym wykazano, że 2 = 26,627 20,05;20 = 31,41
istnieje oddziaływanie pomiędzy podstawnikami, a więc ich
wpływ nie jest addytywny. Uzyskane równanie jest statystycznie istotne,
Można zauważyć, że pomimo nieadekwatności wyjaśnia ponad 98% zmienności aktywności i opisuje
modelu struktura pochodnej o przypuszczalnie najwyższej adekwatny model. Jednakże płynące z niego wnioski nie są
aktywności przewidziana jest poprawnie: jest to ta sama zbyt budujące dla autorów omawianej pracy: z modelu wynika
pochodna co w Przykładzie 8.2. Co więcej przewidywana bowiem, że praktycznie żadna z badanych pochodnych
aktywność tej pochodnej A = 4,50,69 jest bardzo bliska acylowych nie daje nadziei na uzyskanie pochodnej o wyższej
poprzedniej prognozie (4,470,16). Sytuacja taka występuje aktywności. Jedyny dodatni wkład do aktywności wnosi
wtedy, gdy odstępstwa od addytywności nie dotyczą kombinacji obecność dodatkowej grupy hydroksylowej (R4).
podstawników o najsilniejszym wkładzie do aktywności. W przypadku szczepu K. pneumonia stwierdzono
================================================ podobne zależności struktura - aktywność:
= Poz. Podst. Wkład do Promień
aktywności przedziału
Od czasu zaproponowania metody przez Free i ufności
Wilsona była ona testowana nie tylko na danych R1 For ---
symulacyjnych (jak powyżej), ale również na licznych R1 Ac -0,10 0,05
przykładach rzeczywistych. Jeden z takich przykładów
zostanie omówiony poniżej. R2 For -0,16 0,06
R2 Ac -0,44 0,07
Przykład 8.4.: Zastosowanie metody Free-Wilsona: R2 Pro -0,60 0,10
dane rzeczywiste.
R3 For -0,17 0,09
Me NMe
2
R3 Ac -0,55 0,07
O R O
1
OH R3 Pro -0,69 0,13
Me
R O Me Me R4 OH
3 O O ---
R o 2,94 0,05
4 Me O
Me Me
Et O
O N = 27 Z=7 s = 0,061
Me F = 153,59 F0,05;7;19 = 2,87
OR D = R2 = 0,983 R = 0,991
O 2
Me OMe 2 = 16,73 20,05;19 = 30,14
Analizowany przykład ten dotyczy serii pochodnych antybiotyku Podstawowa różnica polega na tym, że wpływ dodatkowej
przeciwbakteryjnego erytromycyny B. Modyfikacje dotyczyły grupy hydroksylowej jest w przypadku K. pneumonia
wybiórczego acylowania trzech grup hydroksylowych (R1 i R2 w statystycznie nieistotny. Tym samym w przypadku tego
cukrach i R3 w pierścieniu makrolidowym) oraz obecności lub drobnoustroju żaden z elementów struktury erytromycyny B
braku dodatkowej grupy hydroksylowej w pierścieniu analizowanych w omawianej pracy nie wnosi dodatniego
makrolidowym (R4). Jako pochodne grup hydroksylowych wpływu do aktywności.
stosowano: ================================================
R1  formyl (For) lub acetyl (Ac)
R2  For, Ac lub propionyl (Pro) 8.2. Metoda Hanscha.
R3  For, Ac lub Pro. Poważnym ograniczeniem metody Free-Wilsona jest
W tej sytuacji minimalna liczba pochodnych wynosi: Nmin = 1 fakt, że optymalizacja obejmuje tylko te podstawnikopozycje,
+2 + 23 + 1 = 10. W rzeczywistych modelach stosowano 28 które występują w badanych związkach. Innym ograniczeniem
lub 27 pochodnych. Aktywność wyznaczana była w formie jest wymóg jednoczesnych zmian w kilku miejscach struktury
pIC50 na szczepach S.aureus i K.pneumonia z odchyleniem
bazowej. Wad tych pozbawiona jest inna metoda regresyjna
standardowym e = 0,065.
Aktywność w stosunku do S.aureus wyznaczono dla zaproponowana w latach '60 przez Hanscha i Fujitę. Istotą tej
28 pochodnych. Po zastosowaniu metody Free-Wilsona wraz z metody jest założenie, że o aktywności biologicznej decydują
algorytmem odrzucania uzyskano wyniki: właściwości fizykochemiczne związków.
Fakt ten znany był od dziesiątków lat. Istniały jednak dwa
Poz. Podst. Wkład do Promień
aktywności przedziału podstawowe problemy:
ufności i) ile i jakie właściwości wpływają na aktywność
R1 For --- biologiczną
ii) jak i l o ś c i o w o opisać wpływ tych właściwości.
R1 Ac -0,15 0,06 Zasługą Hanscha i Fujity było zaproponowanie logicznego
R2 For -0,28 0,07 zestawu cech fizykochemicznych oraz wykazanie (prace
R2 Ac -0,65 0,08 Hanscha), że cechy te rzeczywiście wpływają na aktywność
biologiczną bardzo różnorodnych grup związków. Autorzy
R2 Pro -0,74 0,13
zaproponowali i uzasadnili w oparciu o podstawowe prawa
R3 For --- biofizyki konieczność zastosowania do opisu zależności
R3 Ac -0,56 0,09 struktura - aktywność 3 parametrów fizykochemicznych:
 parametru lipofilowego opisującego zdolność
R3 Pro -0,67 0,16
związku do przenikania przez błony biologiczne i tym samym
R4 OH 0,21 0,07 charakteryzującego właściwości transportowe i resorpcyjne
związku

8
Część VI: Klasyczne metody QSAR
 parametru elektronowego podstawników lub najlepszy, bezpośredni miernik lipofilowości. W zespole
cząsteczki jako całości. Parametr taki opisuje rozkład gęstości Hanscha w trakcie wyznaczania wartości współczynników
elektronowej w cząsteczce, a tym samym reaktywność podziału stwierdzono dla wielu podstawników, że ich wpływ
związku i jego zdolność do elektrostatycznego oddziaływania na logP jest stały i niezależny zarówno od struktury bazowej
z celem molekularnym. do której ten podstawnik jest przyłączony jak i od obecności
 parametru sterycznego opisującego geometrię innych podstawników. Wyrażając to samo inaczej, obserwacja
cząsteczki, a w szczególności zawadę przestrzenną w ta sugerowała, że wpływ podstawników na lipofilowość ma
sąsiedztwie miejsc reaktywnych lub ogólną wielkość i kształt charakter addytywny. Dalsze, szczegółowe prace zespołu
cząsteczki. Umożliwia to uwzględnienie dopasowania związku Hanscha doprowadziły do potwierdzenia tej hipotezy i
do jego celu komórkowego. zaproponowania nowej stałej charakteryzującej podstawnik:
W pierwszych swoich pracach Hansch zastosował stałej lipofilowości . Definiowana jest ona dla danego
najprostszy z możliwych modeli opisujących zależność podstawnika X jako:
aktywności biologicznej od właściwości fizykochemicznych -  = logPX - logPH
model liniowy: gdzie: PX - współczynnik podziału związku
logA = ao + a1L + a2E + a3S podstawionego
gdzie: A - aktywność biologiczna PH -współczynnik podziału związku
L - parametr lipofilowy niepodstawionego
E - parametr elektronowy Wartości stałych lipofilowości dla częściej spotykanych
S - parametr steryczny. podstawników przedstawia poniższa tabela.
Wykazano, że model ten, pomimo swego skrajnego
prymitywizmu, całkiem dobrze (adekwatnie) opisuje wiele Tab.VIII.8. Wartości stałych lipofilowości  dla częściej
przypadkach obserwowanych zależności spotykanych podstawników
struktura - aktywność. Stwierdzono również, że w znacznej
Podstawnik  Podstawnik 
liczbie przypadków zależność aktywności biologicznej od
lipofilowości nie jest liniowa, lecz charakteryzuje się Br 0,86 CHO -0,65
obecnością wyraźnego maksimum. W tej sytuacji Hansch CH3 0,50 CH=NOH -0,38
rozszerzył swój model dodając do niego człon kwadratowy. CH2 0,50 COCH3 -0,55
Powstało w ten sposób tzw. pełne równanie Hanscha o CF3 0.88 CONH2 -1,49
postaci: etyl 1,02 COOCH3 -0,01
logA = ao + a1L + a2L2 + a3E + a4S
propyl 1,55 COOCH2CH3 0,51
Wartości liczbowe współczynników ai oblicza się metodą i-propyl 1,53 CH2COOH -0,72
regresji wielorakiej (ang. Multiple Regression Analysis MRA).
CH2OH -1,03 CH2CONH2 -1,68
Ponieważ równanie Hanscha ma służyć m.in. do celów
prognostycznych (przewidywanie aktywności nowych CH2NH2 -1,04 CH2COOCH3 -0,69
pochodnych), więc podstawowym wymogiem jest CCH 0,40 4-pirydyl 0,32
wiarygodność uzyskanych wartości współczynników. Jednym CN -0,57 fenyl 1,89
z podstawowych wielkości określających tą wiarygodność jest
liczba związków w badanej serii. Z rozważań statystycznych
Hansch zaproponował również sposób obliczania logP dla
wynika, że powinno ich być conajmniej po 4  5 na każdy całych związków bazując na danych dla kilkudziesięciu
parametr. W przypadku pełnego równania Hanscha oznacza to
związków bazowych, wartościach  podstawników oraz
potrzebę użycia 5  4 = 20 związków. poprawkach na wiązania wielokrotne i rozgałęzienia. Np. :
Dla danej serii związków należy przede wszystkim określić
wiązanie podwójne  = -0,30
czy wszystkie człony równania mają statystycznie istotny
wiązanie potrójne  = -0,52
wpływ na aktywność. Dokonuje się tego poprzez ocenę
istotności wsółczynników równania. Ostateczne równanie rozgałęzienie  = -0,20
powinno być: CH2 w pierścieniu  = 0,41
 istotne jako całość: test F Snedecora -CH=CH-CH=CH-  = 1,35
 posiadać tylko istotne współczynniki: dla każdego System ten posiadał jednak szereg niedogodności. Przede
współczynnika test t Studenta wszystkim dla uwzględnienia wpływu sąsiedztwa
 być adekwatne: test 2. podstawników wymagał bardzo rozbudowanego systemu
W metodzie Hanscha kluczową rolę odgrywa poprawek, co w połączeniu z drugim mankamentem:
poprawny dobór właściwości fizykochemicznych niejednoznacznością, czyniło go metodą obarczoną dużą dozą
korelowanych z aktywnością biologiczną. W klasycznych subiektywizmu. Dwa poniższe przykłady obrazują zakres
pracach Hanscha jako parametr lipofilowy wykorzystywany niejednoznaczności tego systemu.
był log(P), czyli współczynnik podziału w układzie Dibenzyl: -CH2-CH2-.
n-oktanol : woda. Jako parametr elektronowy podstawników Logarytm współczynnika podziału dla dibenzylu
Hansch zastosował stałe Hammetta , a jako parametr obliczyć można z co najmniej trzech schematów:
steryczny podstawników stałe Tafta Es. Inni autorzy a) 2logP(H) + 2(CH2) = 22,13 + 20,5 = 5,26
wykorzystali inne właściwości fizykochemiczne do wyrażenia b) logP(H) + 2(CH2) + () = 2,13 + 20,5 + 1,89 = 5,02
trzech podstawowych zdaniem Hanscha parametrów: c) 2(CH2) + 2() = 20,5 + 21,89 = 4,78
lipofilowego, elektronowego i sterycznego. Poniżej omówione Rzeczywista, zmierzona wartość logP dla dibenzylu wynosi
zostaną właściwości fizykochemiczne najczęściej 4,81.
wykorzystywane do określania w/w parametrów. Toluen: -CH3
Również dla tak prostego związku jak toluen, logP
8.2.1. Parametry lipofilowe.
obliczyć można conajmniej 2 sposobami:
Jak już wspomniano, pierwszym parametrem
a) logP(H) + (CH3) = 2,31 + 0,5 = 2,81
opisującym właściwości lipofilowe związków był logarytm
współczynnika podziału w układzie n-oktanol : woda (bufor). b) logP(CH4) + () = 0,9 + 1,89 = 2,79
Parametr ten jest ciągle używany, gdyż uznawany jest za

9
Część VI: Klasyczne metody QSAR
W tym przypadku z obydwu sposobów otrzymujemy bardzo n
zbliżone wartości logP. log P   a i  f i
Szczegółowa analiza tego typu niejednoznaczności i 1

oraz szczególnie dużych różnic pomiędzy wartościami logP gdzie: fi - stała hydrofobowa fragmentu i
obliczonych w/g różnych sposobów skłoniła Nysa i Rekkera ai - liczba określająca ile razy fragment i występuje
(1973) do zaproponowania innego modelu służącego do w cząsteczce
oblicznia logP. W modelu tym nie wyróżnia się struktury n - łączna liczba fragmentów w cząsteczce.
bazowej i podstawników, lecz całą strukturę traktuje się jako Zgodnie z tym modelem logP dibenzylu oblicza się ze wzoru
złożoną z fragmentów. Każdy z fragmentów wnosi addytywnie (Tab.VIII.9):
swój wkład do końcowej wartości logP: logP(-CH2-CH2-) = 2f() + 2f() = 21,896
+ 20,527 = 4,85

Tabela VIII.9. Stałe hydrofobowe wyznaczone przez Nysa i Rekkera dla typowych składników związków organicznych.
Fragment falif. faromat. Fragment faromat i fheterocykl
C 0,14 0,14 CAr 0,158
.
CH 0,236 0,236 C Ar 0,297
CH2 0,527 0,527 CHAr 0,344
CH3 0,702 0,702 (N) -0,98
CH2=CH 0,93 0,93 (O) 0,10
CH=C 0,51 0,51 (S) 0,44
H 0,193 0,193 (NH) -0,60
F -0,51 0,425 pirolil 0,59
Cl 0,06 0,930 furanyl 1,22
Br 0,24 1,169 tienyl 1,62
J 0,59 1,456 pirydynyl 0,543
O -1,536 -0,458 chinolinyl 1,85
OH -1,440 -0,374 fenyl (C6H5) 1,896
OCH3 -0,834 0,244 (C6H4) 1,732
N -2,133 -1,07 (C6H3) 1,477
NH -1,864 -0,93 naftyl 3,17
NH2 -1,380 -0,911
NO2 -1,06 -0,089
COOH -1,003 0,000
-
COO -1,281 -0,40
OCH2COOH 1,21 -0,609
CONH2 -1,99 -1,26
=C=0 -1,69 -0,99
CN -1,13 -0,20

Nys i Rekker obliczyli wartości stałych 2,4,6-trichlorofenol


hydrofobowych fi stosując metodę regresji krokowej dla logP = f(C6H3) - f(H)arom + f(OH)arom + 3f(Cl)arom =
zestawu 154 związków o znanych logP. Obliczono zarówno 1,896 - 0,193 - 0,374 + 30,93 = 3,70
stałe hydrofobowe dla typowych fragmentów kilkuatomowych chloropromazyna
(grup funkcyjnych, podstawników) jak i dla pojedynczych
atomów, w tym różnego typu atomów węgla w pierścieniach N
aromatycznych i heterocyklicznych. Stwierdzono przy tym, że N
atomy węgla wspólne dla pierścieni skondensowanych mają Cl
wartość fi ok. dwa razy większą niż inne aromatyczne atomy
węgla. Autorzy oznaczyli je symbolem C.Ar. Stałe S
hydrofobowe dla atomów i grup funkcyjnych występujących w
typowych związkach organicznych zestawiono w Tab.VIII.9. logP = 7f(CHAr) + 4f(C.Ar) + f(CAr) + f(Cl)arom +
Poniższe przykłady obrazują sposób obliczania logP + f(S)arom + f(NH)het + f(CH2) + 2f(CH3) +
przy pomocy stałych hydrofobowych oraz pozwalają + f(N)alif = 5,38
porównać uzyskane wartości z danymi doświadczalnymi. wartości doświadczalne : 5,16; 5,35 i 5,32
n-propylobenzen: -CH2-CH2-CH3
W przypadku związków ulegających dysocjacji w
logP = f() + 2f(CH2) + f(CH3) = 1,896 +20,527 +
pH fizjologicznym obliczanie logP bardzo się komplikuje.
0,702 = 3,65
Wartość logP formy zjonizowanej jest dużo mniejsza niż dla
wartość doświadczalna : 3,69
formy niezdysocjowanej. Dla związków częściowo
eter fenylowo-allilowy: -O-CH2-CH=CH2 zdysocjowanych w danym pH wprowadzono pojęcie
logP = f() + f(-O-)arom + f(CH2) + f(CH=CH2) = współczynnika dystrybucji który zastępuje współczynnik
1,896 - 0,458 + 0,527 + 0,93 = 2,90 podziału. W przypadku kwasów definiuje się go wzorem:
wartość doświadczalna : 2,94

10
Część VI: Klasyczne metody QSAR
AH L logS - rozpuszczalność związku w wybranym
D
AH W  A   rozpuszczalniku, np. wodzie lub chloroformie
[P] - parachora: wielkość addytywna wiążąca
gdzie indeks L dotyczy fazy lipidowej, a indeks W fazy
objętość molową cieczy Vc i jej napięcie powierzchniowe .
wodnej. Ponieważ istnieją trudności techniczne z precyzyjnym
W literaturze od wielu dziesiątków lat istnieją tablice parachor
pomiarem stężeń obu form kwasu w roztworach wodnych,
atomowych i parachor wiązań.
więc dla celów praktycznych wprowadzono wzory
przybliżone: Parametry lipofilowe podzielić można, ze względu
dla kwasu: 
log D  log P  log 1  10
pH  pK a
 na sposób ich wyznaczania na dwie klasy:
 parametry doświadczalne dla których wyznaczenia
dla zasady:  pK  pH
log D  log P  log 1  10 a  należy posiadać próbkę analizowanego związku i wykonać na
Chromatograficzne metody wyznaczania parametrów niej odpowiednie pomiary
lipofilowych.  parametry teoretyczne (tablicowe) których wartość
Dla niektórych związków bardzo trudno jest można wyznaczyć dysponując jedynie wzorem związku.
wyznaczyć współczynnik podziału. Dotyczy to np. związków Parametry doświadczalne, wyznaczane dla konkretnych
nietrwałych, zanieczyszczonych lub tworzących stabilne związków zapewniają bardziej adekwatny opis właściwości
emulsje. Dla takich przypadków zaproponowano wyznaczać związków. Mają więc istotne znaczenie na etapie
parametr lipofilowy metodami chromatografii cienko- poszukiwania zależności. Wadą tak uzyskanej zależności jest
warstwowej jako tzw. wartość Rm. Metoda okazała się tak jednak niemożność projektowania na jej podstawie
wygodna, że stosuje się ją również w przypadku związków konkretnych nowych pochodnych. Możliwe jest jedynie
pozbawionych w/w niedogodności. wskazanie trendów (kierunków) zmian. Wady tej pozbawione
Zaletami metody chromatograficznej są: i) małe zużycie są modele oparte na parametrach obliczanych lub tablicowych.
związku; ii) brak wymogu specjalnej czystości; iii) możliwość Po uzyskaniu statystycznie istotnej zależności można na jej
jednoczesnego (na jednej płytce) oznaczania kilku lub nawet podstawie oszacować aktywność związku jedynie na
kilkunastu związków. podstawie jego wzoru.
Stwierdzono, że pomiędzy stałą Rm, a logarytmem 8.2.2. Parametry elektronowe.
współczynnika podziału P istnieje zależność liniowa : Przypuszczano od dawna, że rozkład ładunku w
Rm = alogP + b obrębie cząsteczki ma istotny wpływ na jej reaktywność
gdzie stałe a i b zależą od warunków chromatografii, np. chemiczną i efekty biologiczne. Brakowało jednak prostego
podłoża i składu fazy ruchomej. sposobu opisu zależności pomiędzy rozkładem ładunku a
Dla wyeliminowania innych niż podział efektów właściwościami chemicznymi lub biologicznymi.
chromatograficznych (głównie sorpcji na żelu) stosuje się W roku 1935 Hammett stwierdził, że istnieje
neutralne nośniki, takie jak metylocelulozę, lub liniowa zależność pomiędzy zmianami energii swobodnej
chromatografię faz odwróconych. Istnieje prosta zależność wywołanej wprowadzeniem podstawnika w pochodnych
pomiędzy wielkością Rm a ruchliwością chromatograficzną kwasu benzoesowego, a ich powinowactwem elektronowym.
Rf: Zależność tę dla równowag dysocjacji można wyrazić
 1  wzorem:
R m  log  1 . Ks
R 
 f  log  
W przypadku związków ulegających dysocjacji dla Ko
zapewnienia stałego pH stosuje się buforowaną fazę ruchomą. gdzie: Ks - stała dysocjacji podstawionego kwasu
Burzliwy rozwój chromatografii HPLC, w tym benzoesowego
również na fazach odwróconych, spowodował, że ostatnio Ko - stała dysocjacji kwasu benzoesowego
głównie ta technika stosowana jest do chromatograficznego  - stała charakteryzująca podstawnik (stała
wyznaczania parametrów lipofilowych. Okazało się przy tym, Hammetta)
że wielkością liniowo zależna od współczynnika podziału jest  - stała zależna od warunków pomiaru
skorygowany czas retencji, k’. Jest to jednocześnie typowy Stałe Hammetta stosuje się do układów aromatycznych w
parametr wyznaczany w technikach HPLC. których podstawnik jest w pozycji para lub meta do centralnej
Inne parametry lipofilowe. grupy reagującej. Stałe te opisują w zasadzie wpływ
Oprócz omówionych powyżej, klasycznych metod indukcyjny podstawnika. Przykładowe wartości stałych
wyznaczania właściwości lipofilowych proponowano Hammetta dla typowych podstawników przedstawia poniższa
zastosować szereg innych wielkości. Spośród nich pewne tabela.
zastosowanie znajdują:
Rm dla podstawników - wielkość proporcjonalna
do parametru 

Tab.VIII.10. Wartości stałych Hammetta dla typowych podstawników.


Podstawnik pozycja Podstawnik pozycja
para meta para meta
-O- -1,000 -0,710 Cl 0,228 0,372
-NH2 -0,660 -0,160 -Br 0,232 0,931
-CH3 -0,170 -0,070 -J 0,276 0,352
-OH -0,357 0,000 -NO2 0,778 0,710
-OMe -0,268 0,115 -CF3 0,551 0,415
-F 0,062 0,337 -CN 0,628 0,678

11
Część VI: Klasyczne metody QSAR
Zasługą Hanscha i Fujity jest zastosowanie stałych pracami Hammetta i jego szkoły dostarczył niezbędnych
Hammetta jako opisu właściwości elektronowych serii narzędzi.
związków. Trzeba było dużej dozy odwagi intelektualnej aby Taft badając wpływ podstawników na szybkość
zastosować prosty parametr chemiczny dla opisu wpływu hydrolizy estrów alkoholi alifatycznych i aromatycznych
modyfikacji chemicznej na oddziaływanie leku z jego kwasów karboksylowych podstawionych w pozycji meta
makromolekularnym celem komórkowym. stwierdził, że oprócz stałej Hammetta, czyli wpływów
Oprócz stałej Hammetta w metodzie Hanscha elektronowych, na szybkość hydrolizy wpływa również efekt
stosowane są liczne inne parametry elektronowe. Niektóre z przestrzenny podstawników i zaproponował zależność:
nich są tylko modyfikacjami klasycznej stałej Hammetta. Do ks
takich parametrów należą: log      ES
ko
orto - stała Hammetta dla pozycji orto
I - stała indukcyjna (alifatyczna) Wielkość ES nazwana została stałą Tafta i jest szeroko
R - stała rezonansowa (alifatyczna) stosowana dla opisu zawady przestrzennej podstawników
* - stała polarności (alifatyczna) zarówno w badaniu reaktywności chemicznej jak i zależności
F - aromatyczna stała indukcyjna struktura chemiczna - aktywność biologiczna.
R - aromatyczna stała rezonansowa Ogólna koncepcja wpływu zawady przestrzennej
Istnieją również stałe elektronowe oparte na odmiennych niż została szeroko przyjęta i rozbudowana dla innych
stała Hammetta podstawach fizykochemicznych. Do szczegółowych przypadków. I tak wprowadzono:
najczęściej stosowanych w badaniach QSAR należą: E So - stałą Tafta dla podstawników w pozycji orto
pKa lub pKa - stała dysocjacji lub jej zmiana w stosunku
E Sm - stałą Tafta dla podstawników w pozycji meta
do związku odniesienia
  1 M - polaryzowalność molowa E SC - stałą Hancock'a uwzględniającą hiperkoniu-
 
2  gację wodorów 
 - stała dielektryczna Stała Tafta i jej analogi znajduje zastosowanie jedynie w
M - masa cząsteczkowa przypadku serii związków będących prostymi, podstawionymi
 - gęstość w tym samym miejscu, pochodnymi tej samej sztywnej
 - moment dipolowy struktury bazowej. Nie nadają się zupełnie do opisu bardziej
 - przesunięcie chemiczne w NMR zróżnicowanych serii związków lub pochodnych o pewnej
1/ - położenie maximum absorpcji w widmach UV/VIS swobodzie konformacyjnej. Dlatego opracowano całą gammę
Rozwój metod obliczeniowych chemii kwantowej parametrów opisujących wielkość i ogólny kształt cząsteczki:
spowodował, że jako parametry elektronowe w badaniach  V - objętość molową
QSAR zaczęto również stosować wielkości kwantowo-  rV - promień Van der Waalsa podstawnika
chemiczne. Do najczęściej używanych parametrów tego typu * VV - objętość cząsteczki z uwzględnieniem promieni
należą energie tzw. orbitali granicznych: Van der Waalsa
HOMO - energia najwyższego obsadzonego orbitalu (ang.  Dij - odległość pomiędzy wybranymi atomami i i j
Highest Occupied Molecular Orbital)  parametry STERIMOL - grupa 5 parametrów
LUMO - energia najniższego nieobsadzonego orbitalu opisujących kształt cząsteczek. Parametry te nadają się
(ang. Lowest Unoccupied Molecular Orbital) szczególnie dla sztywnych cząsteczek
Wartości energii tych orbitali są miarą podatności cząsteczki  parametry Kiera: molecular connectivity  i molekularne
jako całości do oddawania (HOMO) lub przyjmowania indeksy kształtu  - na bazie grafu reprezentującego
(LUMO) elektronów. Oprócz takich globalnych parametrów pozbawiony atomów wodoru szkielet cząsteczki można
elektronowych metody obliczeniowe chemii kwantowej otrzymać szereg parametrów opisujących topologię
dostarczają również parametrów opisujących bardziej cząsteczki
"lokalne" właściwości fragmentów cząsteczki. Parametrami Dla poprawnego wyznaczenia wartości parametrów tego typu,
takimi są np. ładunki cząstkowe wybranych atomów lub rzędy za wyjątkiem parametrów Kiera, potrzebna jest znajomość
określonych wiązań. rzeczywistego kształtu cząsteczek. Bardzo często
Obliczenia kwantowo-chemiczne pozwalają również na wykorzystuje się w tym celu metody modelowania
oszacowanie wartości takich doświadczalnych parametrów molekularnego w tym również półempiryczne metody chemii
elektronowych jak np. moment dipolowy, energia jonizacji lub kwantowej. Innym źródłem informacji o kształcie cząsteczki
wartość przesunięcia chemicznego w NMR. mogą być struktury otrzymane metodami analizy dyfrakcyjnej
Podobnie jak w przypadku parametrów lipofilowych monokryształów.
dysponujemy więc również w przypadku parametrów Ponieważ kształt cząsteczki ma wiele aspektów i nie
elektronowych dwoma typami parametrów: wydaje się możliwe pełne jego określenie przy pomocy
 parametrami doświadczalnymi dla których pojedynczej wielkości liczbowej zaproponowano jego opis
wyznaczenia należy posiadać próbkę analizowanego związku i przy pomocy rodziny parametrów z których każdy opisuje
wykonać na niej odpowiednie pomiary inny jego aspekt. założeniu to legło u podstaw parametrów
 parametrami teoretycznymi (tablicowymi) których typu STERIMOL oraz indeksów Kiera.
wartość można wyznaczyć dysponując jedynie proponowanym Parametry STERIMOL.
wzorem związku. Bardzo prostym, ale skutecznym opisem kształtu sztywnych
8.2.3. Parametry steryczne. cząsteczek są tzw. parametry STERIMOL. Opisują one 5
Przed opublikowaniem prac Hanscha i Fujity maksymalnych wymiarów cząsteczki. Przed przystąpieniem do
wydawało się, że opis kształtu cząsteczki nastręczać będzie ich wyznaczania należy przyjąć określoną orientację każdej z
szczególnie wiele problemów przy poszukiwaniu zależności cząsteczek. Zwykle w tym celu wybiera się jeden z atomów
struktura - aktywność. Na szczęście rozwój w latach '50 i na każdej z cząsteczek stanowiących badaną serię jako tzw. atom
początku '60 tzw. fizycznej chemii organicznej będący bazowy i lokuje się go w początku układu współrzędnych. Z
wynikiem sukcesu koncepcji wpływu podstawników na kolei definiuje się dwa wiązania w których ten atom
właściwości chemiczne całej cząsteczki zapoczątkowany

12
Część VI: Klasyczne metody QSAR
uczestniczy i określa się ich orientację w stosunku do układu potrzebna znajomość rzeczywistego, trójwymiarowego
współrzędnych. kształtu cząsteczki: wystarcza wzór strukturalny. W ujęciu tym
wzór cząsteczki traktowany jest jako graf: zespół węzłów
RNH NO połączonych wiązadłami. Do najpopularniejszych parametrów
2

C* tego typu należą zaproponowane przez Kiera i Halla indeksy 


(molecular connectivity) oraz zaproponowane przez Kiera
molekularne indeksy kształtu . Parametry te opisują w formie
N rodziny indeksów różne aspekty kształtu podstawnika lub
Prześledźmy to podejście na przykładzie pochodnych całej cząsteczki bazując na wzorze strukturalnym
1-nitro-9-aminoakrydyny. Jako atom bazowy wybierzmy pozbawionym atomów wodoru.
węgiel w pozycji 9 (na rysunku powyżej oznaczony Rodzinę indeksów m  , gdzie m = 0, 1, 2 i 3,
gwiazdką). Przyjmijmy ponadto, że: obliczyć można przypisując każdemu węzłowi grafu (atomowi
- wiązanie C9-N9 pokrywa się z osią Ox niewodorowemu) wielkość  określającą liczbę innych
i
- układ pierścieni znajduje się w płaszczyźnie Oxy
węzłów bezpośrednio z nim związanych. Poszczególne
- pierścień z grupą nitrową leży z zakresie
indeksy molecular connectivity obliczamy w/g poniższych
dodatnich współrzędnych y
wzorów, przy czym:
Dla tak zorientowanej cząsteczki określa się teraz 5
charakterystycznych wymiarów: - indeks 0  jest sumą udziałów poszczególnych
- długość W, czyli maksymalny rozmiar wzdłuż osi Ox atomów i
- wysokość U, czyli maksymalny wymiar na dodatniej 1
części osi Oy
[7.1.] 0

i i
- głębokość D, czyli maksymalny wymiar na ujemnej
części osi Oy 1
- indeks  jest sumą udziałów r wiązań
- szerokość w lewo L, czyli maksymalny wymiar ujemny 1
[7.2.] 
 
1
na osi Oz
- szerokość w prawo R, czyli maksymalny wymiar dodatni r i   j
r
na osi Oz. 2
Rys.8.3. przedstawia powyższe parametry dla cząsteczki - indeks  jest sumą udziałów s trójek atomów
1-nitro-9-metyloaminoakrydyny. [7.3.] 1

 
2

s i   j  k
s
3 3
- istnieją dwa indeksy :  P dla liniowego
U
ułożenia czwórki atomów i 3  dla ułożenia gwiaździstego
C
[7.4a.] 1
3
  P        l 
t i j k t
[7.4b.] 1
C  
 
3
D
u i   j   k  l
u
Obliczenia indeksów molecular connectivity dla 5 izomerów
heksamu przedstawia poniższy przykład.
W
L R Przykład 8.5. Indeksy molecular connectivity dla
Rys.8.3: Sposób definiowania parametrów STERIMOL na izomerów heksanu.
przykładzie pochodnej 1-nitro-9-metyloaminoakrydyny. Kolorem Rozpocznijmy od wypisania struktur i wartości  dla
fioletowym zaznaczono atomy wykorzystywane przy orientacji i
cząsteczki. wszystkich 5 izomerów heksanu:

Parametry Kiera.
Innym bardzo popularnym podejściem do opisu
kształtu cząsteczek jest zastosowanie teorii grafów. W
odróżnieniu od parametrów STERIMOL nie jest przy tym

1 2 2 1 1 1
2 2 1 3 1
3 2 2
1 1 3 3
4
1 2 2 1
1 2 1 1
1 1 1
2-metylopentan 3-metylopentan 2,2-dimetylobutan
heksan 2,3-dimetylobutan

Teraz dla każdego z nich obliczmy indeksy Kiera.

13
Część VI: Klasyczne metody QSAR
Heksan. 2-Metylopentan.
0 1 1 0 1 1 1
  2  4  4,828   3  2   4,992
1 2 1 2 3
1 1 1 1 1 1 1
  2  3  2,914 1
  2  
1 2 22 1 2 1 3 22 23
 2,770
2 1 1 2 1 1 1 1
  2  2  1,707    2   2,183
4 8 3 4 6 12
3 1 1 1
P  2    0,957 3
P  3  0,866
8 16 12
3 1
C  0 3
C   0,408
6
3-Metylopentan. 2,3-Dimetylobutan.
0 1 1 1 0 1 1
  3  2   4,992   4  2  5,155
1 2 3 1 3
1 1 1 1 1 1 1 1
  2   2    4 
1 2 1 3 22 23 1 3 3 3
 2,808  2,643
2 1 1 2 1 1
  4   1,922   2  4  2,488
6 12 3 9
1 1 3 1 1
3
P  2   2  1,394 P  2   2  1,394
6 12 6 12
1 3 1
3
C   0,289 C   0,289
12 12
2,2-Dimetylobutan.
0 1 1 1
  4    5,207
1 2 4
1 1 1 1
  3   2,561
1 2 1 4 24
2 1 1
  3  4  2,914
4 8
3 1 3 1 1
P  3  1,061 C   3  1,561
8 4 8

Dla cząsteczek lub podstawników zawierających 116(1985); L.B.KIER, Quant.Struct.-Act.Relat. 5,1-7(1986);


atomy inne niż węgiel można zastosować dwa podejścia. Po L.B.KIER, Quat.Struct.-Act.Relat. 6,8-12(1987)). W/g Kiera
pierwsze można przyjąć, że ogólny kształt cząsteczki nie są one miarą informacji niesionej przez fragmenty struktury o
zależy w istotny sposób od rodzaju atomów. Przy takim długości m atomów.
założeniu np. indeksy dla alkoholu t-butylowego są takie same Indeks rzędu 0 dotyczy informacji zawartej w poszczególnych
jak dla 2,3-dimetylopropanu. Wykazano, że założenie to atomach i obliczany jest w/g wzoru:
można bezpiecznie stosować gdy cząsteczka zawiera oprócz [7.5.] 0
  iA
węgla atomy tlenu i azotu. W przypadku gdy w skład gdzie: A - liczba niewodorowych atomów cząsteczki
cząsteczki wchodzą atomy których wielkość wyraŸnie i - zawartość informatyczna obliczana zgodnie z
odbiega od wielkości atomów węgla (fluor, siarka, chlor i.t.p.)
poprawniejsze jest drugie podejście. Polega ono na
równaniem Shannona jako i   p log p
 k
 k gdzie
k
modyfikacji wartości  dla atomów odpowiednio do ich
i sumowanie biegnie po wszystkich k rodzajach rozróżnialnych
wielkości. atomów, a pk jest prawdopodobieństwem znalezienia atomu
Molekularne indeksy kształtu m  bazują na trochę danego rodzaju.
innych podstawach (L.B.KIER, Quat.Struct.-Act.Relat. 4,109- Indeks rzędu 1 dotyczy wiązań i obliczany jest ze wzoru:

14
Część VI: Klasyczne metody QSAR
[7.6.] 1 AA  12  A  1A  32
  dla nieparzystego A
1 P 2 [7.8.]
3

 3 2
P  
 A  3A  2  dla parzystego A
1 2
gdzie: P jest liczbą wiązań w cząsteczce pozbawionej
atomów wodoru.
Indeks rzędu 2 dotyczy trójek bezpośrednio z sobą


3
P  
2

związanych atomów i obliczany jest ze wzoru: Poniższy przykład zawiera wyniki obliczeń molekularnych
indeksów kształtu dla izomerów heksanu.
[7.7.] 2

A  1A  22
2 P2 Przykład 8.6. Molekularne indeksy kształtu dla
izomerów heksanu
2
gdzie: P jest liczbą trójek atomów.
Indeks rzędu 3 dotyczy czwórek związanych z sobą atomów i
obliczany jest w/g jednego z poniższych wzorów:

1 2 2 1 1 1
2 2 1 3 1
3 2 2
1 1 3 3
4
1 2 2 1
1 2 1 1
1 1 1
2-metylopentan 3-metylopentan 2,2-dimetylobutan
heksan 2,3-dimetylobutan
Rozpocznijmy od wyznaczenia zawartości informacji i dla wszystkich 5 izomerów heksanu:
heksan:
6
 6 6  6 6  6
i  2 log 2  2 log 2  2 log 2  3  2 log 2  0,4771
6
 6
2-metylopentan: i  2 log2   4  1 log1   0,6778
6 6 6 6
3-metylopentan; i  2  2 log2   2  1 log1   0,5775
6 6 6 6
2,3-dimetylobutan: i 4
6
log 4
6
  2
6
log 2
6
  0,2764
2,2-dimetylobutan: i 3 log   3  log   0,5396
3 1 1
6 6 6 6
Należy jeszcze ustalić liczbę par, trójek i czwórek atomów. Jest to bardzo podobne do postępowania omówionego w Przykł.7-V.
Możemy teraz obliczyć wartości poszczególnych indeksów:
1 2 2 1 1 1
2 2 1 3 1
3 2 2
1 1 3 3
4
1 2 2 1
1 2 1 1
1 1 1
2-metylopentan 3-metylopentan 2,2-dimetylobutan
heksan 2,3-dimetylobutan
i = 0,4771 = 0,6778 = 0,5775 = 0,2764 = 0,5396
0
 2,863 = 4,067 = 3,465 = 1,659 = 3,238
1 =5 =5 =5 =5
P =5
1
 6 =6 =6 =6 =6
2 =5 =5 =6 =7
P =4
2
  2,813 = 1,800 = 1,800 = 1,250 = 0,918
3 =3 =4 =4 =3
P =3
3
  5,333 = 5,333 =3 =3 = 5,333

Cechą charakterystyczną molekularnych indeksów kształtu,


odróżniającą je korzystnie od indeksów molecular 8.2.4. Parametry zero-jedynkowe.
connectivity, jest możliwość przypisania każdemu z nich Nie wszystkie elementy budowy chemicznej serii
interpretacji geometrycznej. I tak: związków daje się łatwo ująć w formę parametrów
0 lipofilowych, elektronowych lub sterycznych. Dotyczy to w
 - wskaźnik symetrii. Jego wartość spada ze wzrostem szczególności sytuacji gdy w obrębie analizowanej serii
symetrii cząsteczki.
znajduje się podgrupa związków wyróżniająca się jakimś
1
 - wskaźnik wielkości. Wszystkie niecykliczne cząsteczki elementem struktury. Można wtedy wprowadzić dodatkowy
o tej samej liczbie atomów niewodorowych mają taką parametr przyjmujący wartość 1 gdy element ten jest w
samą wartość 1  równą liczbie atomów A. Tym strukturze obecny i 0 przy jego braku. Podejście takie jest w
samym jest to miara "wielkości" cząsteczki. Obecność istocie połączeniem metody Hanscha z koncepcją
w cząsteczce fragmentów cyklicznych obniża wartość Free-Wilsona. Zastosowanie jednego lub więcej parametrów
indeksu i to tym bardziej im więcej jest pierścieni. tego typu pozwala zastosować do opisu cząsteczki typowe
2
 - wskaźnik linearności. Wartości tego indeksu zależą od parametry lipofilowe, elektronowe i steryczne bez
stopnia rozgałęzienia cząsteczki i jej sferyczności. konieczności poszukiwania specyficznych parametrów
Przyjmuje największe wartości dla struktur liniowych, dostarczających adekwatnego opisu różnych podgrup
nierozgałęzionych. występujących w naszej serii związków.
3
 - wskaźnik centralności rozgałęzienia. Wartości tego 8.2.5. Interpretacja modelu Hanscha.
indeksu kodują obecność i lokalizację rozgałęzienia w Uzyskanie adekwatnego opisu zależności
strukturze niecyklicznej. struktura - aktywność przy pomocy równania Hanscha niesie z

15
Część VI: Klasyczne metody QSAR
sobą dwojakiego rodzaju korzyści: prognostyczne i czynnych. Występowanie lub brak w uzyskanym modelu
poznawcze. określonych członów sugeruje istotność takich a nie innych
Po pierwsze umożliwia ono przewidzenie kierunku oddziaływań dla aktywności biologicznej w testowanym
poszukiwań nowych pochodnych o korzystniejszych układzie. Poniżej zestawiono typową interpretację roli
właściwościach biologicznych i farmakologicznych. Jest to poszczególnych członów i parametrów w równaniu Hanscha.
dotychczas główny cel stosowania tej metody: uzyskanie Obecność w równaniu członu opisującego
informacji prognostycznych. Do tej samej grupy informacji w ł a ś c i w o ś c i l i p o f i l o w e (logP,  lub RM)
należy również uzyskanie podstaw dla przerwania dalszych oznacza, że w układzie istotny jest transport związku lub jego
poszukiwań gdy z analizy równania wynika, że nie ma wiązanie z elementami surowicy. Występowanie członu
realnych szans na uzyskanie pochodnych o istotnie lepszych kwadratowego pozwala wyznaczyć optymalne właściwości
cechach biologicznych. Warto wtedy czasami poszukać lipofilowe. Brak tego członu wskazuję, że znajdujemy się z
podstawników o podobnych właściwościach fizyko- dala od optimum (można się spodziewać poprawy
chemicznych determinujących aktywność, ale jednocześnie aktywności), a znak współczynnika dostarcza informacji o
zmieniających cechy niekorzystne np. brak rozpuszczalności, kierunku zmian.
nietrwałość chemiczną lub też łatwiejszych w syntezie: tańsze Istotność parametru elektrono-
substraty, obejście zastrzeżeń patentowych. w e g o typu stałej Hammetta wskazuje na istotność efektów
Z drugiej strony, ponieważ w równaniu Hanscha elektronowych. W zależności od tego jaki konkretny rodzaj
występują parametry mające określony sens fizyczny jest stałej okaże się istotny mamy podstawy do snucia hipotez o
możliwe uzyskanie tą drogą pośrednich informacji o mechanizmie oddziaływania z receptorem:
mechanizmie działania badanej grupy związków biologicznie

Stała Sugestie
m lub p Istotna rola zmian gęstości elektronowej w pierścieniu aromatycznym. Przypuszczalnie
istotną rolę odgrywa zmiana jonizacji cząsteczki i/lub oddziaływania ładunek-ładunek lub
ładunek-dipol.
- Istotna rola oddziaływań z wolnymi parami elektronowymi
+ Istotna rola oddziaływań nukleofilowych
HOMO Cząsteczka ulega jonizacji (oddaje elektron lub przyjmuje proton)
LUMO Cząsteczka przyjmuje elektron lub parę elektronów

Obecność w równaniu Hanscha p a r a m e t r u badań było określenie ilościowych zależności pomiędzy


e l e k t r o n o w e g o opisującego rozkład elektronów w właściwościami estrów i amidów edeiny A, a ich aktywnością w
cząsteczce wskazuje na znaczenie różnego rodzaju stosunku do modelowych komórek pro- i eukariotycznych.
Zaplanowano otrzymanie 10 pochodnych tego antybiotyku na
oddziaływań pomiędzy polami elektrycznymi targetu i grupie karboksylowej (patrz wzór powyżej):
związku biologicznie czynnego. Występowanie w równaniu - 4 estrów alkilowych: metylowego, etylowego, butylowego i
refrakcji molowej RM lub polaryzowalności  sugeruje, że amylowego
pomiędzy lekiem i targetem dochodzi do indukowanych - 3 amidów alifatycznych: etylowego, butylowego i heksylowego
interakcji dipol-dipol. Jeśli istotny dla aktywności - 3 amidów z dodatkową grupą aminową: 2-N,N-dimetylo-
biologicznej jest moment dipolowy  to prawdopodobnie aminoetylowego, 4-aminobutylowego i 5-N,N-dime-
tyloaminoamylowego
mamy do czynienia z interakcją typu dipol-ładunek, a jeśli
Łącznie z edeiną oraz produktem wewnątrzcząsteczkowej
kwadrat momentu dipolowego to interakcja typu dipol-dipol cyklizacji tworzy to serię 12 związków. Dla całej serii oznaczono
indukowany. aktywność biologiczną w 3 testach mikrobiologicznych:
- drożdze S.cerevisiae
8.2.6. Przykłady zastosowań. - bakterie Gram+ B.subtilis
Poniżej przedstawiono trzy przykłady zastosowania - bakterie Gram- E.coli
metody Hanscha do poszukiwania zależności Jako miarę aktywności przyjęto pIC50.
struktura - aktywność dla różnych grup związków. Właściwości fizykochemiczne opisano przy pomocy:
2 parametrów lipofilowych
Przykład 8.7: Estry i amidy edeiny A (J. Mazerski, B. * RM w układzie n-butanol/pirydyna/kwas
Woynarowska & E. Borowski, Proceedings of the XVth octowy/woda = 6/2/3/5 na
celulozie
European Peptide Symposium, Gdańsk 1978, str.373-375) *  z tablic
+ NH 2 parametrów sterycznych
+ 3

NH H
3
O O CH
2
H * refrakcja molowa MR
H
NH * molecular connectivity w/g Kiera 
NH NH
- NH
+ 5 parametrów binarnych opisujących:
H
HO H O H COO 3 * typ pochodnej (ester 1, amid 0) IE
HO HO * typ pochodnej (ester 0, amid 1) IA
NH
* obecność atomy azotu w podstawniku DN
O
+ * wypadkowy ładunek cząsteczki q
Edeina A + NH
2
NH
* ilość grup aminowych w cząsteczce n
NH
3
Nie użyto parametrów elektronowych, gdyż przy
O
zastosowanych typach pochodnych nie mają one istotnego
Edeina A należy do grupy antybiotyków peptydowych
znaczenia.
produkowanych przez bakterię Bacillus brevis. Antybiotyki tej Ponieważ nie należy używać w jednym równaniu
grupy charakteryzują się szerokim spektrum dwóch lub więcej parametrów tego samego typu w pierwszym
przeciwbakteryjnym i przeciwgrzybowym. Wykazują również etapie analizy zastosowano pary równań zawierające RM i
aktywność immunosupresyjną i cytotoksyczną. Niestety refrakcję molową MR lub indeks Kiera. W każdym z równań
charakteryzują się również bardzo wysoką toksycznością w stosowano wszystkie parametry binarne. Przy ustalaniu równań
stosunku do organizmów wyższych. Celem omawianych tu

16
Część IV: Metody QSAR
modelu zastosowano metodę odrzucania uzyskując dla dawki obniżającej o 50% ciężar guza w mysim mięsaku Sa-
poszczególnych drobnoustrojów następujące pary równań: 180. Jako parametry fizykochemiczne przyjęto:
S.cerevisiae * parametr lipofilowy Hanscha 
(1) pIC50 = -2,2 RM - 0,038 MR + 0,50q - 2,69 * 4 różne tablicowe parametry steryczne.
W I etapie analizowano 4 różne równania Hanscha (po jednym
R = 0,913
dla każdego parametru sterycznego). Ze wszystkich po
(2) pIC50 = -1,4 RM - 0,044()2 - 0,91 zastosowaniu metody odrzucania otrzymano ten sam model:
R = 0,848 pED50 = -0,0742 + 2,57 R = 0,848
B.subtilis Model ten był adekwatny. Tym samym wykazano, że efekty
(3) pIC50 = -1,3 RM - 1,73 steryczne wokół terminalnego atomu azotu nie mają istotnego
wpływu na aktywność przeciwnowotworową (przynajmniej w
R = 0,746 tym teście).
(4) pIC50 = -1,0 RM - 0,17()2 + 0,5()- 1,85 4.0
R = 0,928
E.coli
(5) pIC50 = -1,1 RM + 0,20q - 2,52
R = 0,901
(6) pIC50 = -2,8(RM)2-2,6RM - 0,40() +1,4DN - 1,61 2.0
R = 0,981
Uzyskane zależności wskazują, że we wszystkich testach
aktywności istotny jest wpływ właściwości lipofilowych.
Jednakże zastosowany parametr empiryczny nie pozwala
przewidzieć właściwości związków na etapie ich projektowania.
Dlatego też w II etapie zastosowano wyłącznie parametry 0.0
tablicowe lub obliczane i uzyskano zależności:
S.cerevisiae -5.0 0.0 5.0
(7) pIC50 = 0,33 - 0,10()2 + 0,28q - 1,64 Analizując zakres  jaki obejmują badane związki
R = 0,903 zauważono ważny fakt: wszystkie wartości  były dodatnie i
leżały w przedziałe od 0 do 3. W tej sytuacji nie dziwi wysoka
B.subtilis korelacja pomiędzy zmiennymi  i 2 (r = 0,979). Nasuwało to
(8) pIC50 = 0,44 -0,12()2 + 0,58n - 3,72 wątpliwości co do prawidłowego wyboru przez metodę
R = 0,948 odrzucania kwadratu parametru lipofilowego, a nie samego
parametru, w trakcie usuwania nieistotnych parametrów. Po
E.coli świadomym usunięciu 2 z danych początkowych uzyskano
(9) pIC50 = 0,50 -0,11()2 +0,99DN - 0,79 równanie:
R = 0,956 pED50 = -0,24 + 2,73
Uzyskane równania wskazują, że model zależności powinien R = 0,834
zawierać parametr lipofilowy, steryczny oraz wskaźnik stopnia I to równanie również było adekwatnym modelem zależności.
jonizacji cząsteczki (q, n lub DN; poza edeiną i cykloedeiną Jakość obu modeli jest praktycznie jednakowa i z punktu
parametry te są identyczne). Zastanawiające jest podobieństwo widzenia statystyki są one równocenne. Jednakże wnioski z
uzyskanych równań. Jedynie wpływ stopnia jonizacji jest dla nich płynące są diametralnie odmienne (patrz wykres obok).
każdego testu istotnie różny. Model kwadratowy sugeruje, że maksimum aktywności jest już
Poszukując pochodnej o najwyższej aktywności widzimy że: osiągnięte dla =0 (pEDmax = pED50(0) = 2,57 wobec
i) właściwości lipofilowe: korzystny jest wzrost pED(n-Pro)=2,61, pED(di-Me)=2,53, pED(Et)=2,56). Model
lipofilowości i to znaczny (brak istotności członu kwadratowego) liniowy zapowiada wzrost aktywności dla związków o ujemnym
ii) właściwości steryczne: korzystny możliwie mały
, np. pED(=-1)=2,97, a pED(=-2)=3,21. W tej sytuacji
podstawnik
rozróżnienie pomiędzy obu modelami było sprawą kluczową dla
iii) stopień jonizacji: im większy tym lepiej.
dalszego poszukiwania nowych związków z tej grupy.
Charakterystyczne są sprzeczne przesłanki wynikające z tych
Zaprojektowano więc i wykonano syntezę 4 nowych
postulatów: wzrost lipofilowości i wzrost stopnia jonizacji,
pochodnych: 3 o ujemnym :
wzrost lipofilowości i zmniejszenie podstawnika. W efekcie
wydaje się, że te sprzeczne wymagania najlepiej spełniają ester -CH2-CH2-OH o  = -0,16
i amid butylowy. -CH(CH3)(CH2-OH)2 o  = -0,65
==============================================
-C(CH2-OH)3 o  = -1,81
Przykład 8.8: pochodne Ledakrinu (Zofia Mazerska - oraz pochodną n-heksylową o  = 3,0 dla poszerzenia zakresu
doktorat). zmienności.
W trakcie badań biologicznych żadna z pochodnych
R
1 nie była aktywniejsza niż związki wcześniej zsyntetyzowane.
(CH ) N Ponownie wyznaczono współczynniki równania Hanscha dla 4
2 3
NO N zestawów parametrów i ponownie otrzymano z każdego
2 R
2
zestawu takie same równanie:
pED50 = -0,902 + 0,083 + 2,47
R = 0,887 n = 14 s = 0,11
N
Równanie to opisuje paraboliczną zależność aktywności
H
przeciwnowotworowej od właściwości lipofilowych z maksimum
Analizie poddano serię 10 mono- i dialkilo aktywności pEDmax = 2,47 przypadającym dla ~0,5. Tak więc
pochodnych 1-nitro-9-aminopropyloaminoakrydyny o widać teraz, że bliższy prawdy był poprzednio model
właściwościach przeciwnowotworowych. Jako miarę aktywności kwadratowy.
przeciwnowotworowej przyjęto pED50 - ujemny logarytm z Z uzyskanej zależności widać też wyraźnie, że nie należy się w
tej grupie pochodnych spodziewać związków o aktywności dużo

17
Część IV: Metody QSAR
wyższej niż ok. 2,5, a ewentualne dalsze poszukiwania LUMO. Wpływ energii HOMO jest dużo mniej istotny. Związek
pochodnych o lepszych właściwościach farmakologicznych( o wysokiej aktywności powinien więc charakteryzować się:
mniejsza toksyczność, lepsza rozpuszczalność w wodzie)  logP ~ 8, co odpowiada łańcuchowi C13
dotyczyć powinny związków o  ~ 0,5.  niską (możliwie ujemną) energią LUMO
 wysoką (jak najmniej ujemną) energią HOMO.
Dwa ostatnie wymogi są przeciwstawne, lecz wpływ LUMO jest
4.0 ok. 4 razy silniejszy i on decyduje. Obliczono wartości energii
LUMO i HOMO dla różnych kombinacji grup hydroksylowych w
pozycjach od R2 do R5 i okazało się, że najkorzystniejszymi
wartościami tych energii charakteryzują się związki zawierające
2 grupy hydroksylowe w pozycjach R3 i R4. Związek o takiej
strukturze części aromatycznej i łańcuchu C13 wykazał
znaczącą aktywność przeciwnowotworową w dwóch testach na
2.0 mysich nowotworach przeszczepialnych.
=========================================

8.3. Inne metody regresyjne.


Duża popularność metody Hanscha (był okres w
latach '70, gdy cały QSAR utożsamiano z metodą Hanscha)
0.0 spowodował dążenie do jej poszerzenia na przypadki, gdy
klasyczna metoda zawodziła. Spośród licznych propozycji,
-5.0 0.0 5.0 trwałe miejsce w QSAR znalazły 2 modyfikacje:
 uogólniony model kwadratowy
==============================================
 zależność bilinearna Kubinyiego.
Poniżej zostaną one pokrótce omówione.
Przykład 8.9: Długołańcuchowe fenole o
właściwościach cytotoksycznych (H.Itokawa, N.Totsuka Uogólniony model kwadratowy.
W swej pełnej postaci:
et al., Chem.Pharm.Bull. 37,1619-1621(1989)).
logA = ao + a112 + a222 + a33Es2 +a1 + a2 + a3Es +
(COOH) OH
a12 + a13Es + a23Es
C H uogólniony model kwadratowy wymaga zidentyfikowania 10
15 29

współczynników czyli może być zastosowany tylko w


(OH) przypadku dużej serii związków (co najmniej 4050). Ponadto
Autorzy badając wyciąg z krzewu jarząbu brak jest jak dotychczas uzasadnienia teoretycznego i
japońskiego (Ginkgo biloba L.) stwierdzili cytotoksyczność tych interpretacji sensu fizycznego członów opisujących wpływy
wyciągów. Dalsze badania wykazały, że za aktywność mieszane (ostatnia linia wzoru). Obydwa te wady powodują,
biologiczną odpowiedzialne są fenole zawierające 15 węglowy że w praktyce model ten bywa zwykle stosowany w wersji
łańcuch alifatyczny (patrz struktura po prawej). skróconej zawierającej człony liniowe i 2 lub 3 człony
R R kwadratowe.
2 3
Model bilinearny Kubinyiego
logA
R R
1 4

R
5

Chcąc określić rolę poszczególnych elementów


struktury zsyntetyzowano 29 związków o wzorze ogólnym
zamieszczonym obok (po lewej). W pozycji R1 użyto 5 różnych
łańcuchów alifatycznych od C7 do C15, a w pozycjach od R2
do R5 występowały grupy fenolowe lub atomy wodoru.
Jako miarę aktywności biologicznej przyjęto pED50 w
hodowli komórkowej na linii komórek nowotworowych chomika
syryjskiego.
Jako parametry fizykochemiczne przyjęto: i) logP w
układzie n-oktanol/woda; ii) EHOMO - energię najwyższego logP
obsadzonego orbitalu molekularnego; iii) ELUMO energię W szeregu przypadkach zaobserwowano
najniższego nieobsadzonego orbitalu molekularnego. Energie niesymetryczną zależność aktywności biologicznej od logP
LUMO i HOMO mają swoje przybliżone interpretacje
chemiczne. Energia LUMO opisuje względne właściwości lub . Na lewo od optimum nachylenie jest inne niż na prawo.
elektronoakceptorowe (podatność na redukcję), a energia Dla opisu takich przypadków Kubinyi zaproponował tzw.
HOMO właściwości elektronodonorowe (podatność na zależność bilinearną o postaci:
utlenianie, łatwość protonowania). logA = alogP - blog(P + 1) + c
Nie stosowano stałych Hammetta, gdyż nie są to parametry Przykład krzywej bilinearnej pokazano na wykresie obok. Dla
addytywne i nie nadają się do stosowania w przypadku logP<<logPmax zależność dąży asymptotycznie do prostej o
pochodnych podstawionych jednocześnie w wielu miejscach.
Po zastosowaniu metody Hanscha uzyskano zależność:
równaniu:
logA = alogP + c
pED50 = -0,016(logP)2 + 0,28logP - 4,1ELUMO + 1,1EHOMO
a dla logP >> logPmax dąży do prostej o równaniu:
+ 10,58 logA = (a-b)logP + c - blog
R = 0,905 n = 29 s = 0,18 Podstawową niedogodnością modelu bilinearnego
Aktywność cytotoksyczna badanych fenoli zależy głównie od
jest konieczność nieregresyjnego, iteracyjnego wyznaczania
lipofilowości (optymalny logP = 8,3) i poziomu energetycznego wartości współczynników. Typowe pakiety oprogramowania

18
Część IV: Metody QSAR
statystycznego nie pozwalają na pokonanie tego problemu. bez nadmiernych problemów syntetycznych. Dla tak
Dlatego też model bilinearny stosowany bywa jedynie dobranego zestawu pochodnych, w oparciu o tablicowe
sporadycznie i tylko w przypadku wyraźnej asymetrii wartości parametrów wykonujemy "mapę" - planszę metody-
zależności aktywności biologicznej od właściwości w układzie - (dla aromatycznej struktury bazowej) lub -Es
lipofilowych. (dla alifatycznej struktury bazowej).
Wybieramy teraz trzy pochodne tworzące w pobliżu
9. Nieregresyjne metody optymalizacji struktury środka mapy możliwie równoramienny trójkąt. Wybrane
W latach '70, po wykazaniu słuszności założeń związki syntetyzujemy i oznaczamy ich aktywność
metody Hanscha, jedną z przeszkód w jej szerokim biologiczną. Rozpoczynamy teraz poszukiwanie maksimum
stosowaniu okazała się bariera statystyczno-obliczeniowa. aktywności biologicznej uproszczoną metodą sympleksów
Rozwiązanie równania Hanscha wymaga pewnego nakładu (patrz przykład poniżej). Z wierzchołka trójkąta
pracy obliczeniowej, zwłaszcza gdy należy powtórzyć odpowiadającego pochodnej o najniższej aktywności
kilkakrotnie obliczenia dla różnych zestawów parametrów lub prowadzimy środkową przeciwległego boku i w obszarze
gdy odrzucamy człony nieistotne. Wykonanie takich obliczeń mapy przez który przechodzi ta prosta poszukujemy punktu
ręcznie, nawet z zastosowaniem kalkulatora (a był to na tworzącego nowy, możliwie równoramienny trójkąt. Po
początku lat '70 jeszcze dosyć drogi i rzadki przyrząd), wybraniu nowego wierzchołka syntetyzujemy odpowiadający
wymaga kilku godzin żmudnych obliczeń. Dostęp do mu związek i oznaczamy jego aktywność biologiczną.
komputerów był wtedy bardzo ograniczony. Ponadto Powstał w ten sposób nowy simpleks z którym postępujemy
większość chemików, biologów i farmakologów nie posiadało analogicznie jak z simpleksem poprzednim.
dostatecznej znajomości podstaw statystyki, aby z lawiny Postępowanie przerywamy, gdy osiągneliśmy już maksimum
równań produkowanych przez komputer wybrać prawidłowo aktywności lub wyczerpały się możliwe do otrzymania
to najlepsze. Poniższy przykład ilustruje ten problem. pochodne w kierunku oczekiwanego maksimum.

Przykład 9.1: Liczba uproszczonych równań Przykład 9.2: Metoda Darvasa.


otrzymywanych z równania Hanscha. Tworzymy mapę przedstawiającą właściwości
Klasyczne, pełne równanie Hanscha: lipofilowe () i elektronowe () wybranych pochodnych
aromatycznych podstawionych w pozycjach 3- i 4-pierścienia
logA = ao + a12 + a2 + a3 + a4Es fenylowego.
zawiera 4 człony. Przy rozpatrywaniu uproszczonych wersji 
tego równania mamy: 3NO2;4CF3

 4 równania z jedną zmienną


 6 równań z dwiema zmiennymi 3NO2 ;4Cl
 4 równania z trzema zmiennymi 4NO2
 1 równanie z czterema zmiennymi (pełne) 4CN
3NO 2 4CF3
W sumie 15 równań. Dla każdego z tych równań należy 3Cl;4Cl

obliczyć współczynniki i charakterystyki statystyczne, a 4COMe 3Cl 3CF3


następnie dokonać wyboru rónania lub równań najlepszych. 4Br
4Cl
==============================================
H 
Pojawiły się więc próby opracowania metod 4NHMe 3Me 4Me

projektowania nowych pochodnych bazujące na wiedzy o 4OMe

wpływie właściwości fizykochemicznych na aktywność


biologiczną, ale bez korzystania z równań regresji. Szeroką 4NH2

swego czasu popularność zdobyły dwie z nich:


W pierwszym etapie zaplanowano syntezę trzech związków:
 metoda Darvasa - związku niepodstawionego (logA = 0,155)
 schematy operacyjne Toplissa - 4 -COCH3 (logA = 0,462)
W chwili obecnej, gdy właściwie każdy badacz ma lub może - 4 -Cl (logA = 0,301).
mieć dostęp do komputera osobistego, a rozwój tworzących simpleks początkowy. Związek niepodstawiony
oprogramowania przeznaczonego do opracowywania danych tworzy najgorszy wierzchołek i z niego prowadzimy środkową
doprowadził do sytuacji gdy wyznaczanie współczynników przeciwległego boku.
równań regresji jest sprawą trywialną, metody nieregresyjnej 
optymalizacji struktury utraciły swoje znaczenie. Pomimo to 3NO2;4CF3
warto się zapoznać, choćby pobieżnie, z założeniami tych
metod. 3NO2 ;4Cl

4NO2

9.1. Metoda Darvasa. 4CN


3NO 2 4CF3 3Cl;4Cl
Pomysł opiera się na założeniu, że aktywność
4COMe 3Cl
biologiczna daje się opisać jako ciągła funkcja d w ó c h 3CF3
4Br
parametrów fizykochemicznych: 4Cl

  i  dla pochodnych aromatycznych H 


  i Es dla związków alifatycznych. 4NHMe 3Me 4Me

Postać matematyczna tej funkcji nie jest nam znana i nie 4OMe

dążymy do jej poznania. Naszym celem jest znalezienie


maksimum tej funkcji (aktywności) dzięki jej "próbkowaniu" 4NH2

poprzez syntezę i oznaczanie aktywności odpowiednio


dobranych pochodnych. Z algorytmicznego punktu widzenia Jako nowy wierzchołek wybieramy np. pochodną 4 -NO2.
metoda Darvasa opiera się na metodzie simpleksów. Powstaje w ten sposób drugi simpleks:
- 4 -Cl (logA = 0,301)
W pierwszym etapie należy określić zestaw - 4 -COCH3 (logA = 0,463)
podstawników które można wprowadzić do struktury bazowej - 4 -NO2 (logA = 0,845)

19
Część IV: Metody QSAR
Najgorszym wierzchołkiem jest pochodna 4-chloro i z niej
prowadzimy środkową przeciwległego boku. 
3NO2;4CF3

3NO2;4CF3 3NO2 ;4Cl

4NO2
3NO2 ;4Cl 4CN
3NO 2 4CF3 3Cl;4Cl
4NO2
4CN 4COMe 3Cl
3NO 2 4CF3 3CF3
3Cl;4Cl 4Br
4Cl
4COMe 3Cl 3CF3
4Br H 
4Cl

H  4NHMe 3Me 4Me

4OMe
4NHMe 3Me 4Me

4OMe
4NH2

4NH2 W tej sytuacji jako najaktywniejszy związek uznajemy


pochodną 4-cyjano.
Jako nowy wierzchołek wybieramy np. 4-cyjano. Powstaje w ten =============================
sposób trzeci simpleks:
4-COCH3 (logA = 0,463)
4-NO2 (logA = 0,845)
4-CN (logA = 1,020).
8.2. Schematy operacyjne Toplissa.
Środkowa wyprowadzona z wierzchołka 4-acetylo prowadzi Założeniem metody jest przyjęcie tezy Hanscha, że
jednak w obszar mapy pozbawiony możliwych do aktywność biologiczna zależy od zmian właściwości
zsyntetyzowania pochodnych. fizykochemicznych. Topliss opracował odpowiednie schematy
dla doboru podstawników w pierścieniu benzenowym oraz dla
doboru podstawników w układzie alifatycznym (patrz
poniżej).

Schemat I: Schemat Toplissa doboru podstawników pierścienia benzenowego.


L 3 4 3 4
CF3; Cl CF3; NO2
3 4 T
Cl; Cl 4 2 4 4
CF3 Cl; Cl NO2
G

L 4 3 4
C(CH3)3 CH3 ; CH3
L 3 3 5 3 5
CF3; CF3
3
NO2
4 T CF3 Cl; Cl
4
Cl CH3 T 3
3
G Cl CH3 2 2 2
Cl CH3 OCH 3
G N(CH )
3
32
4 4 4
NO2 CN F
4 4
COCH 3 CONH2
4 4
SO 2 CH3 SO 2 NH2

L 3 4
CH3 ; N(CH3)2
L 4 T
N(CH3)2 4 4 3 4
T G NH2 OH CH 3 ; OCH3
4
OCH 3 3
G Cl

Schematy te umożliwiają wybór kierunku syntezy zależy od lipofilowości więc jako pierwszą pochodną Topliss
następnych związków w zależności od wyników zaproponował pochodną 4-chloro (=0,70; =0,23; Es=0,27).
biologicznych związków poprzednio zsyntetyzowanych. Mogą Pochodna ta może mieć aktywność lepszą (L), taką samą (T)
one być szczególnie pomocne w pracach chemika-syntetyka lub gorszą (G) niż związek niepodstawiony. Wzrost
nie mającego możliwości lub chęci przeprowadzenia obliczeń aktywności może wynikać ze wzrostu lipofilowości i/lub
komputerowych. efektów elektronowych. Dlatego też w przypadku wzrostu
W przypadku podstawników pierścienia aktywności dla 4-chloropochodnej schemat proponuje "pójść
benzenowego startujemy od związku niepodstawionego. za ciosem" i dalej zwiększać oba efekty: pochodna 3,4-
Ponieważ w większości przypadków aktywność biologiczna dichloro (=1,25; =0,52).

20
Część IV: Metody QSAR
Pochodna 3,4-dichloro może być bardziej aktywna niż 4- -CO-R -NHR -CO-NHR i
chloro, mieć taką samą aktywność lub wykazywać spadek -NH-CO-R.
aktywności. I tu znowu schemat przewiduje odpowiednie Schemat opiera się na parametrach , * i Es, z tym że
postępowanie. głównie brana jest pod uwagę lipofilowość i zawada
Analogiczne wnioskowanie przeprowadzić można w sytuacji przestrzenna.
gdy 4-chloropochodna obniża aktywność.
Topliss zaproponował również schemat doboru
podstawnika R w ugrupowaniach typu:

Schemat II: Schemat Toplissa doboru podstawników w układach alifatycznych.


L CH 2C 6H11
c-C 6H11 CH 2CH2 C 6 H11
L T
c-C 5H9
G c-C 4H7 CH 2 c- C3 H5 t- C 4H7

L
CH 3

T T
i- C 3H7 C 2H5
G CHCl 2 CF 3 CH 2 CF 3

CH 2 SCH3 CH 2 C 6H5

H CH 2 OCH3 CH 2 SO2 CH3


G

Obydwie przedstawione tu nieregresyjne metody


optymalizacji struktury mają pewną istotną niedogodność: są
metodami krokowymi. Po syntezie kolejnego związku
czekamy (zwykle długo) na zbadanie jego aktywności
biologicznej i w oparciu o nią planujemy kolejną syntezę.
Prowadzi to do bardzo długiego toku poszukiwania. Jednakże
tylko metodą krokową można uzyskać maksymalny efekt przy
minimalnej ilości syntez.

21
Część IV: Metody QSAR

22

You might also like