Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

Częstochowa, dn. 14 października 2017 r.

Dr hab. inż. Krzysztof Cpałka, prof. PCz


Instytut Inteligentnych Systemów Informatycznych
Politechnika Częstochowska
Al. Armii Krajowej 36
42-202 Częstochowa

Recenzja rozprawy doktorskiej


mgra inż. Łukasza Strobina
pt. „Wyszukiwanie zależności semantycznych w grafowych bazach
danych z zastosowaniem logiki rozmytej i algorytmów genetycznych”,
której promotorem jest
dr. hab. inż. Adam Niewiadomski, prof. PŁ

1. Zakres tematyczny rozprawy


Recenzja rozprawy doktorskiej została przygotowana na podstawie pisma
prof. dra hab. Mykhaylo Yatsymirskyy’ego, Dziekana Wydziału Fizyki Technicznej,
Informatyki i Matematyki Stosowanej. Pismo to jest z dnia 26 czerwca 2017 roku.

Recenzowana rozprawa została napisana w języku polskim, składa się ona z 6.


rozdziałów, zawierającego 159 pozycji wykazu literatury, wykazu rysunków oraz spisu
tabel. Całość została przedstawiona na 109. stronach.

Tematyka rozprawy nawiązuje do zagadnień związanych z wyszukiwaniem


zależności semantycznych w grafowych bazach danych. Zainteresowanie grafowymi
bazami danych sięga lat 90. ubiegłego wieku, a w kontekście konieczności
przetwarzania dużych zbiorów danych w ostatnim czasie zdecydowanie wzrosło. Do
zalet takich baz zaliczyć można m.in. ich wysoką wydajność, łatwą skalowalność, brak
konieczności wstępnego definiowania modelu danych, dużą elastyczność w zakresie
modelowania dziedziny problemu i wygodnego formułowania zapytań, redukcję
trudności odwzorowywania obiektów bazy danych w warstwie aplikacyjnej
korzystającej z obiektowego paradygmatu programowania (tj. ograniczenie tzw.
problemu niedopasowania impedancji obiektowo-relacyjnej), brak trudności
z denormalizacją itd. Zalety grafowych baz danych w zestawieniu z brakiem
ograniczeń wynikających z ich ścisłego definiowania (tj. wysokim poziomem ich
abstrakcji) powodują, że są one chętnie wykorzystywanie m.in. w zagadnieniach
dotyczących sieci społecznościowych, sieci informacyjnych, sieci bibliograficznych,
sieci biologicznych, systemów transportowych, systemów rekomendujących,
systemów ukierunkowanych na wizualizację, w zagadnieniach z zakresu
bezpieczeństwa elektronicznego, detekcji oszustw oraz wielu innych. Należy jednak
podkreślić, że potencjał grafowych baz danych może być odpowiednio wykorzystany
jedynie w powiązaniu z odpowiednio skutecznymi mechanizmami wyszukiwania,
szczególnie zależności semantycznych, a także mechanizmami generowania
lingwistycznych podsumowań. Jeśli dodatkowo w opracowaniu takich mechanizmów
uwzględni się możliwości metod sztucznej inteligencji, wówczas można spodziewać
się uzyskania nieszablonowych i niezwykle użytecznych rozwiązań. Jest to dziedzina,
w której chętnie podejmowane są badania naukowe, m.in. ze względu na możliwość
łatwego ich przełożenia na rozwiązania o charakterze aplikacyjnym. Wyniki Pana
mgra Łukasza Strobina, podsumowane w ramach rozważanej rozprawy doktorskiej,
doskonale wpasowują się we wskazany obszar działalności naukowej. Do ich
uzyskania wykorzystane zostały możliwości m.in. teorii zbiorów rozmytych oraz
inspirowanych naturą algorytmów populacyjnych. Należy podkreślić, że Pan Strobin
opublikował przedstawione w rozprawie doktorskiej wyniki także w 9. naukowych
publikacjach. Jedna z tych prac została wydana w czasopiśmie z tzw. listy filadelfijskiej
(jest to Journal of Intelligent & Fuzzy Systems), znacząca większość pozostałych ukazała
się w recenzowanych materiałach konferencji międzynarodowych, z których część
zaindeksowana została w bazie Web of Science.

W rozdziale pierwszym rozważanej rozprawy, zatytułowanym „Wstęp”


i składającym się z trzech podrozdziałów („Uzasadnienie wyboru tematu”, „Teza rozprawy”
2
i „Cele pracy”), autor w należyty sposób umiejscowił rozważaną w pracy tematykę
w kontekście szerszego zagadnienia, jakim jest eksploracja grafowych baz danych.
Przytoczył on ponadto sformułowaną w pracy tezę oraz postawione cele. Całość
prezentuje się dobrze, szczególnie w kontekście przedstawionego tła literaturowego.
W rozdziale drugim pt. „Algorytmy genetyczne i podsumowania lingwistyczne relacyjnych
baz danych”, składającym się z trzech podrozdziałów („Podstawy relacyjnego modelu
danych”, „Podsumowania lingwistyczne relacyjnych baz danych”, „Algorytmy genetyczne”), autor
zaprezentował sformalizowane podstawy relacyjnego modelu danych Edgara Codda,
akcentując jego najistotniejsze ograniczenia. W dalszej części rozdziału autor
odpowiednio scharakteryzował pojęcie „podsumowanie lingwistyczne” oraz
sformalizował składowe wykorzystywane przy generowaniu podsumowań
korzystających z teorii zbiorów rozmytych. Istotny w rozdziale drugim jest szczególnie
opis miar jakości podsumowań lingwistycznych. W końcowej części rozważanego
rozdziału zamieszczony został opis algorytmu genetycznego oraz wybranych
aspektów jego modyfikacji.
W rozdziale trzecim pt. „Grafowe bazy danych”, składającym się z czterech
podrozdziałów („Grafowy model danych”, „Grafowe bazy danych w praktyce”, „Przegląd
istniejących metod podsumowań grafowych baz danych”, „Istniejące metody wyszukiwania i analizy
zależności semantycznych”), autor przedstawił m.in. teoretyczne podstawy grafowego
modelu danych, który dodatkowo praktycznie porównał do modelu relacyjnego.
W dalszej części rozdziału trzeciego autor zamieścił bowiem autorskie wyniki
obliczeń, które w obrazowy sposób prezentują najistotniejsze zalety powiązania
systemu Neo4j z językiem Cypher na tle właściwości powiązania systemu MySQL
z językiem SQL. Szczególnie ciekawe w kontekście podjętej w pracy tematyki są
jednak dwa ostatnie podrozdziały rozdziału trzeciego. Prezentują one bowiem
zestawienie typowych metod generowania podsumowań oraz wyszukiwania i analizy
zależności semantycznych w grafowych bazach danych. Całość rozważanego
rozdziału została wzbogacona licznymi odwołaniami do literatury, co jest jego mocną
stroną. Należy nadmienić, że treść rozdziału trzeciego, podobnie zresztą jak

3
pozostałych, została wzbogacona m.in. licznymi definicjami oraz przykładami, które
zwiększają walory edukacyjne rozważanej pracy.
W rozdziale czwartym pt. „Nowe metody wyszukiwania i analizy zależności
semantycznych w grafowych bazach danych”, składającym się z trzech podrozdziałów
(„Badane miary powiązania między wierzchołkami”, „Analiza zależności semantycznych
z użyciem zbioru uczącego i algorytmów genetycznych”, „Przykłady zastosowań proponowanej
metody analizy zależności semantycznych”), autor opisał przede wszystkim zaproponowaną
przez siebie metodę przyporządkowywania wag do ścieżek grafowej bazy danych,
który to proces może być utożsamiany z automatycznym generowaniem zależności
semantycznych. Naturalna konsekwencją takiego podejścia jest możliwość
wyszukiwania zależności najistotniejszych, wyznaczania stopnia powiązania między
wierzchołkami, wyszukiwania wierzchołków o zadanym typie powiązania itd.
Autorska zależność, będąca miarą powiązania wierzchołków, wraz z modyfikacjami
opisana została w podrozdziale 4.1. Jest ona wykorzystywana m.in. w dwuetapowym
procesie optymalizacji wag zależności semantycznych, zrealizowanym na podbudowie
algorytmu genetycznego. Należy dodać, że końcowej części rozdziału czwartego autor
umieścił wyniki działania zaproponowanych metod, odniesione do wyników
otrzymanych z wykorzystaniem metod innych autorów, które na tę potrzebę
zaimplementował. W obliczeniach wykorzystał on podzbiór danych z projektu
DBPedia wraz z informacjami referencyjnymi pozyskanymi z serwisu Audioscrobbler,
skojarzonego z muzycznym serwisem rekomendującym o nazwie LastFM. Rozdział
czwarty wraz z rozdziałem piątym stanowią w kontekście nowego wkładu autora
w dyscyplinę naukową informatyka najistotniejszą część pracy.
W rozdziale piątym pt. „Podsumowania lingwistyczne grafowych baz danych jako forma
wyszukiwania zależności semantycznych”, składającym się z czterech podrozdziałów
(„Wybór podmiotu podsumowania w grafowej bazie danych”, „Grafowe rozszerzenia podsumowań
lingwistycznych”, „Obliczanie miar prawdziwości w sposób równoległy”, „Nowe podsumowania
zależności grafowych”), autor opisał autorskie wyniki badań dotyczących podsumowań
lingwistycznych grafowych baz danych. Wyjaśnił ponadto problemy towarzyszące

4
tworzeniu takich podsumowań, do których zaliczyć można np. brak składowych typu
krotka, czy atrybut relacji, uniemożliwiający bezpośrednie wykorzystanie metod
tworzenia podsumowań stosowanych dla modelu relacyjnego. W tym kontekście autor
zaproponował rozwiązania autorskie, pozwalające m.in. na ocenę jakości wyboru
podmiotów podsumowań, przedstawianie podsumowań lingwistycznych wyższych
rzędów, tj. tyczących się uogólnionego grafowego modelu danych, ocenianie
nieprecyzyjności sumaryzatorów i kwalifikatorów, stosowanie ich uogólnionej postaci
itd. W końcowej części rozdziału piątego, analogicznie jak to miało miejsce
w rozdziale czwartym, autor umieścił przykładowe wyniki działania
zaproponowanych metod.
W rozdziale szóstym pt. „Podsumowanie”, składającym się z dwóch podrozdziałów
(„Wnioski”, „Potencjalne kierunki dalszych badań”), autor w syntetyczny sposób zestawił
zaproponowane przez siebie rozwiązania, odwołując się przy tym do poszczególnych
rozdziałów pracy oraz wskazał wynikające z nich w naturalny sposób kierunki
dalszych badań.

2. Oryginalne rezultaty uzyskane w rozprawie

Pan mgr inż. Łukasz Strobin opracował spójny i interesujący z naukowego oraz
aplikacyjnego punktu widzenia zestaw metod do wyszukiwania zależności
semantycznych w grafowych bazach danych z zastosowaniem wybranych metod
sztucznej inteligencji, w szczególności wywodzących się z teorii zbiorów rozmytych
i algorytmów genetycznych. Główne rezultaty opisane przez Niego w rozważanej
rozprawie doktorskiej można podsumować następująco:
 Zdefiniował pojęcie meta-ścieżki (definicja 12, str. 26) oraz tzw. ścisłej meta-
ścieżki (definicja 13, str. 27), które uwzględniając etykiety krawędzi grafu lub też
krawędzi i wierzchołków grafu stanowią dobre uzupełnienie opisu grafowego
modelu danych i ułatwiają one należyte zaprezentowanie opisu metod
wyszukiwania i etykietowania lingwistycznego w grafowych bazach danych.

5
 Opracował metodę automatycznego pozyskiwania zależności semantycznych
z grafowych baz danych na podstawie tzw. procesu dwufazowego. W pierwszej
jego fazie wyznaczane są wstępne wartości wag meta-ścieżek, które w trakcie
etapu drugiego dostrajane są w iteracyjnym procesie uczenia, zrealizowanym na
bazie algorytmu genetycznego. Przeprowadzone przez doktoranta obliczania dla
pozyskanych na tę okoliczność danych rzeczywistych potwierdziły skuteczność
zaproponowanego podejścia, także w kontekście zamieszczonych w pracy
porównań z wynikami otrzymanymi dla innych metod. Warto zauważyć, że
niezwykle ciekawym jest nie samo użycie algorytmu genetycznego, ale
sprowadzenie problemu doboru wag modelu grafowego, będących nośnikiem
informacji lingwistycznych, do problemu optymalizacyjnego. Takie podejście
otwiera zupełnie nowe możliwości w zakresie skutecznej analizy struktur
grafowych, dla których możliwe jest odpowiednie przygotowanie ciągu uczącego,
głównie danych referencyjnych.
 Opracował metodę wyszukiwania wierzchołków o zadanym typie powiązania.
Metoda ta jest ciekawa także, ponieważ polega ona na sukcesywnym
nawigowaniu do kolejnych wierzchołków kandydujących i modyfikacji ich wag
na podstawie wag meta-ścieżek prowadzących do nich. W efekcie takiego
działania można rekomendować wierzchołek lub ich pulę, który posiada
największą wartość wagi. Warto zauważyć, że działanie rozważanej metody
bazuje na wymienionej wcześniej metodzie dwufazowego pozyskiwania
zależności semantycznych. Metoda wyszukiwania wierzchołków o zadanym typie
powiązania została dodatkowo wzbogacona mechanizmem sortowania
wierzchołków kandydujących. Rozważane algorytmy zostały przez doktoranta
przetestowane w sposób analogiczny, jak wcześniej wskazano.
 Opracował metodę pozwalającą na tworzenie podsumowań lingwistycznych
dedykowaną dla grafowych zbiorów danych. Rozwiązał przy tym m.in. problem
wyboru pomiotu podsumowania reprezentowanego przez zbiór wierzchołków.
Nie jest to problem trywialny, ponieważ grafowe bazy danych nie są budowane

6
wg. ściśle określonych zasad, co w kontekście typowania podmiotu może
skutkować niespójnością wybranego zbioru wierzchołków. Zaproponowane
przez doktoranta rozwiązanie tego problemu bazuje na odpowiednio
zdefiniowanej mierze spójności podmiotu. Jest to rozwiązanie ciekawe, stwarza
bowiem dobre możliwości np. w zakresie automatycznej selekcji podmiotu,
o czym zresztą doktorant wspominał w końcowej części pracy. Działanie
metody zostało zweryfikowane przy użyciu wymienionego wcześniej zbioru
danych.
 Opracował metodę tworzenia podsumowań lingwistycznych grafowych zbiorów
danych uwzględniającą atrybuty wyższych rzędów. Są to takie atrybuty, które
tworzą zależności semantyczne z podmiotem, ale są od niego oddalone o więcej
niż jedną krawędź. W metodzie tej ważne miejsce zajmuje heurystyczny algorytm
selekcji atrybutów wyższych rzędów ignorujący wierzchołki, których
uwzględnianie nie wzbogaca w istotny sposób podsumowania dla wybranego
podmiotu. Działanie metody zostało zweryfikowane dla wymienionego
wcześniej zbioru danych.
 Rozszerzył metodę tworzenia podsumowań lingwistycznych grafowych zbiorów
danych o możliwość identyfikacji zależności typu specjalizacja – generalizacja,
które są konsekwencją orientacji ścieżek w grafie. Elementy rozszerzające
możliwości tworzenia podsumowań lingwistycznych zostały przez doktoranta
nazwane podpojęciami. Podejście wykorzystujące podpojęcia determinuje
działanie sumaryzatorów i kwalifikatorów, co zostało przez doktoranta należycie
uwzględnione. Sumaryzatory w kontekście pracy to pojęcia wywodzące się
z języka naturalnego i opisujące (m.in. w sposób rozmyty) zależności między
atrybutami, zaś kwalifikatory to elementy warunkujące selekcję składowych do
tworzonych podsumowań. Należy nadmienić, że doktorant sformułował dwie
miary jakości podsumowań lingwistycznych, służące do oceny działania
sumaryzatorów i kwalifikatorów. Działanie metody zostało zweryfikowane dla
wymienionego wcześniej zbioru danych.

7
 Zaproponował taką formę podsumowań lingwistycznych, w której podmiotem
jest zbiór par wierzchołków połączonych zależnością semantyczną, nie zaś zbiór
obiektów oraz ich atrybutów, jak to miało miejsce w poprzednio wymienionych
metodach. Dlatego doktorant użył w stosunku do nich określenia
„podsumowania zależności”. Takie podejście do tworzenia podsumowań
wymagało odmiennego podejścia do weryfikacji sposobu działania
sumaryzatorów i kwalifikatorów, co zostało przez doktoranta należycie wzięte
pod uwagę. Działanie metody zostało zweryfikowane dla wymienionego
wcześniej zbioru danych.

3. Uwagi dotyczące rozprawy

Przytoczone dalej kwestie nie wpływają na obniżenie wysokiej oceny rozważanej


rozprawy, mają charakter dyskusyjny i są następujące:
 Obliczenia przeprowadzone na potrzeby potwierdzenia skuteczności
zaproponowanych w pracy metod zostały wykonane z wykorzystaniem
podzbioru danych pochodzących z projektu DBPedia oraz informacji
referencyjnych pozyskanych z serwisów Audioscrobbler i LastFM, o czym już
wcześniej wspomniano. Czy jest możliwe użycie do testów innych zbiorów
danych? Czy takie próby były wcześniej wykonywane?
 Zaproponowane metody wyszukiwania wierzchołków o zadanych typach
powiązań wykorzystują m.in. operację sortowania. Czy metody te są skalowalne?
Czy były podejmowane próby oszacowania złożoności obliczeniowej tych,
ewentualnie innych metod prezentowanych w pracy?
 W podrozdziale 2.3. zaprezentowano opis algorytmu genetycznego w kontekście
jego użycia w dwufazowym procesie generowania wag meta-ścieżek,
utożsamianych z zależnościami semantycznymi w grafowych bazach danych.
Zabrakło jednak klarownego opisu znaczenia tego algorytmu w kontekście
rozważanego w pracy problemu. Pojawił się on dopiero kilkadziesiąt stron dalej
(tj. na stronie 45.). Przy tej okazji nasuwa się pytanie, czy oprócz algorytmu
8
genetycznego oraz rozwiązań z nim skojarzonych (przedstawionych skrótowo
w podrozdziale 2.3.2) można byłoby wykorzystać inne algorytmy bazujące na
populacji, które w wielu przypadkach dysponują skuteczniejszymi
mechanizmami eksploracji i eksploatacji przestrzeni poszukiwań?
 Zaproponowane w pracy metody bazują m.in. na wagach meta-ścieżek, które
posiadają określoną interpretację. Czy jest możliwe dostrajanie tych wag
w przypadku zmieniającej się w czasie dziedziny problemu? Taka sytuacja ma
częściowo miejsce w wykorzystanym problemie testowym.
 Zaproponowane w pracy metody, np. tworzenia podsumowań zależności,
umożliwiają tworzenie szczegółowych, zatem często rozbudowanych
podsumowań. Czy były podejmowane próby automatycznej, końcowej redukcji
ich złożoności? Czy taka redukcja jest w rozpatrywanym problemie zasadna
i możliwa, a jeśli tak, jak mogłaby ona przebiegać?
 Tabele i rysunki podsumowujące obliczenia przeprowadzone na potrzeby
potwierdzenia skuteczności zaproponowanych w pracy metod i zamieszczone
w rozdziałach czwartym i piątym zawierają wiele ciekawych rezultatów. Zabrakło
dla nich jednak klarownych podsumowań.
 Wyniki obliczeń w podrozdziale 4.3 przeplatają się z opisem metod, co
negatywnie oddziałuje na czytelność pracy.
 W pracy przydałaby się sekcja z wykazem oznaczeń, która porządkowałaby
stosowaną w tekście symbolikę. Przykładowo, w różnych miejscach pracy stosuje
się różne oznaczenia długości ścieżki; w sekcji 3.1.3 do oznaczania wierzchołków
używa się dużych liter, zaś w sekcji 4.1.2 małych itd.
 Praca zawiera kilka drobnych błędów: np. w zdaniu poprzedzającym wzór (2.4)
powinno być A B , we wzorze (3.4) powinno być R zamiast Q, po wzorze
(3.22) powinno być A i B.
 Praca zawiera kilka niefortunnych zwrotów, jak np. zwrot „logika rozmyta”
zamiast „teoria zbiorów rozmytych”, zwrot „ilość” zamiast „liczba”, zwrot „s-
norma” zamiast „t-konorma” (m.in. na str. 12), zwrot „algorytm genetyczny jest

9
specyficznym przypadkiem algorytmu genetycznego(…)”, zwrot „metoda
zawiera suwak” (str. 36), czy też uznanie za pracowników dobrze zarabiających
pracowników „starych”, choć zestawione w Tabeli 2.1. osoby nie osiągnęły
więcej niż 50 lat…
 Praca zawiera kilka niedociągnięć edytorskich. Przykładowo: spis treści pracy
powinien mieć niezależną numerację, odnośniki do wzorów zwyczajowo
umieszcza się w nawiasach okrągłych, wszystkie wzory powinny mieć
„umocowanie” w tekście (także (2.25) i (2.26)), odwołania do składowych tekstu
(np. definicji) powinny być konsekwentnie pisane z małej lub dużej litery,
wszystkie pozycje literatury powinny być opisane w sposób kompletny (np.
pozycja [129]).
 Praca zawiera wiele literówek, które nie zostały w niniejszym zestawieniu
wyszczególnione oraz powtarzających się błędów interpunkcyjnych, związanych
m.in. z brakiem przecinka przed słowem „który” (np. na str. 34, 37, 48) i przed
słowem „że” (np. na str. 35), czy też z nieodpowiednim umieszczeniem go przed
słowem „oraz” (np. na str. 34, 67).

4. Podsumowanie i konkluzja

W podsumowaniu stwierdzam, co następuje:


 Autor rozprawy doktorskiej opracował nowe algorytmy z zakresu wyszukiwania
zależności semantycznych w grafowych bazach danych z zastosowaniem teorii
zbiorów rozmytych oraz algorytmów genetycznych.
 Rozprawa doktorska zawiera szereg oryginalnych i wartościowych rezultatów
naukowych, została zredagowana w sposób poprawny, a poszczególne wątki
zostały w niej przedstawione w sposób kompetentny.

10
W konkluzji stwierdzam, że praca doktorska „Wyszukiwanie zależności
semantycznych w grafowych bazach danych z zastosowaniem logiki rozmytej
i algorytmów genetycznych”, której autorem jest Pan mgr inż. Łukasz Strobin,
spełnia wymagania stosownej ustawy o stopniach naukowych i tytule
naukowym. Wnoszę o jej przyjęcie i dopuszczenie do publicznej obrony.

Mając ponadto na uwadze wysoki potencjał aplikacyjny


zaproponowanych w rozważanej rozprawie doktorskiej rozwiązań, ich
odpowiednią wartość merytoryczną oraz aktualny dorobek publikacyjny Pana
mgra inż. Łukasza Strobina, wstępnie deklaruję poparcie dla ewentualnego
wniosku dotyczącego wyróżnienia rozprawy.

11

You might also like