Bioinformatikai Megoldások Az Orvosi Szövegek Számítógépes Feldolgozásában

You might also like

Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 9

Bioinformatikai megoldások az orvosi

szövegek számítógépes feldolgozásában

Csigi Balázs, 2013.09.05.


Bevezetés

 Az orvosi-biológiai terület számára rengeteg információ érhető el szöveges


formában – publikációk, orvosi jelentések
 A bioinformatika egyik kihívása ezen információk kinyerése, rendszerezése és
tárolása
 Az elmúlt 20 évben robbanásszerű fejlődésen ment keresztül a nyelvtechnológia
és felmerült az a kérdés, hogy miként lehetne az új nyelvtechnológiai eljárásokat a
bioinformatika szolgálatába állítani
 Az első kísérletek számos akadállyal szembesültek a biológiai szövegek
sajátosságai miatt
Főbb kihívások

 Az orvosi-biológiai szövegekben előforduló biológiai, kémiai és orvosi


szakkifejezések nem szerepelnek a hagyományos szótárakban
 Nap mint nap új szakkifejezések születnek
 Egy kifejezésnek gyakran több írásmódja is ismert
 A hétköznapi nyelvben előforduló szavak sokszor más jelentésben fordulnak elő
az orvosi szövegekben
 A fenti problémák orvoslására született a BioLexicon adatbázis
 Feladat: a BioLexicon felépítésének és gyakorlati alkalmazásainak áttekintése és
magyar nyelvű orvosi jelentésekre történő alkalmazhatóságának vizsgálata
A BioLexicon tartalma

 Az adatok szófajok szerint vannak csoportosítva


 Az igék manuálisan lettek kiválogatva orvosi-biológiai szövegekből
 Mindegyik igéhez el van tárolva, hogy milyen információk kapcsolódnak hozzá
egy mondatban (pl. The enzyme can bind a second DNA duplex. – The enzyme: a
kötésben szereplő egyik vegyület, a second DNA duplex: a kötésben szereplő
másik vegyület)
 A főnevek legnagyobb részét automatikusan gyűjtötték össze
 A főnevekhez tartozik jelentéstani (szemantikai) információ, a különböző írott
változatok, szinonimák, egyéb információk
A BioLexicon gyakorlati alkalmazásai

 Információkeresés és információ kinyerés


 Információkeresés: mivel eltárolja egy adott szó különböző írott változatait és
szinonimáit, a keresésnél elegendő az egyik változatot megadni
 Ezáltal jelentős mennyiségű idő takarítható meg és növelhető a keresések
hatékonysága
 Információ kinyerés: az összefüggések automatikus felkutatása
dokumentumokban
 Egyre több publikáció -> számítógépes segítség nélkül egyre nehezebb
feldolgozni – az információ kinyerés ebben tud segítséget nyújtani
 Az információ kinyerés arra az alapgondolatra épül, hogy az igék hordozzák az
információt, mivel történéseket írnak le.
Gyakorlati alkalmazások 2

 Információ kinyerés (folyt.): pl. UK PubMedCentral szövegbányászati


szolgáltatásai
 A PubMedCentral szövegbányászati szolgáltatásai az igealapú keresés
előfutárának tekinthetőek.
 A keresőszó alapú keresés helyett eseményalapú keresést kínál
 Pl.: ha egy kutató szeretné megtudni, hogy milyen vegyületekhez tud kötődni a
p53 fehérje, akkor a keresett fehérjéhez kiválaszthatja a „kötődés” eseményt, és
így a keresőmotor felkutatja az összes vonatkozó információt
 Az információ kinyerésnél az a BioLexicon szerepe, hogy az egyes igékről
eltárolja, hogy milyen kapcsolódó mondatrészek milyen információkat hordoznak
(pl. bind -> alany: egyik vegyület, tárgy: másik vegyület)
Összevetése hasonló jellegű
adatbázisokkal
 Nem korlátozódik csupán egy részterületre, hanem az egész biológiai-orvosi
szakterületet dolgozza fel
 Kifejezetten számítógép számára készült adatbázis
 A BioLexicon részletes információkat tárol el a biológiai eseményeket leíró igékre
 Bár a PASBio és a BioFrameNet adatbázisok is tárolnak információkat az
igehasználatról, az igéknek csupán egy szűk részhalmazát tartalmazzák
Alkalmazhatósága magyar nyelvű orvosi
jelentések esetén
 A BioLexicon csak angol nyelvre vonatkozóan tartalmaz információkat
 A magyar nyelvű alkalmazhatóságánál két szempontot vettem figyelembe: az
adatbázisban tárolt igék és főnevek használhatóak-e magyar szövegek esetén, akár
áttételesen?
 Eredmény: Sem a főnevekről, sem az igékről tárolt információk nem
használhatóak a magyar nyelvű szövegek esetén
 Az angol igehasználata annyira eltérő, hogy létre kellene hozni egy külön magyar
adatbázist, hogy működjön magyar szövegekkel
 Az adatbázisban szereplő főnevekre pedig nem találtunk egyezéseket az orvosi
jelentésekben
Összefoglalás

 A BioLexicon az angol nyelvű biológiai-orvosi szövegek feldolgozásában nyújt


segítséget
 A BioLexiconra épül a UK PubMedCentral eseményalapú keresőszolgáltatása
 Más adatbázisokkal összevetve elmondható, hogy egyedi igényt tölt be, hiszen a
többi adatbázistól eltérően számítógépes feldolgozásra készítették
 Magyar nyelvű orvosi jelentések esetén azonban nem alkalmazható a magyar és
az angol nyelv eltérései miatt

You might also like