V souvislosti s doktorským studiem na VŠE jsem se dostal k problému logického zachycení analytických zpráv nad dobýváním znalostí z databází metodou GUHA. To mě vedlo k hlubšímu se zamyšlení nad procesem kolem DZD (dobývání znalostí z databází), a to konkrétně zachycením znalostí v tomto procesu.
Martin Ralbovský se několik let zabýval doménovými znalostmi nad databází pro účely DZD metodou GUHA. Musím se přiznat, že jsem ještě jeho publikace úplně nečetl, i když bych rád, ale setkal jsem se s aplikacemi, které takovéto doménové znalosti zachycují.
V současnosti je v aplikacích, co jsem viděl, doménová znalost zachycena jako vlastnost vztahu mezi atributy. Například se dá zachytit, že s rostoucím věkem roste váha. Je to velice jednoduché, proto snadno pochopitelné pro zadavatele. Bohužel na druhou stranu docela slabé.
Co vlastně chceme doménovými znalostmi zachytit? Co už je známo, co někdo ví o dané doméně? Čím se to liší znalostí, které hledáme a GUHA nám je vrací? Liší se to vztahem ke znalostem a doménou. Připadá mi, že pro daleko větší sílu vyjadřování i možností vyplývání a dokazování by stačilo mírně rozšířit observační kalkul o modality a kvantifikátory v něm o domény, přes které se kvantifikuje. To by umožnilo:
- Zachytit složitější formule o atributech, vztahy mezi více atributy, složitější vztahy, rozvitější formule.
- Formule by obsahovala, o jaké doméně se hovoří.
- Dal by se zachytit vztah mezi zadávájícím a formulí. Např. „Doktor ví, že obecně u lidí s rostoucím věkem roste váha“, ale třeba i „Doktor by rád věděl, zda v Praze s rostoucím věkem roste váha“ nebo „Doktor si myslí… “, „Doktor očekává, že s pravděpodobností 80%… “. Tedy přineslo by to zachytitelnost nejen rozdílu mezi znalostí a přesvědčením.
- Zadávající by se mohl vyjádřit daleko přesněji.
- Jednoduše by se výsledky z dobývání z databází mohly přidávat do znalostní báze.
- Vyplývání mezi doménovými znalostmi, zadáním DZD a výsledkem DZD.
- Dala by se vytvořit nějaká nemonotónní logika pro proces kolem DZD.
- Šlo by asi pěkně využít logiku otázek (erotetickou logiku).
- Tím, že ve formulích budou použity domény, se dá uvažovat vyplývání mezi formulemi nad různou doménou. Například pokud sbírám postupně data o pacientech a udělám v jednu chvíli DZD, ve kterém mi vyjde A⟶(80%) B (alespoň u 80% pacientů platí A implikuje B), pak mi data narostou, tak bych rád alespoň tvrdil např. A⟶(60%) B aniž bych se pustil do DZD. Podobně pokud mám data z 80% nemocnic v Praze a chci tvrdit něco o nemocnicích v Praze. Samozřejmě teď jsem psal o jistotě, „A najisto implikuje B alespoň na 60 procent″, nicméně dá se do toho zapojit pravděpodobnost a tvrtit „alespoň na 50% platí, že nejméně u 75% případů v Praze A implikuje B.″
Mimochodem, všimněme si, že na zadání úlohy v systému Ferda se dá dívat jako na konstrukce intenzionální logiky.
Napsat komentář