Závěr

Nepisu, protoze pisu ... viz nize.

Diplomová práce podává přehled o metodách strojového učení pro dolování dat z textu a hypertextu, věnuje se procesu extrakce informací jako celku, počínaje předzpracováním hypertextových dat, přes jejich klasifikaci a extrakci, konče diskuzí jak naložit se získanými znalostmi.

Důležitou součástí práce je implementace navržené metody v jazyku a prostředí pro statistické výpočty – R. Metoda využívá struktury hypertextových dokumentů s cílem zlepšit výsledky klasifikace. Jedná se o obecnou metodu, jejíž funkčnost byla úspěšně ověřena na XML a HTML dokumentech. Fáze předzpracování dat je ponechána na uživateli, s možností využití skriptů, které byly vytvořeny spolu s implementací.

Jedním z cílů této práce bylo i ověření metody na reálných datech a její porovnání s alternativními přístupy a metodami. Ke zjištění dosažených výsledků bylo použito standardních metrik z oblasti strojového učení. Provedená rešerše v oblasti dolování v hypertextu odhalila, že některé přístupy jiných autorů dosahují lepších výsledků. V diskuzi výsledků se tomuto faktu věnujeme a zvažujeme možné příčiny. Jsme si vědomi toho, že na jednoduché problémy stačí jednoduchá řešení a proto v provedených experimentech používáme k extrakci i slabších nástrojů, neboť mohou dosahovat stejných výsledků jako metody strojového učení a jsou ze své podstaty jednodušší.

Za podstatný považujeme rozdíl ve výsledcích dosažených při extrakci informací pomocí stejného klasifikátoru mezi navrženou metodou využívající strukturu a metodou nevyužívající strukturu hypertextového dokumentu. Výsledky vyznívají kladně pro námi navrženou metodu. Pro potvrzení hypotézy, že v oněch výsledcích je významný rozdíl je v práci použit statistický test.

Žádné komentáře: