Co tu dělám v práci

Po skoro měsíci a půl by se slušelo napsat příspěvek o tom, co tu vlastně dělám v práci a co bude tím kulervoucím výsledkem, který po půlroce snažení přispěje k celosvětovému blahu. Má činnost tu souvisí s výzkumem, kterému se věnuji doma, tedy plagiátorství a akademické etice. Zatím jsem se tomu věnoval spíš z pohledu společenských věd (tj. prevenci plagiátorství), teď jsem součástí skupiny, která se detekci plagiátorství věnuje z technického hlediska.

Výsledky tedy to budou hned tři:
1) literature review na téma metody detekce plagiátorství
2) vylepšení detekce plagiátorství pomocí explicitní sémantické analýzy
3) poznání způsobu, kterým zdejší velmi produktivní skupinka pracuje a přenos těchto zkušeností na MENDELU.

Literature review

Literature review je součástí každého vědeckého článku, každé studentské závěrečné práce. Pojednává o tom, co na dané téma udělal či napsal někdo jiný. A když se takové review udělá pořádně a systematicky, může to být i samostatný článek. Takový článek nepřinese nic nového z hlediska poznání. Jeho smyslem je, aby pomohl ostatním se v dané problematice zorientovat, popsat věci trochu z nadhledu a identifikovat mezery, kterým by se měla vědecká komunita věnovat. No a důležité je i to, že taková review mívají docela dost citací, což se v akademickém prostředí počítá.
Norman a Bela napsali takové review v roce 2013. Od té doby uplynulo 5 let a je na čase se podívat, co se za tu dobu změnilo. Kam se posunuly technologie, které se používaly před pěti lety? Objevily se od té doby nějaké nové technologie? A kam vůbec detekce plagiátorství směřuje?

Zatím jsem shromáždil asi 150 článků, z nichž většinu jsem i přečetl a vypsal si z nich důležité myšlenky, které se teď snažím nějak strukturovat. Struktura už je skoro hotová, pak bude potřeba do ní všechny články zařadit. A těch 150 v žádném případě není konečné číslo. I když se omezuju jen na dobu mezi lety 2013 - 2018. A co je tedy za tu dobu nového?

Zaprvé to vypadá, že humbuk kolem plagiátorství je na ústupu. Rok 2017 byl první, kdy Google Scholar zaindexoval méně článků, než v roce předchozím. Dost za to asi může contract cheating (tj. to, že student zaplatí někomu, aby za něj napsal originální práci), kterého se dnes univerzity bojí daleko víc, než plagiátorství. A taky, že se diskuse posunula k akademické etice obecně (trend pro klíčové slovo "academic integrity" je stále rostoucí).

Zadruhé je tu obří propast mezi tím, co vědci vymyslí, a tím, co firmy jako Turnitin, Urkund, StrikePlagiarism a podobné zapracují do svých produktů, které pak prodávají univerzitám. To, že většina systémů nedokáže odhalit ani ty nejprimitivnější metody, kterými plagiátor své jednání zakryje, je ostuda. Nechci na tomto místě moc prozrazovat detaily, protože nemám zájem na tom, aby se návody, jak tyto systémy obelstít, šiřily. Notabene když Theses.cz, používaný naší univerzitou, je v tomto směru také dost marný. Ale v Turecku na konferenci našim sponzorům pěkně vyčiním :-)
Každopádně, tady je první mezera, kterou jsem identifikoval. Od roku 2013 nikdo systémy pro detekci plagiátorství pořádně neotestoval. Takže vám všichni můžou tvrdit, že jsou nejlepší a nikdo jim to nemůže popřít. Směřuji tedy k tomu, že pod hlavičkou ENAI rozjedeme důkladné standardizované a pravidelné testování. Zatím jsem v této věci podnikl velmi důležitý krok: Přesvědčil jsem Deboru Weber-Wulff (profesorku z Berlína, která s tím má bohaté zkušenosti), že bude součástí skupiny, která se tomu bude věnovat.

Zatřetí je potřeba konstatovat, že z hlediska technologií se žádný závratný posun nekoná. Jsou tu nějaké metody, které se snaží část textu znázornit jako graf a potom na dva grafy aplikovat nějakou srovnávací metriku v naději, že tím vyčíslí podobnost textu. O něco se zdokonalily metody, které porovnávají význam textů a nejen jejich lexikální podobnost. A čím dál tím víc se uplatňuje strojové učení a umělá inteligence vůbec.

Čtvrtým poznatkem, který z literature review mám, je zklamání z tzv. intrinsic plagiarism detection. Zatímco extrinsic plagiarism detection se snaží hledat podobnost daného dokumentu s jinými dokumenty v databázi a hledá tak potenciální zdroje plagiátorství, intrinsic plagiarism detection hledá rozdíly ve stylu psaní v rámci jednoho dokumentu. Pokud se někde styl zásadně změní, je velká naděje, že se změnil i autor. A co víc, pokud máte sbírku dokumentů od jednoho autora, můžete odhalit dokument, který byl napsán někým jiným (tj. například někým, koho si dotyčný najal). Vždycky jsem si myslel, že je to fakt složitá věda. Poslední týdny mě vyvedly z omylu. Pořádají se v tom soutěže a třeba loni někteří soutěžící nepřekonali metodu, která hranice změny stylu rozmístí do dokumentu naprosto náhodně. Ti nejlepší dosahují přesnosti kolem 60 %. Což sice stačí na to, aby se J.K. Rowlingová přiznala k autorství románu, ale u disciplinární komise nebo dokonce soudu by se vám asi vysmáli. Tady je ještě hodně co dohánět. A u prací, které mají víc autorů, kde se všichni podílejí na celém textu, ty metody budou podle mě krachovat vždycky.

No a posledním (nepřekvapivým) poznatkem je, že to jde pomaleji, než jsem čekal. Nejen proto, že tomu nevěnuji 100 % svého pracovního času (přece jenom je občas potřeba řešit i dříve rozpracované články, blížící se konferenci nebo ENAI projekt s Oliverem - odtud fotka s poobědovou kávou), ale i proto, že někdy je fakt těžké se vyznat v tom, jakou metodu autoři vlastně použili a na jak velké sadě dokumentů ji otestovali. Nemluvě o tom, že zpočátku jsem několikrát šlápl do... bláta. To si tak říkáte, co je tohle proboha za článek? To přece nemohlo projít žádnou oponenturou. A co je to vůbec za časopis? Aha, predátorský časopis.Od té doby si radši ověřuju, jestli daný časopis není na Beallově seznamu. Hlavně, když je to článek od nějaké party Indů...

Explicitní sémantická analýza

K tomuto tématu toho zatím nemám moc co napsat. Ano, přečetl jsem si Normanův článek na toto téma a ESA je součástí literature review. Ale jinak je to projekt, který zatím spí a měl by se probudit někdy koncem května. Cílem bude ověřit funkčnost programu, který tu vznikl jako studentský projekt. Zatím dal docela dobré výsledky na sadě 25 plagiátů z PubMed. Teď jej chceme ověřit na testovacích sadách soutěží PAN a zdokonalit.

I když projekt zatím spí, tak jsme jej vypsali jako jeden ze studentských projektů pro místní studenty a mám jednoho šikovného diplomanta na MENDELU, který se tomuto tématu věnuje.

Přenos zkušeností

Jak už jsem zmínil, Information Science Group je velmi produktivní. Za tu dobu, co tu jsem, můžu jmenovat tři oblasti, které k tomu významně přispívají:
Zaprvé skoro neučí. Tím pádem mají opravdu čas se vědě věnovat. Když jsem jim řekl, kolik výuky je běžné u nás, tak nechápali, jak můžeme vůbec něco publikovat. Výuka se tu bere jako prostředek k tomu, aby se dostali ke schopným studentům, kteří s nimi pak budou spolupracovat na jejich projektech. Neříkám, že tohle je něco, co bych chtěl přenášet na MENDELU. Někdo samozřejmě učit musí a mě osobně výuka hodně baví. Ale je opravdu iluzorní si myslet, že někdo, kdo učí 16 hodin týdně, za rok napíše dva články do impaktovaného časopisu.

Zadruhé se tu velmi málo času tráví řešením provozních záležitostí a vůbec diskusemi nad věcmi, které jsou zřejmé. Během mého pobytu byly zatím dvě porady, z nichž já jsem byl jen na jedné (na tu druhou nemělo smysl chodit, protože byla v němčině). Účast cca 8 lidí v zasedačce, 1 další na Skypu (to je ten smartphone na tabuli na fotce). Dva doktorandi si nanečisto vyzkoušeli obhajobu rozpracované disertačky, aby dostali zpětnou vazbu předtím, než půjdou před komisi. Pak Bela pochválil všechny, co mají za poslední měsíc někde přijatý nějaký článek a konstatoval, že kdyby skupina letos už nic nepublikovala, tak že je to OK. Pak se během čtvrt hodiny vyřešily všechny provozní věci a šlo se na oběd.

Třetí oblastí jsou pak různé prográmky, které usnadňují týmovou spolupráci. Zejména DocEar, pomocí kterého můžete tvořit myšlenkové mapy a propojovat je s PDF dokumenty. Do myšlenkové mapy se automaticky importují poznámky, které v tom PDFku jsou. Teda na Windows, ne na Macu :-) Myšlenková mapa Literature review je už fakt rozsáhlá, ale díky přímému napojení na PDFka se v ní dá orientovat velmi pěkně. Každý projekt má svůj repozitář na GitHubu, aby se dala sdílená data rozumně spravovat. Což nepřekvapí u programátorských projektů, na kterých dělá více lidí, ale zobecnění na správu jekéhokoliv skupinového projektu jsem do té doby neprovedl. Články se píšou nejčastěji v Online Wordu, který docela rozumně zvládá skupinovou editaci a narozdíl od Google Dokumentů dokáže spravovat reference. Jediné, na čem se neshodnou, jestli je lepší JabRef, nebo Mendeley. Já jsem se přidal k Mendeley klice. Jsa z Mendelovy univerzity jsem ani jinak nemohl.

Dále jim tu společné plánování usnadňuje Google kalendář. Své kalendáře si vzájemně sdílí. Hned po příjezdu jsem vyfasoval svůj "ISG_Tomas", do kterého jsem musel zaznamenat, kdy tu budu a nebudu a píšu si tam svůj program, aby měli ostatní přehled. A kalendáře se týkají nejen pracovních věcí. Hodně důležitý kalendář je "ISG_Social" pro společné posezení v hospodě, výlety a grilovačky. Ale o tom až příště...




Komentáře