-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Spracovanie textu nástrojom UDPipe #16
Comments
Výraz aby funguje jako spojka, zároveň svým tvarem (abych, abys atp.) vyjadřuje slovesnou osobu a číslo. Proto UDPipe rozděluje tyto dvě funkce: řádek 13 (spojka) a 14 (součást slovesného tvaru). Všimněte si, že TokenRange je pouze u řádku 13-14, na řádcích 13 a 14 již nejsou, takže tyto výrazy by se do výstupu dostat neměly. Jiná otázka je, jak tuto dvojí informaci (spojka a slovesný tvar) zaznamenávat, pokud bychom chtěli mít pouze jednu textovou pozici (aby) a k němu obě informace. Například v Českém nádorním korpusu se tyto informace spojí do jedné a oddělí pomocí svislice. |
Akym sposobom by sa teda tieto data mali prejavit v exportoch a TEI formate? Zaroven som narazil na dalsiu vec s UDPipe. Pre urychlenie spracovavania by bolo dobre vyuzit davkove spracovanie a neposielat request na API UDPipe pre kazdu stranu samostatne, pretoze prave toto je uzkym hrdlom. Zaroven by ale bolo potrebne udrzat vo vystupe jednotlive strany oddelene. Toto by bolo mozne za vyuzitia vstupneho formatu Conll, ktory podporuje posielanie komentarov, ktore sa zachovavaju vo vystupnom formate. Tym padom by sme mohli poslat celu publikaciu v jednej ziadosti, ale zaroven oddelit jednotlive strany v odpovedi napr. komentarom |
Je potřeba se zeptat lingvistů, např. Radka Čecha z FF OU, jestli by jim vypadnuvší údaj chyběl. |
Po diskusii na poslednom stretnutí znovu otváram túto tému, prikladám aktuálny stav: Ako to funguje: (pozn. : TokenRange sa nezhoduje, pretoze ukazka v DB je po spracovani K+, kde vstup je extrahovany z ALTO formatu, zatial co pouzity vstup v prvom obrazku je OCR text) |
Zdravím, @stranak mě prosil o komentář k tomuto vláknu: Na slovo aby se můžeme dívat dvěma způsoby:
Když jsme volili reprezentaci v TEI (v projektech ParCzech a ParlaMint), tak jsme se tento pohled snažili respektovat - tedy pokud spustím defaultní XSLT transformaci, která tiskne pouze textové uzly XML souboru, pak na výstupu dostanu pouze ortografická slova (žádná syntaktická slova se tam nepletou). Reprezentace je následovná:
a zdokumentována zde: A TEI Schema for Corpora of Parliamentary Proceedings > Normalised and syntactic words
Pro rychlost a slušnost ke službě je určitě dobré posílat více textu najednou. Nevím přesně jaké texty zpracováváte, ale pokud budete mít větu přes zlom stránky, tak to jinak nepůjde, než posílat více stránek za sebou.
Já posílám do UDPipe pouze text a pomocí Poznámky k výstupům/chybám UDPipe:
|
Dobrý deň,
začal som implementovať spracovanie textov nástrojom UDPipe a narazil som na chovanie, ktorému trochu nerozumiem. Zakladám preto toto issue pre vyjasnovanie potrebných vecí počas implementácie spracovávania textov publikácií nástrojom UDPipe.
Ide konkrétne o spôsob tokenizácie. Z výstupu totižto ukladám pozíciu tokenu a narazil som na situáciu, že UDPipe pridal neexistujúci token do textu. Ide konkrétne o spracovanie vety
Je potřeba jisté zralosti, řekl bych, jistého věku paternity, aby se člověk mohl stát zahradníkem amatérem.
, a podľa ďalších pokusov celkovo o vety obsahujúce slovoaby
.UDPipe slovo
aby
označil, že sa nachádza na pozícií 13-14 a neposkytol ziadne metadata okrem offsetov tokenu, na nasledujúcom riadku poskytol metadata o tokeneaby
(tu uz bez offsetov) a na dalsi riadok pridal slovoby
spolu s metadatami (takisto bez offsetov).Vedel by mi prosim niekto vysvetlit, preco sa toto deje, pripadne ci su aj ine slova, pri ktorych podobne spravanie mozme ocakavat a ako spracovat toto slovo? Predpokladam ze vkladat token
by
medzi obohatene metadata nie je ziaduce, udaje o offsetoch musim zobrat z prveho vyskytu slova a ostatne metadata z nasledujuceho riadku?The text was updated successfully, but these errors were encountered: