Se oni serĉas la vorton plibonigi en la vortaro de Lernu, ĝi respondos ĉi tiel: pli-bon-ig-i. Utile. Tamen se oni serĉas la vorton plidolĉigi, la vortaro ne helpos onin. Do, mi demandis min mem: ĉu eblas krei ĝeneralan ilon por vortfarado?
Jen esperanta ŝerco (ne estas la plej bona!):
Kial ĝirafo neniam enuas?
Ĉar ĝi havas kolegon.
Kolego estas bona ekzemplo de multsenca vorto. Por trovi ĝin en vortaro, oni unue serĉas la vorton kolego en vortaro, kaj kompreneble ĝi estas tie. Poste, oni serĉas en la vortaro radikojn, kaj trovas nur la radikon kol- (ĉar ne ekzistas radikoj: ko-, kole- aŭ koleg-). Fine, oni serĉas simile la ceteron -eg- kaj ekkomprenas la ŝercon.
Komputiloj povas fari simile.
Aŭtomata vortafarado
Mi kreis programon kiu faras ĉi tiele:
Por la vorto kolegon:
- Forigi la finaĵon: koleg- (ĉi tiu tasko estos temo por alia blogafiŝo)
- Serĉi ĉiun eblecon en listo de radikoj: k-, ko-, kol-, kole-, koleg-
- Konservi ĉiun trovitan radikon: kol-, koleg-
- Ripeti la serĉon por la restantaj literoj (post kol- en ĉi tiu kazo): e-, eg-
- Kunmeti la rezultojn: koleg-o, kol-eg-o
Defioj
Do, kio estas la problemoj de ĉi tiu metodo?
Mi nur antaŭvidis la problemon de vortfarado kun neradikoj (kiu estas diskutata en PMEG). Ekzemploj de ĉi tiaj vortoj estas birdokanto kaj ĝustatempe. La solvo estas aldoni o-vortojn kaj a-vortojn al ‘la listo de radikoj’, kiu do nun estas listo de vorteroj.
Tamen, dum programado mi kredis ke oni ĉiam povas kalkuli la vorton kiu rilatas al la radiko. Interese, la vivo ne estas tiel simpla. Pripensu la vorton novajaro. Ĉu ĝi signifas freŝa jaro aŭ jaro de steleksplodo? Oni ne scias sen kunteksto. Mi malkovris 9 ĉi tiajn vortojn en ReVo: sumo, halo, nova, togo, vila, koto, metro, polo, kaj alo. Ili ĉiuj estas ambaŭ radikoj kaj plenaj vortoj sed kun tute malsamaj sencoj! La solvon mi elektis estis ĉiam preferi la pli longan, do en ĉi tiu ekzemplo la kodo decidas ke nova- estas radiko kaj ne plena vorto.
La alian problemon mi malkovris, estas ke ĉi tiu metodo ofte trovas tro da eblecoj kiu ne vere validas. Antaŭnelonge mi lernis ke persone estas dusenca vorto, aŭ person-e aŭ per-son-e (mojose, ĉu ne?). Tamen mia ilo trovas tri eblecojn: la menciitaj du, kaj pers-on-e. Nu, perso estas vorto, sed -on- estas nur por vortoj kiuj rilatas al kvantoj. La situacio estas pli malbona por pli longaj vortfaradaĵoj: la (plejparte ŝerca, menciita en IRCa konversacio) vorto hundomalfermilo havas multajn rezultojn:
hundo-mal-ferm-il-o
hundo-mal-fer-mil-o
hun-dom-alf-er-mil-o
hun-dom-al-ferm-il-o
hun-dom-al-fer-mil-o
hun-do-mal-ferm-il-o
hun-do-mal-fer-mil-o
Por ĉi tiu problemo mi ne trovis bonan solvon. La ilo ne konas la sencojn de la radikoj kaj tial ne povas forĵeti la sensencajn eblecojn. Tre ofte, la ebleco de la malplej radikoj estas ĝusta. Ĉi tio ne perfektas tamen: mi legas (eble intence strangajn) vortojn de aliaj espertantistoj kiel tra-fike kaj homa-rano. La plej bona solvo estus ordigi la rezultojn per populareco de la radikoj*. Mi ankaŭ konsideras la ideon ke la uzanto povus helpi per aldonado de streketoj.
(*Se vi havas ekzempleron de Microsoft Access, bonvolu kontakti min!)
Restanta laboro
La vortaro malrapide promsimiĝas pretecon, sed eĉ ĉi tiu parto ankoraŭ ne finiĝis. Mi planas aldoni flekseblecon de skribsistemo, kaj la tuta vortfaradilo ankoraŭ bezonas multe da testado. La finita vortaro estos uzebla ĉe simpla vortaro .org sed ĝis tiam mi bonvenas testindaĵojn por ĉi tiu ilo.
KiA MIRINDA LABORO VIA! Gratulegon!
Se oni aplikas regulojn de vortfarado strikte al la partoj el la dismeto oni povas malpermesi pli da vortoj, kiel pers/on/o, part/op-ren/o k.s. vd. https://code.google.com/p/vortanalizilo/