API por La Simpla Vortaro

28 Sep

Post kelkaj petoj, mi aldonis JSON-an API-on al La Simpla Vortaro!

Se vi estas programisto, kaj vi volas uzi la difinojn, serĉilojn, aŭ vortfaradilon, ili haveblas!

La plenaj detaloj estas tie ĉi: http://www.simplavortaro.org/informo/api

La Simpla Vortaro: La Plena Rakonto

29 Jan

Mi skribis eseon en la angla pri kiel mi kreis La Simplan Vortaron. Ĝi estas en la angla, plejparte ĉar la plejparto de la enhavo jam estas skribita Esperante en ĉi tiu blogo.

Ĉiukaze, se vi scivolas kaj povas legi la anglan: Building a next-generation Esperanto dictionary.

Mi verŝajne tradukos ĝin, sed mi ankoraŭ ŝanĝetas la tekston.

La Simpla Vortaro — versio 2

19 Dec

Hura! Mi ĵus finis la duan version de La Simpla Vortaro.

Jen la novaj funkcioj:

  • Oni povas serĉi vortojn el aliaj lingvoj.
  • Oni povas vidi vortojn kun tradukoj.
  • Estas nova ‘mi sentas min bonŝanca’ butono por kiam oni volas iri rekte al vortpaĝo.
  • Multaj cimoj forigitaj.

Notu ke la alialingva serĉo bezonas ke oni uzas la ĝustan majusklecon. Mi ne havas bonan solvon por majuskleco de ĉiu lingvo en la ReVo dosieroj.

Kiel krei vortfaradilon — dua parto

5 Dec

Se oni uzas La Simplan Vortaron hodiaŭ, oni noticias ke la vortfarada serĉo funkcias bone*. Tamen en mia lasta afiŝo pri la vortfaradilo, mi diris ke mi havis problemojn kun multaj eblecoj. Do, kiel mi solvis ĉi tion?

La Defio

Plejofte (pli ol 75% da vortfaradaĵoj) nur estas unu ebleco. ‘Malsanulejo’ ne povas esti io ajn krom ‘mal-san-ul-ej-o’. Tamen ekzistas vortoj kun multaj eblecoj laŭ mia listo de radikoj:

Persone: ‘person-e’, ‘per-son-e’, ‘pers-on-e’

Unue, mi esperis ke mi povus simple ĉiam elekti la ebelecon kun la malplej radikoj. Ĉi tio ofte helpas, sed ne ĉiam:

Homarano: ‘hom-ar-an-o’, ‘homa-ran-o’, ‘ho-mar-an-o’

Oni povus argumenti ke ‘ho’ devus ne esti en la listo de radikoj por vortfarado, sed pli bonas havi ĝeneralan solvon.

La Solvo

Anstataŭ simple ordigi la eblecojn laŭ la kvanto de radikoj, mi bezonis pli inteligenta ordiga metodo. Unue, mi kolektis liston de vortfaradaĵoj kiu havas pli ol unu ebleco en mia vortfaradilo.

Jen la listo:

homarano, hundomalfermilo, persone, altabligi, manĝilaro, renovigi, ripozejo, neniigi, pintigi, senlaborulo, ĉirkaŭrigardi, eksilentigi, intermiksiĝi, memkompreneble, gastigema, malrapidigi, koketulino, bovinejeto, kielvifartulo

Due, mi skribis malgrandan programon, kiu testas ĉiun vortfaradaĵon en ĉiu tiu listo. Ĝi ankaŭ enhavas komarliston de la ĝustaj rezultoj, kiun mi faris sen ilo.

Trie, mi eksperimentis ĝis mi havas bonan metodon por poentigi ĉiun rezulton de la vortfaradilo. Mi kalkulas ‘malbonecon’ por ĉiu ebleco. La formulo estas:

malboneco = (kvanto de radikoj) – 0.5 * (kvanto de afiksoj)

La radikoj kiujn mi konsideras kiel afiksoj estas: –ig-, -il-, -ul-, -ej-, -in-, -an-, -ar-, -ant-, -int-, -ont-

Kompreneble, estas aliaj afiksoj, sed ili ne kaŭzas problemojn. Ekzemple, sen la poentiga metodo, la vortfaradilo preferus -tig- ol -ig- sed bo- ne havas alian radikon kun simila literumado.

Do, la vorto ‘homarano’ povus esti ‘hom-ar-an-o’ (malboneco de 3), ‘homa-ran-o’ (malboneco de 3) aŭ ‘ho-mar-an-o’ (malboneco de 3.5).

La Simpla Vortaro simple montras la du eblecoj kun la malplej malboneco. Ofte la dua estas sensenca (‘inteligent-a’, ‘in-tel-ig-ent-a’) sed iufoje ĝi havas sencon (‘koleg-o’, ‘kol-eg-o’). Mi ne havas metodon por distingi la du tipojn.

Kio ankoraŭ ne funkcias

Mia listo de eblaj vortfaradaĵeroj enhavas -o kaj -a vortoj. Tiel la vortfarada serĉo povas kompreni vortojn kiel ‘dormosako’ kaj ‘ĝustatempe’.

La vorto ‘posteulo’ enhavas -e vorton kiel radiko, sed mi ne aldonis -e vortojn al listo ĉar mi ne kredas ke aliajn tiajn vortojn ekzistas. Do oni ne povas serĉi ‘posteulo’ hodiaŭ per la vortfarada serĉo.

Simile, ‘kielvifartasulo’ kaj ‘vivui’ enhavas plenajn verbojn kiel radikoj. Mi ne havas verbojn kun finaĵojn en mia listo ĉar ĉi tiaj vortoj estas tre malkomunaj.

* Laŭ mia scio. Se vi trovis ekzemplon, kun kiu ĝi ne kalkulas la ĝustan rezulton, bonvolu informi min.

La Simpla Vortaro v1.0

30 Nov

Hura! Kun granda plezuro mi povas anonci la unuan version de La Simpla Vortaro!

Se vi ne legis miajn pli fruajn blogafiŝojn, jen la avantaĝoj de mia vortaro:

  1. Ĝi enhavas literumilon.
  2. Oni povas uzi supersignojn, la x-sistemo aŭ la h-sistemo.
  3. Oni povas serĉi vortojn kun -j kaj/aŭ -n finaĵoj.
  4. Oni povas serĉi verbojn kun -i, -is, -as, -os, -us, -u finaĵoj.
  5. Oni povas serĉi vortfaradaĵojn.
  6. Oni povas ligi rekte al serĉoj aŭ vortoj (ekz: http://www.simplavortaro.org/?serĉo=vortaro).
  7. Ĝi enhavas malpli da mallongigoj.

Mi esperas ke ĝi plaĉas al vi, kara leganto. Ne hezitu sendi al mi viajn pensojn kaj ideojn.

Jen la ligilo de la ĉefpaĝo: http://www.simplavortaro.org/

La Aspekto De La Simpla Vortaro

14 Nov

La preteco de La Simpla Vortaro proksimiĝas. Ĉi-semajnfine mi pripensis aspekton. Jen la ĉefpaĝo:

Mi konkludis ke mi bezonis aldoni iom da koloro por ligiloj. Mi ankoraŭ ne tute certas pri la grandeco de la tiparoj.

Jen la serĉpaĝo:

Notu ke oni ne devas serĉi la infinitivon nek uzu supersignojn. Ankaŭ, mi nun provas kalkuli la plej verŝajnan eblecon de vortfarado. Mi ankoraŭ ne certas pri kiel montri vortfaradajn eblecojn: ĉu mi konvertu al supersignoj por beleco, aŭ ĉu konservu la originalan skribsistemon por klareco (la bildo montras konservadon)?

Restas problemoj por tabelvortoj. La vortfaradilo nun funkcias bone kun -j kaj -n finaĵoj (mi blogos pri ĉi tio pli poste). Por normalaj o-vortoj, ĝi enstrekigas ĉi tiel: ‘ge-edz-oj’. Sed kion fari por ‘ĉiuj’? Ĉu ‘ĉi-uj’ (pli simila ol aliaj substantivoj) aŭ ‘ĉiu-j’ (eble pli klara)?

Kaj jen la vortpaĝo:

Ne estis facila elĉerpi la ekzemplojn, sed mi sukcesis. Mi ankaŭ decidis skribi ‘transitiva’ anstataŭ ‘tr’ por klareco (ne montrata en ĉi tiu bildo). Notu ke la subdefinoj estas numerata laŭ la esperanta aboco.

Restas malgranda cimo pri pozicioj de la vortoj: notu ke la vorto bildo estas rekte sub ‘b.’ anstataŭ pli dekstre.

Mi esperas ke vi estas kiel ekscitata kiel mi. Mi lanĉos baldaŭ, post mi forigas la lastajn cimojn.

Kiel krei ilon de vortfarado

11 Oct

Se oni serĉas la vorton plibonigi en la vortaro de Lernu, ĝi respondos ĉi tiel: pli-bon-ig-i. Utile. Tamen se oni serĉas la vorton plidolĉigi, la vortaro ne helpos onin. Do, mi demandis min mem: ĉu eblas krei ĝeneralan ilon por vortfarado?

Jen esperanta ŝerco (ne estas la plej bona!):

Kial ĝirafo neniam enuas?

Ĉar ĝi havas kolegon.

Kolego estas bona ekzemplo de multsenca vorto. Por trovi ĝin en vortaro, oni unue serĉas la vorton kolego en vortaro, kaj kompreneble ĝi estas tie. Poste, oni serĉas en la vortaro radikojn, kaj trovas nur la radikon kol- (ĉar ne ekzistas radikoj: ko-, kole-koleg-). Fine, oni serĉas simile la ceteron -eg- kaj ekkomprenas la ŝercon.

Komputiloj povas fari simile.

Aŭtomata vortafarado

Mi kreis programon kiu faras ĉi tiele:

Por la vorto kolegon:

  1. Forigi la finaĵon: koleg- (ĉi tiu tasko estos temo por alia blogafiŝo)
  2. Serĉi ĉiun eblecon en listo de radikoj: k-, ko-, kol-, kole-, koleg-
  3. Konservi ĉiun trovitan radikon: kol-, koleg-
  4. Ripeti la serĉon por la restantaj literoj (post kol- en ĉi tiu kazo): e-, eg-
  5. Kunmeti la rezultojn: koleg-o, kol-eg-o

Defioj

Do, kio estas la problemoj de ĉi tiu metodo?

Mi nur antaŭvidis la problemon de vortfarado kun neradikoj (kiu estas diskutata en PMEG). Ekzemploj de ĉi tiaj vortoj estas birdokanto kaj ĝustatempe. La solvo estas aldoni o-vortojn kaj a-vortojn al ‘la listo de radikoj’, kiu do nun estas listo de vorteroj.

Tamen, dum programado mi kredis ke oni ĉiam povas kalkuli la vorton kiu rilatas al la radiko. Interese, la vivo ne estas tiel simpla. Pripensu la vorton novajaro. Ĉu ĝi signifas freŝa jaro aŭ jaro de steleksplodo? Oni ne scias sen kunteksto. Mi malkovris 9 ĉi tiajn vortojn en ReVo: sumo, halo, nova, togo, vila, koto, metro, polo, kaj alo. Ili ĉiuj estas ambaŭ radikoj kaj plenaj vortoj sed kun tute malsamaj sencoj! La solvon mi elektis estis ĉiam preferi la pli longan, do en ĉi tiu ekzemplo la kodo decidas ke nova- estas radiko kaj ne plena vorto.

La alian problemon mi malkovris, estas ke ĉi tiu metodo ofte trovas tro da eblecoj kiu ne vere validas. Antaŭnelonge mi lernis ke persone estas dusenca vorto, aŭ person-eper-son-e (mojose, ĉu ne?). Tamen mia ilo trovas tri eblecojn: la menciitaj du, kaj pers-on-e. Nu, perso estas vorto, sed -on- estas nur por vortoj kiuj rilatas al kvantoj. La situacio estas pli malbona por pli longaj vortfaradaĵoj: la (plejparte ŝerca, menciita en IRCa konversacio) vorto hundomalfermilo havas multajn rezultojn:

hundo-mal-ferm-il-o
hundo-mal-fer-mil-o
hun-dom-alf-er-mil-o
hun-dom-al-ferm-il-o
hun-dom-al-fer-mil-o
hun-do-mal-ferm-il-o
hun-do-mal-fer-mil-o

Por ĉi tiu problemo mi ne trovis bonan solvon. La ilo ne konas la sencojn de la radikoj kaj tial ne povas forĵeti la sensencajn eblecojn. Tre ofte, la ebleco de la malplej radikoj estas ĝusta. Ĉi tio ne perfektas tamen: mi legas (eble intence strangajn) vortojn de aliaj espertantistoj kiel tra-fike kaj homa-rano. La plej bona solvo estus ordigi la rezultojn per populareco de la radikoj*. Mi ankaŭ konsideras la ideon ke la uzanto povus helpi per aldonado de streketoj.

(*Se vi havas ekzempleron de Microsoft Access, bonvolu kontakti min!)

Restanta laboro

La vortaro malrapide promsimiĝas pretecon, sed eĉ ĉi tiu parto ankoraŭ ne finiĝis. Mi planas aldoni flekseblecon de skribsistemo, kaj la tuta vortfaradilo ankoraŭ bezonas multe da testado. La finita vortaro estos uzebla ĉe simpla vortaro .org sed ĝis tiam mi bonvenas testindaĵojn por ĉi tiu ilo.