Linguistics in language technology donor or user

Document Sample
Linguistics in language technology donor or user Powered By Docstoc
					              Keeleteaduse ja keeletehnoloogia vahekorrast1
                                                    Ülle Viks
                                              Eesti Keele Instituut


Olen teesides väitnud, et keeletehnoloogia on üks keeleteaduse olulistest
rakendusvaldkondadest, mille paljude erinevate tarbijate hulka kuuluvad ka keeleteadlased
ise. Ja üritan seda nüüd lahti seletada.
                       keeleteadus ↔ keeletehnoloogia

Ettekandel on 3 osa:
1. Mis on mis? – täpsustan mõisteid lingvistika, informaatika, arvutilingvistika (AL),
    keeletehnoloogia (KT)
2. Vastastikused ootused – käsitlen lingvistika ja KT vastastikuseid vajadusi ja võimalusi
3. Millega tegeleb EKI? – tutvustan Eesti Keele Instituudi osa Eesti KT-s


1. Mis on mis
Alustuseks püüan piiritleda keeleteaduse ja KT-ga seotud valdkondi ja mõisteid.

LINGVISTIKA
                             ARVUTILINGVISTIKA                  →        KEELETEHNOLOOGIA
INFORMAATIKA


Definitsioonide allikad:
    EE = Eesti entsüklopeedia
    ÕS99 = Eesti keele sõnaraamat ÕS 1999
    AKS = Vello Hanson, Arvi Tavast, Arvutikasutaja sõnastik (1999)
    HC = Hamish Cunningham, A definition and short history of Language Engineering.
               – Natural Language Engineering 1999. Vol. 5, Part 1: 1-16
               Institute for Language, Speech and Hearing, and Department of Computer
               Science, University of Sheffield, UK (KT prof.)
    G = Google: "What is computational linguistics?"
                       "What is language technology?"


Mõisted lingvistika (keeleteadus) ja informaatika (arvutiteadus) on enam-vähem
üheselt mõistetavad.
 keeleteadus, lingvistika, teadus keelest, selle olemusest, ehitusest, talitlemisest ja
   arenemisest (EE)
 informaatika, arvutil põhineva infotöötlusega tegelev teaduse ja tehnika haru (ÕS99,
   AKS)




1
    Ettekanne konverentsil „Rakenduslingvistika Eestis― 11.aprillil 2002 Tallinna Pedagoogikaülikoolis
AL
Segasem lugu on AL-ga. Arvutilingvistikat (ka arvutuslingvistika, raallingvistika) on
liigitatud nii ühele kui teisele poole. Arvutiinimesed kalduvad AL-t pidama rohkem
keeleteaduse osaks ja vastupidi.
 computational linguistics, raallingvistika, keeleteaduse haru, kasutab loomuliku keele
     uurimiseks infotehnoloogiat (AKS)
 computational linguistics (arvutilingvistika) - lingvistika haru, mis kasutab arvutit
     vahendina lingvistiliste probleemide lahendamisel (HC)
Keeleuurimist arvutuslikust aspektist rõhutab ka ACL leheküljelt leitud määratlus:
 computational linguistics is the scientific study of language from a computational
     perspective (G: http://www.aclweb.org/archive/what.html)

Seevastu EE aga peab AL-t küberneetika osaks.
 arvutuslingvistika, küberneetika osa, mis tegeleb keelestruktuuride kujutamise ja
   töötlemisega arvutistruktuurides (EE)
EE tõlgendus on HC mõistesüsteemis AL-st hoopis eraldi nimetuse all Natural Langugae
Processing (NLP – keele masintöötlus). Kui AL on HC-l lingvistika haru, siis NLP on tal ...
 natural language processing (keele masintöötlus) - arvutiteaduse haru, mis uurib
   arvutisüsteeme ja nende kasutamist loomulike keelte töötlemisel (algoritmid, formaalsed
   keeled, tarkvara) (HC)

Arvutipoolset liini toetavad veel mõned leiud Internetist:
 computational linguistics ... is a part of Artificial Intelligence
   (G: http://www.eecs.umich.edu/~rthomaso/cl/cl-field.html)
 Computational Linguistics develops computer programmes
   (G: http://www.compapp.dcu.ie/openday/whatis_cl.htm)

AL koha paneb paika ÕS1999, mis määratleb seda selgesõnaliselt piiriteadusena.
 arvutilingvistika, raallingvistika, loomuliku keele automaattöötlusega tegelev
    keeleteaduse ja informaatika piiriala (ÕS99)
See seisukoht saab autoriteetset toetust ka Internetist: Hans Uszkoreit (Saarlandi ülikool – AL
prof) nimetab AL-t piiriteaduseks, mis tegeleb inimkeele arvutusliku küljega.
 Computational linguistics (CL) is a discipline between linguistics and computer science
    which is concerned with the computational aspects of the human language faculty.
    (G: Hans Uszkoreit - http://www.coli.uni-sb.de/~hansu/what_is_cl.html)


KT
Keeletehnoloogia on nii uus asi, et vähemalt eesti sõnastikest seda sõna veel ei leia.
Nagu AL puhul, nii ka siin võib leida erinevaid definitsioone, mis osalt kattuvad AL
määratlustega.

Arvutiteaduse vaatepunkti esindab Cunninghami definitsioon. Tema peab KT-t keele
masintöötluse (NLP) rakenduseks tarbijasüsteemides.
 language engineering (keeletehnoloogia) - tegeleb selliste tarkvarasüsteemide
    tehnoloogilise analüüsiga, mille sihiks on inimkeele töötlemine (HC)
Lisaks Internetist:
 Language Technology is the term we use to describe a range of computational techniques
    designed to process real human language...
    (G: http://www.mri.mq.edu.au/ltg/langtech.html)
 Language Technology is ... a subfield of artificial intelligence.
    (G: http://www.clt.mq.edu.au/Information/WhatIsLT.html)
Keeleteaduse aspekti rõhutamist on vähem (kuid siiski):
 "Language Technology" is the term for language capabilities designed into the
   computing applications used in information and communication technology systems.
   (G: http://www.ilsp.gr/euromap_eng.html)

Mulle tundus kõige vastuvõetavam Hans Uszkoreit'i definitsioon, mis kõlab vabas tõlkes
umbes nii: KT tegeleb meetodite, tarkvara ja seadmetega, mis on spetsialiseeritud tekstide ja
kõne töötlemiseks. KT on AL tehnoloogiline haru, mis tugineb teadmistele inimkeelest.
    Language technology — sometimes also referred to as human language technology
       — comprises computational methods, computer programs and electronic devices that
       are specialized for analyzing, producing or modifying texts and speech. These systems
       must be based on some knowledge of human language. Therefore language
       technology defines the engineering branch of computational linguistics.
       (G: http://www.dfki.de/lt/lt-general.html)


Vaatepunktist sõltumata on selge, et KT-s kuuluvad keel ja arvuti lahutamatult kokku, ja
vastavalt sellele on eristatakse ka KT koostisosi.
KT koostisosad:
 tarkvara: arvutiprogrammid keeleandmete töötlemiseks, nt
       o teksti grammatiline analüüs ja süntees
       o suulise kõne süntees ja tuvastus
       o õigekeelsuse ja stiili kontroll
       o masintõlge
       o infootsisüsteemid
       o dokumenditöötlus
       o inimkeelne dialoog arvutiga
       o tõlkija või keeleõppija abivahendid
       o jne jne
 keeleressursid: formaalsed keeleandmed tarkvarasüsteemide arendamiseks:
       o elektroonilised sõnastikud ja andmebaasid
       o lingvistiliselt märgendatud tekstikorpused
       o formaalsed grammatikakirjeldused


Terminoloogiaosa kokkuvõtteks esitan lihtsustatud skeemi: "Mis millega tegeleb". Teooria
poolele jäävad lingvistika, informaatika ja AL, rakenduste poolel on KT.

teooria               teooria                              rakendus

LINGVISTIKA
inimkeel

                      ARVUTILINGVISTIKA             →      KEELETEHNOLOOGIA
                      inimkeele arvutitöötlus              inimkeele arvutitöötluse
                                                           meetodid ja vahendid

INFORMAATIKA
infotöötlus arvutis
2. Vastastikused ootused
2.1. Mida ootab keeletehnoloogia lingvistikalt?
Ma jätaks informaatika nüüd kõrvale ja vaataksin lähemalt lingvistika ja KT vahekorda.
Kõigepealt: mida on lingvistikal pakkuda KT-le. See mida KT vajab, on keeleressursid:
sõnastikud, märgendatud tekstid ja formaalsed grammatikad – ehk lingvistiline teadmine
formaliseeritud kujul.

Lingvistilise uurimistöö väljundiks on tavaliselt:
       teaduslikud uurimused
       akadeemilised grammatikad
       traditsioonilised sõnastikud

Need kõik sisaldavad lingvistilist teadmist, mis on sõltuvalt väljaande liigist esitatud erinevate
põhimõtete järgi: uurimus, grammatika ja sõnastik võivad sisaldada sama infot, aga see on
vormistatud erinevalt.

Keeletehnoloogiale pakuvad huvi eelkõige suured sõnastikud: kakskeelsed tõlkesõnastikud ja
rikkaliku andmestikuga ükskeelsed sõnastikud, nt ÕS või seletussõnaraamat.
Traditsioonilises sõnastikus võib olla märksõna kohta palju mitmesuguseid andmeid, nt
 hääldus: 3. välde, rõhk, palatalisatsioon
 grammatilised andmed: muuttüüp, sõnaliik, muutevormid, erandid, grammatilised
    märgendid, rektsioon jne
 morfeemiliigendus: liitsõnapiirid
 pragmaatika: eriala- või stiilimärgend
 semantilised andmed: seletus, sünonüüme-antonüüme
 kollokatsioon: tüüpilised väljendid, lausenäited

See kõik on KT-le vajalik info, kuid enamasti ei saa KT seda otse kasutada, sest see pole
täpselt see, mida vaja, ja mitte sel kujul, kui vaja. Uurimused, käsiraamatud ja sõnastikud on
ju tehtud inimese poolt inimese jaoks, ja seetõttu tulevad mängu taustateadmised, mida
inimesele pole vaja seletada, küll aga arvutile.

Nii et enne kui KT saab lingvistilisi teadmisi kasutada, tuleb need teisendada KT-le
sobivateks keeleressurssideks: elektroonilisteks leksikonideks ja formaalseteks
grammatikateks:
     traditsioonilised sõnastikud -> elektroonilised leksikonid ja andmebaasid
     akadeemilised keelekirjeldused -> formaalsed grammatikad


2.2. Mida ootab lingvistika keeletehnoloogialt?
Teeme nüüd 180-kraadise pöörde ja vaatame asja teisest otsast – mida on KT-l pakkuda
lingvistikale (sh AL-le). See mida lingvistika vajab, on tarkvara, mille abil keelt uurida ja
töödelda – ehk lingvisti töövahendid arvutis.

KT lühikese ajaloo jooksul on juba loodud küllalt palju tarkvara eesti keele jaoks (osa neist
mitmes variandis):
      o morfoloogiline analüüs ja süntees
      o morfoloogiline ühestus
       o   süntaktiline analüüs
       o   kõnesüntees (tekst -> kõne)
       o   speller
       o   otsisüsteemid tööks sõnastikega ja tekstidega
       o   jne

Kõik need programmid on vajalikud ka keeleteadlasele, aga probleem on analoogiline sellega,
millest oli äsja juttu. Tarkvara on loodud nn laia tarbija jaoks, kelle vajadused on teistsugused.
Lingvist ei saa tarkvara otse kasutada, sest see pole täpselt see, mida vaja, ja mitte sel kujul,
kui vaja.
Selleks et keeleteadlasele saaksid KT vahendid kättesaadavaks, tuleb need enne kohandada
vastavalt lingvistilise uurimis- ja arendustöö vajadustele. Enamasti polegi vaja olemasolevat
tarkvara ümber teha – piisab sobivatest liidestest (vahel on muidugi tarvis ka midagi uut).
Põhiline nõue, mille täitmist lingvist eeldab, on et keele automaattöötlus annaks lingvistiliselt
usaldusväärseid tulemusi – et info töö käigus ei moonduks.


2.3. Milliseid töövahendeid vajab lingvist?
Milleks:
    hankida uusi teadmisi keelest (mida varasemad töövahendid ei võimaldanud)
    kontrollida-testida teooriaid, hüpoteese ja mudeleid eksperimentaalselt
    koostada uusi sõnastikke ja grammatikaid (inimeste jaoks)
    valmistada ette formaliseeritud keeleressursse (KT jaoks) – last but not least!

Lingvist saab küllalt palju abitöid ära teha lihtsate ja universaalsete programmidega, nagu
sortimine, statistika, konkordantside koostamine, mitmesugused teisendused jne. Aga
tõsisemate ülesannete puhul läheb tarvis väga komplitseeritud töövahendeid, mis sisaldavad
peaaegu kogu KT arsenali.

Vaatame näiteks, mida on leksikograafil vaja selleks, et koostada autorisõnastikku.
See on sõnastik, mis keskendub ühe autori sõnakasutusele, võttes arvesse kõik autori poolt
loodud tekstid.
Esmapilgul näib asi lihtne: tuleb kõik tekstid sisestada arvutisse, eristada sõnavormid, sortida
need alfabeeti, loendada ja ühendada korduvad sõnavormid. Paraku ei ole sel viisil saadud
tulemus mitte tõeline sõnastik, vaid alles selle lähtematerjal (sõnede sagedusloendid).

Tekst koosneb sõnavormidest (nt Tuvid ei taha kirju kanda), aga sõnastikus peavad olema
lemmad (algvormid), nt tuvi, ei, tahtma, kiri, kandma.
Järelikult on vaja morfoloogilist analüüsi, et jõuda sõnavormi juurest lemmani.

Morfoloogilise analüüsi tulemus on enamasti mitmene (eesti keele puhul ligi pooltel
juhtudel), nt kanda võib olla da-infinitiiv verbist kandma või sg p substantiivist kand,
taha võib olla verbivorm (sõnast tahtma) või adverb taha; kirju võib olla pl p substantiivist
kiri või sg n/g adjektiivist kirju.
Siin tuleb appi morfoloogiline ühestamine, mis konteksti arvestades valib iga konkreetses
lauses välja õige analüüsivariandi (antud lauses tahtma, kiri ja kandma).

Korralikus autorisõnastikus peab olema antud ka sõna tähendus ja kasutusnäited. Tähendusi
saab vaadata teistest sõnastikest (sõnastikuotsing). Aga neid ei saa otse üle võtta, sest siin
tuleb esitada ainult selle autori poolt kasutatud tähendused. Tähenduste kindlakstegemisel ja
näidete valikul on vaja korraga vaadata kõiki sama sõna kasutusjuhtumeid. Siin aitab
täistekstotsing.

Kõike seda, mis juba nimetatud autorisõnastiku koostamisel, on vaja ka muude
sõnastikutüüpide puhul ja kõigil sõnastiku koostamise etappidel.

Sõnastiku koostamise etapid:
    märksõnastiku koostamine (erinevad mahud, teemad)
    grammatilise info esitus
    tähenduste eristamine ja definitsioonide koostamine
    lisainfo esitus (eriala-, stiilimärgendid, kasutusandmed)
    vastete valik (2-keelses sõnastikus)
    näidete valik
    sõnastikusisene viitamine
    tehniline kontroll ja ühtlustamine (sulud, numbrid jne)

Kõik need on töömahukad protsessid, kus KT vahendid on kindlasti suureks abiks.
See oli mittetäielik näide leksikograafi vajaduste kohta, muudel erialadel osa vajadusi kattub,
osa on spetsiifilised.
3. Millega tegeleb EKI?
KT töörühmad tegutsevad Eestis 3 kohas: TÜ (+Filosoft), EKI, TTÜ (KübI), ja tänu prof H.
Õimu vedamisjõule on need rühmad ka juba aastaid koostööd teinud. On olemas ka ühine
veebileht: http://www.eki.ee/keeletehnoloogia/. Mina tutvustan põgusalt seda, millega
tegeldakse EKI-s.

3.1. Keeleteadus
Põhilised lingvistika valdkonnad, mis on baasuuringuteks KT-le ja mille uurimisel on kõige
rohkem kasutatud KT vahendeid, on:
 grammatika:
       o avatud morfoloogiamudel (reeglipõhine analüüs ja süntees)
       o sõnamoodustus (liitsõnad, tuletus)
       o grammatilise info esitus sõnastikes
 leksikoloogia-leksikograafia:
       o eesti keele sõnavara kihid
       o sõnastike struktuurianalüüs
       o sõnastike metakeele väljatöötamine
 foneetika:
       o prosoodia ja süntaksi seosed


3.2. KT ressursid
Formaalsed grammatikad (loodud avatud morfoloogiamudeli baasil):
    silbitusreeglid
    tuvastusreeglid: muuttüübi, sõnaliigi, liitsõnapiiri tuvastus
    tüvemuutuste reeglid: astmevaheldusreeglid, tüve lõpumuutuste reeglid jt
    vormimoodustuse reeglid: tüvevariantide ja muutelõppude kombinatoorika
    tuletusreeglid: tüvevariantide ja tuletusliidete kombinatoorika

Elektroonilised sõnastikud:
   EKI põhitegevus on seotud akadeemiliste originaalsõnastike koostamisega, mis on kõik
olemas ka elektroonilisel kujul. Suur osa sõnastikke on ka Internetis väljas, peamiselt 2 kohas:
 EKI koduleheküljel: http://www.eki.ee/dict/: Väike murdesõnastik, Slängi sõnaraamat, A.
   Saareste Mõistelise sõnaraamatu indeks
 KeeleWebis: http://ee.www.ee/: Õigekeelsussõnaraamat (1976), Sünonüümisõnastik,
   Antonüümisõnastik, Fraseoloogiasõnaraamat

Muud olulisemad avalikud andmekogud ja infoallikad:
 EKI tekstikorpus (märgendamata, u 10 milj sõnet): http://www.eki.ee/corpus/
 kohanimede andmebaas: http://www.eki.ee/knab/
 Hargla murraku morfoloogiline andmebaas: http://www.eki.ee/dict/hargla/
 tüübitabelid, mis seovad suuremate sõnastike ja ülikooligrammatika (VVS, ÕS’76, SS,
  ÕS’99, Peebo) morfoloogilised klassifikatsioonid:
  http://www.eki.ee/teemad/tabel_jutt.html
 eesti keele sõnade ja sõnavormide koondloendid (sõnastikest ja tekstikorpusest):
  http://www.eki.ee/tarkvara/wordlist/
 Eesti kirjakeele käsiraamat: http://www.eki.ee/books/ekkr/
 keelenõu lehekülg (sh artiklid): http://www.eki.ee/keeleabi/
   temaatiline lehekülg "eesti keel ja arvuti" (kooditabelid, Eesti standard EVS 8:2000 jne)
    http://www.eki.ee/kiisu/keel/index.html
   uurimisteemade publikatsioone: http://www.eki.ee/teemad/

Muud suuremad mitteavalikud sõnastikud ja andmekogud (osa neist saab avalikuks, osa ongi
tehtud tööotstarbeks):
 ÕS 1999
 Vene-eesti sõnaraamat I-IV (2. trükk 2000)
 K.J. Petersoni autorisõnastik
 riimisõnastik (lihtsõnad)
 pooleliolevad suured sõnastikud: Eesti kirjakeele seletussõnaraamat, Eesti-vene
    sõnaraamat, Soome-eesti sõnaraamat, Eesti murrete sõnaraamat, Vadja keele sõnaraamat
 Eesti murded I-VIII (murdetekstid)
 eesti keele tüvebaas: VVS-i uuendatud versioon (morfoloogiasüsteemi tuum)
 sõnamoodustuse andmebaas (ÕS’99 alusel)
 silbibaasid: ortograafiline (tekstikorpuse baasil) ja fonoloogiline (sõnastiku baasil)
 difoonide andmebaas (koostöö TTÜga)
 jne


3.3. KT tarkvara
Kuna EKI ei ole tarkvarafirma, vaid keeleuurimise asutus, siis arvutiprogramme me oleme
teinud eelkõige omaenda vajaduste rahuldamiseks, so:
 uute keeleressursside loomiseks
 lingvistiliste hüpoteeside tõestamiseks ja kontrollimiseks


3.3.1. Reeglipõhine morfoloogiasüsteem: analüüs ja süntees (Morfo)

Keskne koht EKI KT-s on olnud morfoloogial. Oleme oma avatud morfoloogiamudeli
realiseerinud tarkvarana: reeglipõhise morfoloogiasüsteemina (Morfo), mis hõlmab nii
sõnavormide analüüsi kui sünteesi ja laieneb ka sõnamoodustusele.

Reeglipõhise morfoloogia peamised tunnused:
1. Kõik mis keeles on reeglipärane, esitatakse formaalsete reeglitena, ja ainult need üksused,
   mis reeglitele ei allu, esitatakse erandite sõnastikes. Erandite valik ja hulk sõltub otseselt
   fikseeritud reeglitest.
2. Tarkvara ja andmed on sõltumatud. Tarkvara põhiosa moodustavad reeglite
   interpretaatorid. Andmete põhiosa moodustavad formaalsed grammatikad (reeglid) ja
   nende juurde kuuluvad erandid. Kõik andmed (reeglid, erandid, juhtinfo) on antud
   tekstifailidena, mida saab vajaduse korral muuta.
3. Süsteem koosneb mitmest iseseisvast moodulist.
    Igal moodulil on oma reeglite interpretaator ja oma reeglikomplekt koos vastavate
       eranditega.
    Tarkvaramoodulid ja keele allsüsteemid on omavahel vastavuses.
    Moodulid on realiseeritud iseseisvate dünaamiliste teekidena (dll - dynamic link
       library), mis on kasutatavad ka ükshaaval muude rakenduste koosseisus.

Reeglipõhised morfoloogiamoodulid:
 silbitus
   tüübi- ja sõnaliigituvastus
   tüvemuutused
   morfoloogiline süntees
   morfoloogiline analüüs

Pikemalt ma Morfost ei hakka rääkima. Käsitlused on lugeda EKI uurimisteemade rubriigis:
Ü. Viks, Eesti keele avatud morfoloogiamudel morfoloogiamudel – Arvutuslingvistikalt
inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1. Tartu 2000, lk 9-36
(http://www.eki.ee/teemad/avatud_mrf.html).
Tarkvara on antud vabasse kasutuse koos lähtekoodiga: http://www.eki.ee/tarkvara/.
Süsteemi muudetakse ja täiendatakse ka edaspidi, kui mõni moodul paremaks saab või kui
andmed (reeglid-erandid) muutuvad. Praegu käib töö liitsõnade formaalse grammatika
täiendamiseks ja liidese tegemiseks, mis võimaldaks ka tavakasutajal süsteemi täiendada ja
oma erivajadustele kohandada.


3.3.2. Leksikograafi töövahendid

Teine oluline tarkvaravaldkond on seotud sõnastikega:
 sõnastike koostamise abivahendid
 sõnastike formaliseerimine
 märgenduse standardiseerimine (XML)
 otsisüsteemid

Kirjegeneraator:
        Üks näide leksikograafi töövahendist, kus rakendatakse morfoloogiasüsteemi
mooduleid, on kirjegeneraator. See on süsteem grammatiliste andmete lisamiseks tavalise
sõnastiku sõnaartiklisse: sõna põhivormid, muuttüüp, sõnaliik, erandid jms.
Kirjegeneraatori abil on seni tekitatud grammatilised andmed kahte sõnastikku:
     Eesti-vene sõnaraamat I & II. Tallinn 1997 & 2000.
     Norra-eesti eesti-norra sõnaraamat. Tallinn 1998.
Lähiajal on lisandumas EVS-i III köide ja Soome-eesti sõnaraamat.
        Kirjegeneraatori kohta on lähemalt lugeda EKI uurimisteemade rubriigis:
Ü. Viks, Kuidas tekib sõnastikukirjesse grammatika. – "Keel ja Kirjandus" 2000, nr 7: 486-
495. (http://www.eki.ee/teemad/kirjegeneraator.html)

Sõnastikugeneraator:
       Esile tahaksin tõsta I. Heina loodud Internetipõhist masintõlke sõnastiku koostamise
süsteemi koos tõlkiva brauseriga (mis on õigupoolest sõnastiku koostamise abivahend).
     Inglise-eesti sõnastik ja tõlkiv brauser:
       http://www.eki.ee/keeletehnoloogia/projektid/inglise-eesti/


3.3.3. Kõnesüntees

Kolmas KT valdkond EKI-s on kõnesüntees, mida tehakse tihedas koostöös TTÜ ja
Filosoftiga. EKI panus on siin peamiselt mittesõnade töötlus ja töö difoonide andmebaasiga.
     Tekst-kõne süntees: http://www.eki.ee/keeletehnoloogia/projektid/syntees/
        o mittesõnade (numbrite, lühendite jms) töötlus
        o difoonide andmebaasi täiendamine
Kokkuvõtteks
EKI arvutilingvistika töörühm on jõudumööda üritanud lähendada omavahel lingvistikat ja
KT-t, nii et mõlema poole huvid oleksid arvesse võetud.

Keeleteadlaste töö tulemusi kasutatakse KT toodete loomiseks, kusjuures needsamad tooted
on lingvistilises uurimis- ja arendustöös väga vajalikud töövahendid. Lingvist vajab tegelikult
kõiki neidsamu KT vahendeid, mida laiatarbekasutaja. Ainult et ta on ehk nõudlikum
kasutaja. Ja tema tegevusest tõuseb omakorda tulu KT-le, sest paremate vahenditega saab
paremaid tulemusi, mis teevad lõpuks paremaks ka laiatarberakendused.

Looja ja tarbija suhted keeletehnoloogia ja keeleteaduse vahel on vastastikused ja see
võimendab mõlema efekti.

       KEELETEADUS            ↔    KEELETEHNOLOOGIA

               looja          →      tarbija
               tarbija        →      looja