Docstoc

loukachevitch

Document Sample
loukachevitch Powered By Docstoc
					      Research Computing Center 
      of Moscow State University 

                NCO Center for Information Research



             Natalia V. Loukachevitch
                          
                     louk@mail.cir.ru



         Russian Language in 
Cross-Language Information Retrieval:
     Resources and Tools in Russia
                              
                  Plan.1
n   Morphological analyzers of Russian
n   Morphology of East Slavonic 
    languages
n   Multilingual information-retrieval 
    thesauri
n   Electronic bilingual dictionaries
n   Russian and bilingual text collections
                     Plan.2
n   Machine Translation systems
n   Example-Based Machine Translation 
    system and conceptual information 
    retrieval
n   Bilingual ontologies
    n   Russian WordNet
    n   Sociopolitical Thesaurus for automatic 
        text processing
    Morphological analysis of 
       Russian language
n   No problem: a lot of qualitative 
    morphological analyzers of Russian

n   Based on classification in 
    “Grammatical dictionary of Russian 
    language” by A.A. Zalizniak (the first 
    edition was published in 1983)
    Morphological analyzers:
n   Zalizniak dictionary and a morphological 
    analyzer 
    http://starling.rinet.ru/morpho.htm
n   With license LGPL 
    http://www.aot.ru/download.html 
    (site in Russian)
n   http://linguist.nm.ru/index.htm 
    (Russian and Ukrainian) - paid resources,  
    used in several known commercial 
    Russian systems
Russian Internet Search Engines use 
 with Russian morphology analysis


n   Yandex – www.yandex.ru

n   Rambler – www.rambler.ru

n   Aport – www.aport.ru
         Morphology of East Slavonic 
         Languages in Search Engines

n   Ukrainian Internet search engine 
    Meta (www.meta.ua)
    n   Russian, English and Ukrainian 
        morphology
n   Byelorussian search engine 
    (www.akavita.by)
    n   Russian, English and Byelorussian 
        morphology (will be added)
Traditional multilingual 
  information-retrieval 
               thesauri
Thesaurus of European Union: 
               EUROVOC 
n   Translated into 9 languages
n   Translated into Russian language by 
    specialists of Parliamentary library
n   Added with Russian specific terms 
    (9646 descriptors in Russian version)
n   Used for manual indexing of 
    documents in the library
Electronic dictionaries
       MultiLex dictionaries
n   www.medialingua.com
n   English, French, Spanish, German, 
    Italian
n   Licenced versions of dictionaries 
    from publishers
n   Usually includes a general dictionary 
    and several domain-specific 
    dictionaries
         Lingvo dictionaries
n   www.abbyy.co.uk 

n   Abbyy Lingvo 8.0 Multilingual edition: 
    Eight translation directions – 41 general 
    and specialised dictionaries 

n   FineReader – the best Russian OCR-
    system. Support more than 100 
    languages. Winner in 70 comparative 
    tests worldwide
    Polyglossum dictionaries
n   ETS  publishing house
n   www.ets.ru 
n   Electronic (plain text format is 
    possible) versions and traditional 
    printed versions 
n   Bilingual English, German, French, 
    Spanish, + Finnish languages
Russian Text Collections
Internet Library of Moshkov
n   www.lib.ru
n   Fiction in Russian including classic 
    works
n   3300 Mb Text-files and 300 Mb 
    other files
n   Free access
n   No copyright
    Internet library - www.public.ru 
n   More than 1000 names of periodic 
    press after 1990.
n   Free access
n   No copyright
n   License to librarian activity
Morphologically tagged corpus of 
  Russian “Russian Standard”
n Creation of a morpologically tagged 
  corpus of Russian in Russia has been 
  begun
n Russian fiction   583,814 words
n Serge Sharoff
  http://corpus.leeds.ac.uk/ 
Parallel collections
    Parallel translation of 
        news reports
n ITAR-TASS agency: news reports in 
  6 languages (http://corp.itar-
  tass.com/english/about/)
n RIA-Novosti agency: news reports in 
  12 languages 
  (http://en.rian.ru/rian/index.cfm)
n Internet newspaper PRAVDA On-
  Line http://english.pravda.ru/ - 
  translation into English
        Translation of 
      Russian Legislation
n  GARANT company – 
   legal information systems
n http://www.garant.ru/nav.php?pid=2
  86&ssid=89 
n  Translated more than 25 thousand
   Russian legal acts into English
n  is disseminated via the network of
   the American company
   LEXIS/NEXIS.
Machine translation 
     systems
    ETAP  machine translation 
            system
n   Based on Meaning-Text Theory by 
    I.Melchuk and Y. Apresyan. 
    Detailed rule-based syntactic 
    analysis.

n   English-Russian

n   http://cl.iitp.ru/etap/index.html 
Most known commercial machine 
translation system: PROMT

n www.e-prompt.com
n Russian - English, French, German, 
  Spanish, Italian
n English-German
n Development of domain-specific 
  systems
n Online translation: www.translate.ru
Example-Based Machine 
Translation: ETRANS, RTRANS
n Gerold Belonogov
n Idea was published in 1975
n VINITI - All-Russian Scientific and 
  Technical Information Institute of 
  Russian Academy of Sciences 
  (www.viniti.ru)
     Example –based machine 
      translation in VINITI -2
n VINITI: manual indexing – search 
  images of technical literature, 
  abstracts, collected for many years
n 900 thousand Russian terms were 
  extracted (length 1-13 words)
n Parallel collection of English 
  abstracts and their translation into 
  Russian => 800 thousand English 
  terms
Conceptual indexing in VINITI
n Bilingual base of terms can serve as 
  a resource for bilingual search
n It is not an ontology, only bilingual 
  pairs
n An important tool for VINITI: access 
  of foreign researchers to Russian 
  technical literature, but
n (as I know) not implemented yet
Multilingual ontologies
Russian WordNet - RussNet

n Saint-Petersburg State University
n 2003: 
  15000 words – 
  5000 synsets – 
  8000 relations
n Adding of several types of new 
  relations such as derivative 
  synonyms, derivative semantic roles
         University Information System RUSSIA Collections 
                 (Center for Information Research)
                    800,000/ 7.5Gb (www.cir.ru)

                         Source              Retrospective   Documents
Legal             Official Publication          1990-…            55,000
documents              Coverage
State Duma            State Duma                1994-…           100,000
daily records
Statistics      State Statistics Agency;        1998-…            20,000
                CIS Interstate Statistics 
                       Committee
Mass media      Expert weekly; Nezavis.        199(7)-…          180,000
                  gazeta; Izvestia; …
Analytical        Central Bank of RF;           1996-…            10,000
reports          Rus.-Europ.Center for 
                  Economic Policy; …
Scientific       MSU Publishing, RePEc,         1999-…              2,000
publications    “Sociology Research”, …                       (+230,000ref)
                UIS RUSSIA

v   Collections of documents in English

      - RePEc (Research Papers in 
        Economics,  www.repec.org) 
        abstracts and full texts

      - collection of Council of Europe 
        documents.

v   access to parallel collections of 
   legislation. Harmonization of legislation 
      Approach to Organization of 
    Bilingual Search in UIS RUSSIA

n   Development of a bilingual ontology 
    in sociopolitical domain based on 
    Russian Sociopolitical Thesaurus for 
    automatic text processing
       Sociopolitical Thesaurus
       28,000  concepts,     70,000  terms
         105,000  conceptual relations

v   constructed specially as a tool for 
     automatic text processing;
v   contains terms from economic, 
     financial, political, military, social, 
     legislative and cultural domains;
v   a set of relations is specially adapted 
     to information-retrieval applications;
v   regularly tested during automatic text 
     processing
             Use of Thesaurus in 
       Information Retrieval applications
v       Flexible knowledge-based categorization 
       systems (9 systems)
       -  Automatic text categorization of Russian 
          legislation (200 000 documents) – 
          3000 categories
v      Knowledge-based text summarization
       system
       -  SUMMAC conference
v      Thesaurus-based information 
       retrieval
       -  a specially constructed  thesaurus can 
           significantly improve efficiency of information 
           retrieval (3-point average precision)
     English-Russian Sociopolitical 
              Thesaurus
n   Hierarchical conceptual net of 63 
    thousand English terms
n   Manual work
    n   Use of general and special English-Russian 
        dictionaries 
    n   Study of conventional American and British 
        dictionaries  and information-retrieval 
        thesauri.
    v   Cross-checking of translations. 
         Addition multiword variants. Internet checks.
Bilingual Search in UIS RUSSIA
www.cir.ru/is4/
       English-Russian Sociopolitical 
                Thesaurus: 
    testing and use in new applications
n   Automatic text categorization of economic 
    papers and abstracts using JEL subject headings 
    (700 categories) (supported by Ford 
    Foundation, USA)

n   Automatic text processing of statistical tables 
    (in cooperation with Berkeley University, USA)

n   Automatic text processing of European 
    documents (European Court of Human Rights, 
    Council of Europe, European Union) – problems 
    of harmonization of Russian Legislation
      Adding languages to 
     Sociopolitical Thesaurus
n   It is a challenge to develop multilingual 
    Sociopolitical thesaurus, to describe 
    terms of Sociopolitical domain from 
    different languages in the same 
    hierarchical net.

n   A project under discussion – to add Tatar 
    language to the bilingual thesaurus. 
    Tatars are the second nation in Russia
         Russian Information Retrieval 
          Evaluation Seminar -2003
n   Web Collection – 7 Gb 
    n   (www.narod.yandex.ru)

n   Thematic classification of Web-sites

n   Web Search
    n   10000 real queries from Internet were given
    n   50 queries will be evaluated

n   8 Russian participants

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:0
posted:12/30/2013
language:English
pages:39