IR CLNov 4, 2014

A Probabilistic Translation Method for Dictionary-based Cross-lingual Information Retrieval in Agglutinative Languages

Javid Dadashkarimi, Azadeh Shakery, Heshaam Faili

arXiv:1411.1006v211 citations

Originality Incremental advance

AI Analysis

This addresses retrieval challenges for users in agglutinative languages like Persian, but it is incremental as it builds on existing dictionary-based CLIR approaches.

The paper tackled translation ambiguity and missing lexical formations in dictionary-based cross-lingual information retrieval for agglutinative languages by introducing a probabilistic translation model, resulting in outperforming state-of-the-art methods in English-Persian CLIR.

Translation ambiguity, out of vocabulary words and missing some translations in bilingual dictionaries make dictionary-based Cross-language Information Retrieval (CLIR) a challenging task. Moreover, in agglutinative languages which do not have reliable stemmers, missing various lexical formations in bilingual dictionaries degrades CLIR performance. This paper aims to introduce a probabilistic translation model to solve the ambiguity problem, and also to provide most likely formations of a dictionary candidate. We propose Minimum Edit Support Candidates (MESC) method that exploits a monolingual corpus and a bilingual dictionary to translate users' native language queries to documents' language. Our experiments show that the proposed method outperforms state-of-the-art dictionary-based English-Persian CLIR.

View on arXiv PDF

Similar