“跨语言信息检索”的意思、由来-中文百科全书

跨语言检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息，也就是一种跨越语言界限进行检索的问题。

跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识，是一个综合性强、富有挑战性的研究领域。跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术，如文字切分技术、词汇翻译、词频技术、索引技术等。

跨语言信息检索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的发表。当时的研究主要针对国际联机检索进行的，由于检索系统不普及，因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点，是在Internet迅猛发展的90年代后期，在很大程度上，Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题，并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表，一些实验性跨语言信息检索技术相继问世。

国内对于跨语言信息检索的研究很少，所查找到的一些资料基本都在2001年以后。国际上，从跨语言信息检索研究领域定期召开的一些会议，也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。

其中TREC是由美国国家技术标准局组织召开的国际会议，其旨在促进大规模文本检索领域的研究，加速研究成果向商业应用的转化，促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6，7，8，9，10五次会议对于跨语言信息检索问题给予了极大的关注，每次的侧重点不同。TREC-6，7，8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的跨语言检索问题进行了研究；在TREC-9会议上，对中英文的跨语言检索问题进行了研究；在TREC-10会议上，对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。

跨语言信息检索需要解决如下几个主要的问题：

(1)查询词与检索到的文献分属不同语言。这是跨语言信息检索的最主要特征，由于提问与文献分属不同的语言，因此在两者之间需要通过词典、语料库（平行语料、可比语料）或者机器翻译系统等方式建立不同语言的语义关联，进行跨语言的翻译，将查询词语和检索文献统一映射为一种语言。

(2)词的歧义和多义性。由于原始提问中有些词义的不确定性，系统中需要借助歧义性、多义性分析机制，将原始提问排歧后转换成最终提问。

(3)查询词的切分。一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号，因此词的切分问题成为此类语言的跨语言检索研究要点之一。

(4)文献的多语言性。在跨语言检索系统中，由于原始文献是用不同的语言书写的，因此语种识别是检索的基本工作，此类情况常出现在自动标引的系统中。

(5)输出结果的排序方式。检索结果中，不同语种的文献如何排序，如何对不同语种的文献进行相关度的计算，也是跨语言资讯检索系统必须研究的问题。

(6）对多语言资源的依赖。由于跨语言检索需要借助多语言资源如双语词典、语料库等进行跨语言的翻译转换，所以跨语言信息检索的性能受到多语言资源的质量和数量的约束，因此构建高质量的多语言资源是跨语言信息检索中亟待解决的难题。

词条	跨语言信息检索
释义	跨语言检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息，也就是一种跨越语言界限进行检索的问题。跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识，是一个综合性强、富有挑战性的研究领域。跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术，如文字切分技术、词汇翻译、词频技术、索引技术等。跨语言信息检索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的发表。当时的研究主要针对国际联机检索进行的，由于检索系统不普及，因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点，是在Internet迅猛发展的90年代后期，在很大程度上，Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题，并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表，一些实验性跨语言信息检索技术相继问世。国内对于跨语言信息检索的研究很少，所查找到的一些资料基本都在2001年以后。国际上，从跨语言信息检索研究领域定期召开的一些会议，也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。其中TREC是由美国国家技术标准局组织召开的国际会议，其旨在促进大规模文本检索领域的研究，加速研究成果向商业应用的转化，促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6，7，8，9，10五次会议对于跨语言信息检索问题给予了极大的关注，每次的侧重点不同。TREC-6，7，8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的跨语言检索问题进行了研究；在TREC-9会议上，对中英文的跨语言检索问题进行了研究；在TREC-10会议上，对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。跨语言信息检索需要解决如下几个主要的问题： (1)查询词与检索到的文献分属不同语言。这是跨语言信息检索的最主要特征，由于提问与文献分属不同的语言，因此在两者之间需要通过词典、语料库（平行语料、可比语料）或者机器翻译系统等方式建立不同语言的语义关联，进行跨语言的翻译，将查询词语和检索文献统一映射为一种语言。 (2)词的歧义和多义性。由于原始提问中有些词义的不确定性，系统中需要借助歧义性、多义性分析机制，将原始提问排歧后转换成最终提问。 (3)查询词的切分。一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号，因此词的切分问题成为此类语言的跨语言检索研究要点之一。 (4)文献的多语言性。在跨语言检索系统中，由于原始文献是用不同的语言书写的，因此语种识别是检索的基本工作，此类情况常出现在自动标引的系统中。 (5)输出结果的排序方式。检索结果中，不同语种的文献如何排序，如何对不同语种的文献进行相关度的计算，也是跨语言资讯检索系统必须研究的问题。 (6）对多语言资源的依赖。由于跨语言检索需要借助多语言资源如双语词典、语料库等进行跨语言的翻译转换，所以跨语言信息检索的性能受到多语言资源的质量和数量的约束，因此构建高质量的多语言资源是跨语言信息检索中亟待解决的难题。
随便看	古月寒古月和尚古月津八景古月空桐古月楼博物馆古月桥古月圣古月堂古月轩古月轩鼻烟壶古月轩瓷古月站古月照今尘古月镇古月中学古云古云飞古云梯关古云梯关遗址古云镇古云中学古陨石风景区古陨石山森林公园古运河城区风光带古运河风景区八路军第120师八路军第2纵队八路军第一纵队八路军第二纵队八路军第五纵队八路军第四纵队八路军西安办事处八路军西安办事处旧址八路军西安办事处纪念馆八路军重庆办事处旧址八路军驻兰州办事处纪念馆八路军驻新疆办事处纪念馆八路军驻洛办事处八路军驻湘办事处八路军驻湘通讯处旧址八辅八辔八辟八边形八达八达岭庄园酒店八达岭残长城八达岭熊乐园八达岭站八达岭野生动物园