请输入您要查询的百科知识:

 

词条 哈尔滨工业大学信息检索研究中心
释义

哈尔滨工业大学信息检索研究中心(HIT-CIR) 成立于2000 年9月1日,隶属于计算机科学与技术学院。信息检索研究中心主任为刘挺教授,研究人员包括秦兵教授、张宇副教授、车万翔讲师/博士,信息检索研究中心的研究方向包括文本检索、文本挖掘、语言分析、跨语言检索和跨媒体检索五个方面。

简介

哈工大信息检索研究中心 以认知心理学和机器学习为理论,以语言分析为基础研究,以信息抽取、文本检索、跨语言/媒体检索为应用研究,以精准搜索与挖掘系统为应用系统平台。研究中心已完成和现承担的国家自然科学基金、国家863、国际合作、企业合作等课题40余项。在这些项目的支持下打造出“语言技术平台LTP”,并免费共享给300多家研究机构。

研究中心坚持理论研究与技术开发互动同步发展的原则,一方面在向技术极限挑战的过程中撰写高质量的论文,一方面将陆续完成的阶段性成果适时地转化为实用技术。研究中心近年来发表论文100余篇,包括连续在自然语言处理顶级会议ACL上发表多篇论文,积极参加国内外技术评测,并取得优异成绩,包括CoNLL'2009七国语言的句法语义分析评测的第一名。中心主要通过与企业合作,采取将技术嵌入企业的产品中的方式,实现研究的价值,回报社会。双语例句检索、汉语分词等一批技术已经陆续转化到金山词霸和金山WPS软件中。

研究中心努力营造浓厚的学术氛围,悉心培养优秀学子。目前研究中心有15名博士生,17名硕士生,学生中3人获微软学者奖学金,1人被评为微软“十大”优秀实习生,多人次获得美国数学建模竞赛奖、IBM奖学金、计算机世界奖学金、罗克维尔奖学金等。

研究中心与国内外10余家相关的研究机构和企业保持着密切而友好的合作关系。哈工大信息检索研究中心是一个充满活力的团队,她渴望向国内和国际的同行们学习,也愿意尽自己的努力为中文信息处理领域的发展做出贡献。

成员介

李生

教授/博士生导师

信息检索研究中心主任

刘挺

教授/博士生导师

兼职教授/博士生导师:王海峰博士

教师: 秦兵(TM)(教授/博士生导师)、张宇(TR)(副教授/博士)、车万翔(LA)(讲师/博士)、陈毅恒(TM)(讲师/博士)

博士后:赵世奇(CL)(与百度公司联合培养)

博士生

2007级博士生:赵妍妍(TM)、伍大勇(TR)

2008级博士生:和为(CL)、李正华(LA)、郭宇航(LA)、宋巍(TR)、戈马(埃塞俄比亚)(TR)

2009级博士生:薛涵、付博、付瑞吉(LA)

2010级博士生:张梅山(LA)、孟雷(TM)、张伟男(TR)

硕士生

2009级硕士生:丁效(TM)、张文斌(TR)、王莉峰(TM)、陈鑫(LA)、赵静(LA)、张牧宇(TM)、占飞(CL)、韩中华(LA)、康维鹏(TR)

2010级硕士生:胡 燊(TM)、郭 江(LA)、唐国华(LA)、谢毓彬(TR)、唐都钰(TM)、高汉东(TR)、张一博(TM)、罗磊(TR)、陈炜鹏(TM)、王彪(TM)

2011级硕士生:宋原(TM)、张健(TR)、刘安安(TM)、赵江江(TM)、邓知龙(LA)、陆子龙(LA)、焦扬、王沛(TM)、慕福楠(TR)、刘飞

软件学院

本科生

2007级本科生:李豪、张杰、张伟

2008级本科生:陈敏、刘一佳

研究组

文本挖掘(TM组)

组长:秦兵

主要研究方向信息抽取、意见挖掘、自动文摘以及文本分类聚类技术。研究重点包括指代消解、实体关系抽取、事件抽取、意见挖掘等。文本挖掘组在2003年国家863组织的技术评测中获得“自动文摘”第一名。在2008年的TAC评测中的子任务之一Update Summary评测中名列前茅。在第一届中文倾向性分析评测“中文文本倾向性相关要素抽取”的Lenient和Strict评价体系下分别取得了第1名和第2名。已经完成高校合作项目“多文档自动文摘”,企业合作项目“文本分类和聚类”等。目前正在承担国家863项目“基于实体关系的文本内容挖掘及集成平台”,微软基金项目以及企业合作项目等。

文本检索组(TR组)

组长:张宇

重点研究问答系统(涉及本体知识的自动构建),以及话题检测与跟踪(涉及个性化检索),已完成多项国家项目,包括国家自然科学基金项目“开发域问答式信息检索技术研究”,863项目“中文信息模糊匹配技术”,以及多项国家信息内容安全项目,开发了人物搜索演示系统。

语言分析(LA组)

组长:车万翔

语言分析是以句子为单位将输入文本转换为内部表达的分析过程,包括分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等。在词义消歧方面提出基于等价伪词的词义消歧方法,依存分析和语义角标注色获得2008年CoNLL评测第2名,已授权金山公司使用汉语分词等七项技术。目前承担国家863课题“语言技术平台”,国家自然科学基金“汉语依存分析”,“汉语语义角色标注”,“汉语词义消歧”等。

跨语言组(CL组)

组长:刘挺(兼)

副组长:和为

跨语言(Cross Language: CL)组主要研究为信息检索服务的机器翻译和复述技术。CL组在复述领域已做了一些尝试并取得了初步的成果,2007年发表2篇IJCAI论文,2008年发表2篇ACL论文。

科研项目列表

基于实例动态泛化的共指消解,60975055,国家自然科学基金面上项目,2010-2012

汉语依存句法分析若干关键技术研究,60803093,国家自然科学青年基金,2009—2011

基于实体关系的文本内容挖掘与集成技术平台,2008AA01Z144,863计划探索类专题项目,2008-2010

基于XML的分层交互式中文处理开放平台,2006AA01Z145,863计划探索类专题项目,2007-2008

汉语语义角色标注方法研究,60675034, 国家自然科学基金面上项目,2007-2009

中文文本分类、聚类、文摘系统, 深圳腾讯公司,2006

网页地理与新闻信息抽取, NEC中国研究院,2006

中文词义消歧技术研究, 东芝中国研发中心,2005-2006

基于等价伪词的汉语全文无指导词义消歧技术研究,60575042, 国家自然科学基金面上项目,2006-2008

中文短语及简单句的复述技术研究, 60503072, 国家自然科学基金面上项目,2006-2008

英文复述技术研究, 微软亚洲研究院,2005-2006

语料库授权, 东芝中国研发中心,2005

简繁转换等七项技术授权金山WPS专业版使用,珠海金山软件公司,2005

多文档自动文摘, IBM中国,2005

问答式信息检索技术理论与方法, 60435020, 国家自然科学基金重点项目“问题理解与答案抽取”子课题,2005-2008

金山在线客服系统, 北京金山软件公司,2004-2006

开放域问答式信息检索技术研究, 国家自然科学基金,2003-2004

中文信息模糊匹配技术, 863项目,2003

语料库加工, 东芝中国研发中心,2003

基于依存分析的中文自动校对系统, 863子项目, 2003

开放域问答式信息检索技术研究, 校基金,2002

信息产业部项目若干,2001-2006

发表论文

2008年发表论文22篇

2007年发表论文19篇

2006年发表论文13篇

2005年发表论文25篇

2004年发表论文20篇

2001年-2003年发表论文18篇

2000年及以前发表论文10篇

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/25 2:38:01