词条 | 哈尔滨工业大学信息检索研究中心 |
释义 | 哈尔滨工业大学信息检索研究中心(HIT-CIR) 成立于2000 年9月1日,隶属于计算机科学与技术学院。信息检索研究中心主任为刘挺教授,研究人员包括秦兵教授、张宇副教授、车万翔讲师/博士,信息检索研究中心的研究方向包括文本检索、文本挖掘、语言分析、跨语言检索和跨媒体检索五个方面。 简介哈工大信息检索研究中心 以认知心理学和机器学习为理论,以语言分析为基础研究,以信息抽取、文本检索、跨语言/媒体检索为应用研究,以精准搜索与挖掘系统为应用系统平台。研究中心已完成和现承担的国家自然科学基金、国家863、国际合作、企业合作等课题40余项。在这些项目的支持下打造出“语言技术平台LTP”,并免费共享给300多家研究机构。 研究中心坚持理论研究与技术开发互动同步发展的原则,一方面在向技术极限挑战的过程中撰写高质量的论文,一方面将陆续完成的阶段性成果适时地转化为实用技术。研究中心近年来发表论文100余篇,包括连续在自然语言处理顶级会议ACL上发表多篇论文,积极参加国内外技术评测,并取得优异成绩,包括CoNLL'2009七国语言的句法语义分析评测的第一名。中心主要通过与企业合作,采取将技术嵌入企业的产品中的方式,实现研究的价值,回报社会。双语例句检索、汉语分词等一批技术已经陆续转化到金山词霸和金山WPS软件中。 研究中心努力营造浓厚的学术氛围,悉心培养优秀学子。目前研究中心有15名博士生,17名硕士生,学生中3人获微软学者奖学金,1人被评为微软“十大”优秀实习生,多人次获得美国数学建模竞赛奖、IBM奖学金、计算机世界奖学金、罗克维尔奖学金等。 研究中心与国内外10余家相关的研究机构和企业保持着密切而友好的合作关系。哈工大信息检索研究中心是一个充满活力的团队,她渴望向国内和国际的同行们学习,也愿意尽自己的努力为中文信息处理领域的发展做出贡献。 成员介李生 教授/博士生导师 信息检索研究中心主任 刘挺 教授/博士生导师 兼职教授/博士生导师:王海峰博士 教师: 秦兵(TM)(教授/博士生导师)、张宇(TR)(副教授/博士)、车万翔(LA)(讲师/博士)、陈毅恒(TM)(讲师/博士) 博士后:赵世奇(CL)(与百度公司联合培养) 博士生 2007级博士生:赵妍妍(TM)、伍大勇(TR) 2008级博士生:和为(CL)、李正华(LA)、郭宇航(LA)、宋巍(TR)、戈马(埃塞俄比亚)(TR) 2009级博士生:薛涵、付博、付瑞吉(LA) 2010级博士生:张梅山(LA)、孟雷(TM)、张伟男(TR) 硕士生 2009级硕士生:丁效(TM)、张文斌(TR)、王莉峰(TM)、陈鑫(LA)、赵静(LA)、张牧宇(TM)、占飞(CL)、韩中华(LA)、康维鹏(TR) 2010级硕士生:胡 燊(TM)、郭 江(LA)、唐国华(LA)、谢毓彬(TR)、唐都钰(TM)、高汉东(TR)、张一博(TM)、罗磊(TR)、陈炜鹏(TM)、王彪(TM) 2011级硕士生:宋原(TM)、张健(TR)、刘安安(TM)、赵江江(TM)、邓知龙(LA)、陆子龙(LA)、焦扬、王沛(TM)、慕福楠(TR)、刘飞 软件学院 本科生 2007级本科生:李豪、张杰、张伟 2008级本科生:陈敏、刘一佳 研究组文本挖掘(TM组)组长:秦兵 主要研究方向信息抽取、意见挖掘、自动文摘以及文本分类聚类技术。研究重点包括指代消解、实体关系抽取、事件抽取、意见挖掘等。文本挖掘组在2003年国家863组织的技术评测中获得“自动文摘”第一名。在2008年的TAC评测中的子任务之一Update Summary评测中名列前茅。在第一届中文倾向性分析评测“中文文本倾向性相关要素抽取”的Lenient和Strict评价体系下分别取得了第1名和第2名。已经完成高校合作项目“多文档自动文摘”,企业合作项目“文本分类和聚类”等。目前正在承担国家863项目“基于实体关系的文本内容挖掘及集成平台”,微软基金项目以及企业合作项目等。 文本检索组(TR组)组长:张宇 重点研究问答系统(涉及本体知识的自动构建),以及话题检测与跟踪(涉及个性化检索),已完成多项国家项目,包括国家自然科学基金项目“开发域问答式信息检索技术研究”,863项目“中文信息模糊匹配技术”,以及多项国家信息内容安全项目,开发了人物搜索演示系统。 语言分析(LA组)组长:车万翔 语言分析是以句子为单位将输入文本转换为内部表达的分析过程,包括分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等。在词义消歧方面提出基于等价伪词的词义消歧方法,依存分析和语义角标注色获得2008年CoNLL评测第2名,已授权金山公司使用汉语分词等七项技术。目前承担国家863课题“语言技术平台”,国家自然科学基金“汉语依存分析”,“汉语语义角色标注”,“汉语词义消歧”等。 跨语言组(CL组)组长:刘挺(兼) 副组长:和为 跨语言(Cross Language: CL)组主要研究为信息检索服务的机器翻译和复述技术。CL组在复述领域已做了一些尝试并取得了初步的成果,2007年发表2篇IJCAI论文,2008年发表2篇ACL论文。 科研项目列表基于实例动态泛化的共指消解,60975055,国家自然科学基金面上项目,2010-2012 汉语依存句法分析若干关键技术研究,60803093,国家自然科学青年基金,2009—2011 基于实体关系的文本内容挖掘与集成技术平台,2008AA01Z144,863计划探索类专题项目,2008-2010 基于XML的分层交互式中文处理开放平台,2006AA01Z145,863计划探索类专题项目,2007-2008 汉语语义角色标注方法研究,60675034, 国家自然科学基金面上项目,2007-2009 中文文本分类、聚类、文摘系统, 深圳腾讯公司,2006 网页地理与新闻信息抽取, NEC中国研究院,2006 中文词义消歧技术研究, 东芝中国研发中心,2005-2006 基于等价伪词的汉语全文无指导词义消歧技术研究,60575042, 国家自然科学基金面上项目,2006-2008 中文短语及简单句的复述技术研究, 60503072, 国家自然科学基金面上项目,2006-2008 英文复述技术研究, 微软亚洲研究院,2005-2006 语料库授权, 东芝中国研发中心,2005 简繁转换等七项技术授权金山WPS专业版使用,珠海金山软件公司,2005 多文档自动文摘, IBM中国,2005 问答式信息检索技术理论与方法, 60435020, 国家自然科学基金重点项目“问题理解与答案抽取”子课题,2005-2008 金山在线客服系统, 北京金山软件公司,2004-2006 开放域问答式信息检索技术研究, 国家自然科学基金,2003-2004 中文信息模糊匹配技术, 863项目,2003 语料库加工, 东芝中国研发中心,2003 基于依存分析的中文自动校对系统, 863子项目, 2003 开放域问答式信息检索技术研究, 校基金,2002 信息产业部项目若干,2001-2006 发表论文2008年发表论文22篇 2007年发表论文19篇 2006年发表论文13篇 2005年发表论文25篇 2004年发表论文20篇 2001年-2003年发表论文18篇 2000年及以前发表论文10篇 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。