以中文信息处理为核心的基础资源库内容简介
发布网友
发布时间:2024-10-04 02:42
我来回答
共1个回答
热心网友
时间:2024-10-23 10:08
中文信息处理基础资源库,作为全球最大的中文信息处理技术研发支持平台,由中国科学院计算技术研究所和自动化所共同管理。经过十多年的精心建设和积累,该库已在全球范围内搜集并开发了丰富的语料资源,总量接近500GB,涵盖了汉字处理、语音识别与合成、机器翻译、智能信息检索等多个核心领域。其中,不仅包含了词典和实用工具软件,还有专门的评测语料、翻译语料等,种类繁多,满足了不同研究领域的需要。
截止到2009年12月,资源库已拥有85套多样化的数据,具体分布如下:评测语料19套,为技术评估提供了有力支持;翻译语料13套,助力跨语言交流研究;词典、人名、地名等工具7套,方便查找和理解;分词和句法标注语料2套,是语言结构分析的关键;语音识别和合成各2套,推动了语音技术的发展;自然口语和双语语料库分别有12套和5套,促进了多语种研究;最后,还有其他类型资源4套,为特殊需求提供支持。
据统计,截至同一年,中文信息处理基础资源库的用户已达90余家,其中包括41家国内大学、27家研究机构以及11家企业。国外则有4家大学、8家研究机构和9家企业加入,显示出其广泛的国际影响力。
在资源提供者方面,截至2009年底,共有22家机构贡献力量,具体划分如下:国内5家大学、10家科研机构和6家企业提供了语料库资源,显示出学术界和业界的积极参与。
扩展资料[1]
以中文信息处理为核心的基础资源库内容简介
中文信息处理基础资源库,作为全球最大的中文信息处理技术研发支持平台,由中国科学院计算技术研究所和自动化所共同管理。经过十多年的精心建设和积累,该库已在全球范围内搜集并开发了丰富的语料资源,总量接近500GB,涵盖了汉字处理、语音识别与合成、机器翻译、智能信息检索等多个核心领域。其中,不仅包含...
以中文信息处理为核心的基础资源库只用方法
1. 资源介绍:这部分列出了资源的名称,简述了资源来源,指出单位名称,以及其开发的起始时间和规模。2. 标注规范:详细说明了资源的标注规则,包括数据校验标准、使用的标注工具、标注信息的详细内容以及用户在标注过程中需要注意的事项。3. 技术文档:涵盖了资源名称、资源所有者、创建时间、建立目的等信息...
以中文信息处理为核心的基础资源库持续发展
中文信息处理的基础资源库致力于开放与共享,积极接纳全球范围内与该技术发展相关的数据资源和语料库。我们遵循开放的原则,不仅欢迎外部的贡献,还根据用户需求自主研发新的语料库,以满足多样化的研究需求。为了推广中文信息处理技术的研究成果,我们鼓励青年学者和热爱技术的人士创新设计算法和模型。为此,我们...
以中文信息处理为核心的基础资源库应用案例
中国科学院自动化所的嵌入式语音合成系统也充分利用了其资源,包括CASIA汉语疑问句语料库、情感语料库、语音合成语料库等,以及ASCCD汉语普通话朗读和CADCC汉语普通话口语对话语料,这些中文信息资源对系统的训练起到了决定性的作用。汉王科技公司和安徽科大讯飞公司作为长期的用户,他们的产品开发过程中频繁运用...
中文期刊数据库有哪些?
2. 万方数据库:万方数据公司开发的万方数据库是一个集期刊、会议纪要、论文、学术成果及学术会议论文于一体的综合性网络数据库。它与中国知网并称为中国两大专业学术数据库。万方数据股份有限公司作为国内首家以信息服务为核心的高新技术企业,在互联网领域提供信息资源产品、增值服务及信息处理方案。3. 中国年鉴网络出版...
常用的中文文献检索数据库有哪些
1. 中国知网(CNKI):作为国家知识基础设施的重要组成部分,中国知网是由清华大学和清华同方发起,始建于1999年6月的信息化建设项目。它以实现全社会知识资源的传播共享与增值利用为目标,凭借优质的内容资源、领先的技术和专业的服务,在学术界享有极高的声誉。2007年,其旗下的《中国学术期刊网络出版总...
知网的主要内容是什么?
1999年3月,以全面打通知识生产、传播、扩散与利用各环节信息通道,打造支持全国各行业知识创新、学习和应用的交流合作平台为总目标,王明亮提出建设中国知识基础设施工程(China National Knowledge Infrastructure,CNKI),并被列为清华大学重点项目。CNKI 1.0。CNKI 1.0是在建成《中国知识资源总库》基础...
常用的中文文献检索数据库有哪些
1、中国知网:知网,是国家知识基础设施的概念,由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。由清华大学、清华同方发起,始建于1999年6月。凭借优质的内容资源、领先的技术和专业的服务,中国知网在业界享有极高的声誉,在2007年,中国知网旗下的《...
苏州大学计算机科学与技术学院教学资源
计算机专业教学实验室是学院各专业教学与科研服务的核心,涵盖了计算机硬件基础、软件基础、操作系统分析、嵌入式系统、多媒体基础、软件工程、软件测试、中文信息处理、计算机组网、TCP/IP协议分析、信息安全、数据库、嵌入式系统应用和信息管理等多个领域,为学生提供了系统而全面的专业知识训练。计算机公共基础...
360doc个人图书馆网站简介
360doc是一个由北京六智信息技术有限公司运营的免费在线资源库,专为用户提供文章收藏和分享的平台。用户只需简单注册,就能拥有个人专属的虚拟图书馆,进行网页内容的收藏、管理和分享等操作。作为一家专注于中英文智能文本处理技术(NLP)的高新技术企业,360doc的核心团队由一群具有丰富研究和实践经验的博士...