实验室首页 | 数据中心首页                中文 | English

 

SCUT-COUCH2009数据库简介

  SCUT-COUCH2009是一款包括12个子集的完整数据,它们分别是:中文词组、国标一级汉字、国标二级汉字、国标一级汉字对应的繁体字、汉语拼音、英文字母、阿拉伯数字、常用符号、Word8888、Word17366、Word44208和联机文本行数据。每套完整的SCUT-COUCH2009包括6,763个GB2312-80单汉字,5401个Big5繁体字,1384个和GB2312-80一级字库相对应的繁体字,8,888个常用的中文词组,17,366个常用中文词组,摘自《现代汉语大辞典》(第四版)的44,208个词组,2,010个汉语拼音,184个其他符号(包括字母、数字和常用符号)和8,809行联机文本行;现在版本的SCUT-COUCH2009使用PDA或手写屏进行采集,已完成了由190多人书写的完整的数据,字符总数超过3.6百万个。

  SCUT-COUCH2009数据库是第一款公开的拥有大词汇量的联机中文手写体数据库,是第一款公开的包括高频中文词组联机手写数据的数据库,也是第一款公开的包括多种风格和资料来源的包括多种多样汉语拼音、词组和符号的数据库。它为联机手写中文词组识别和手写拼音识别等研究领域提供了基础的数据。

  想了解更多信息,请参考文章 Lianwen Jin, Yan Gao, Gang Liu, Yunyang Li, Kai Ding. SCUT-COUCH2009----A Comprehensive Online Unconstrained Chinese Handwriting Database and Benchmark Evaluation, International Journal on Document Analysis and Recognition (IJDAR), vol.14, no.1, pp53-56, 2011.