“瀚堂典藏数据库”,采用基于七万汉字 Unicode 四字节编码和自然语言全文检索的通用浏览器模式的典籍数据库。《瀚堂典藏》古籍数据库以精准校对的小学工具(文字、音韵、训诂)、古代类书、出土文献类数据为基础,大量纳入包括经史子集,以及中医药典籍、古典戏曲、敦煌文献、儒、释、道等历代传世文献,以及大型丛书、史书、方志、民国报刊等,涵盖文史哲等专业的教学和研究工作中所应用到的专业古籍文献数据。至 2010 年,《瀚堂典藏》精细加工入库的图书种类已达万余种,图片数量 1200 多万张,文字总量超过 17 亿字,可在通用浏览器条件下,利用专利认证的超高速检索引擎全文跨库检索和连续图文对照阅读的记录条目数 1500 万条以上,总量并持续定期增加中。
背景
传统的计算机二字节编码技术只能处理2万多个汉字,对大量的生僻字、俗体字、异体字、通假字、避讳字和多语种文字无能为力,并没有从根本上解决汉字数字化、网络化的问题。采用Unicode四字节编码技术的“瀚堂典籍数据库”,从根本上彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,完善了汉字信息网络化的平台,开创性地实现了所有汉字及多语种文献的数字化,从而结束了历史文献和出土文献研究手工抄写、图片替代、生硬造字的历史,也标志着计算机汉字处理开始进入到了四字节字符的领域。
瀚堂典藏数据库以精准校对的小学工具类数据、出土文献类数据为基础,陆续纳入包括儒、释、道的各类传世文献,未来将在庞大的数据支持下,根据不同专业领域对特定数据的学术需求,从而提供更具针对性的专题文献类数据。同时在此基础上,尝试蒙、藏等少数民族及基于UNICODE多语种文献的信息处理和检索技术,从而纳入更广泛资源。
瀚堂典籍数据库所搭建的国学研究数字化平台,所有生僻汉字可在微软平台上自由编辑,不但彻底的解决了造字的繁琐,极大提高工作效率,更便于学术成果在全球范围内的广泛传播。数据库所独有的“知识链”特点使未来研究会延伸出更加独特的角度和发掘出更多的研究领域。
特点
1:独特的内容规划
瀚堂典藏数据库采用四字节编码技术,以小学工具类数据和出土文献类数据为核心,逐步纳入大量传世文献,并以此为基础,建设各种专题文献。
小学工具类数据由于高达5%的生僻字频率,历来是各种古籍数字化工作不得不有意绕开的“雷区”。瀚堂典藏数据库的小学工具类数据涵盖大部分重要小学类典籍和类书类书籍,并以囊括所有小学书籍和大型类书为己任。该部分数据是国学研究的基础性工具数据。
出土文献类数据涵盖大量甲骨文、金文、简帛文、印章、石刻等出土文献资料。提供器物照片、线图、拓片、释文等内容。该部分数据将是史学各领域研究的基础性数据。
逐步纳入的传世文献包括儒、释、道的典籍文献,力图呈现中国文化的轮廓性数据。
2:具有在通用浏览器上自由编辑和浏览的功能
采用B/S模式的“瀚堂典籍数据库”,无需下载任何客户端,即可在通用浏览器上
进行阅读和编辑。由于该数据库采用四字节编码技术,彻底解决这些四字节汉字在计算机平台上的录入、显示、编辑、检索、查询和管理。全库无造字,所有文字可以自如的在MS-office上进行复制、粘贴和通过互联网进行广泛发布。
3:独有的四字节自然语言全文检索技术
相对于基于二字节字符系统的(即UCS-2)的互联网全文检索,“瀚堂典籍数据库”支持四字节字符(即UCS-4)、基于互联网的自然语言海量文本全文超高速检索系统。该引擎可以从海量的含有UCS-4字符的文本中在毫秒量级内进行信息抽取。
4:众多专利技术形成对核心技术的专利保护
由于在四个字节字符方面拥有的核心技术和专利,和对含有四字节汉字内容的版权群,形成了对以UCS-2为技术核心的古籍数据库及其它检索网站的战略优势,为其主导甚至全球范围的网络检索领域的发展、建构领先的超级知识库提供坚实的技术保证。
集成
经、史、子、集各部集成
数据库按照传统分类的“经部”、“史部”、“子部”、“集部”,分别设有经部文献集成、史部文献集成、子部文献集成、集部文献集成,收录并呈现中国历代传世文献的轮廓化数字化资源。
经部集成,下收小学类、四部丛刊经部、四库全书经部、皇清经解、十三经等相关子目。其中小学工具类数据还分为文字、音韵、训诂、异体字字典、UNICODE字典、中国文字等。
史部集成下有二十四史和清史稿、纪事本末、史料笔记等子目。
子部集成下除四部丛刊子部、四库全书子部外,还设有类书、中医药文献、佛教典籍、道教典籍等专题子目。
集部集成下,设诗文总集、诗文别集、文学评论、古典小说、古典戏曲等专题子目。
专题文献类数据
专题文献类数据以提供更具学科针对性的研究性数据为特点。截至2014年,下设“书目”、“大家书房”、“台湾文献”、“汉译世界名著”、“出土文献”、“敦煌文献”几个子目。
出土文献类数据分为甲骨文、金文·青铜器、简帛、印章、钱币、石刻等六大部分。该部分数据涵盖甲骨文、金文、简帛文、印章、石刻等文献资料。未来陆续供器物的照片、线图、物理数据、拓片、释文等内容。为文史领域研究人员提供尽可能全的考古文献资料。