藏龙网会员服务
  • 藏品
  • 店铺
  • 拍卖
  • 图库
  • 资料
  • 证书
  • 信用
藏龙免费开店
当前位置:藏龙古玩艺术品收藏交易网 >首页 -> 藏龙学院 -> 拓展学习 -> 书报文摘

TOP

一页古籍数字化人工6块多
2012-05-11 11:34:15 来源: 作者: 【 】 浏览:4501次 评论:0

软件没法用,文字只能人工输

  古籍的数字化,离不开相关的软件系统。为此,苏州图书馆联合苏州嘉图信息技术有限公司,自主开发了古籍数字化软件系统。

  不过,该软件系统是将数字素材加工成数据库的操作平台,古籍的页面原貌图片和文字,还需要一一扫描和输入。

  为了保护古籍,书页图片需要用冷光源无边扫描仪,扫描速度很慢,扫描完了还要用软件加工修正,一天只能完成200多页,而现代文献一天可以扫描几千页。

  文字的录入更难。古籍上的文字,往往因不按标准写法刻制而很难辨认,像己、已、巳,曰、日,人、入、八……一旦刻得不够规矩,OCR文字识别软件就会判断错误,导致输入电脑的字出错。而古籍中这样的字很多,此外还有大量异体字,所以即使是比较好的本子,录入文字的准确率也不过93%,一般只有70%左右,手抄本就更没法说了。而一旦准确率低于97%,使用这种录入法的意义就不大了。汪建满解释,这是因为校对会特别烦,还不如手工录入。

  正因为这样,所以苏州图书馆在对古籍进行数字化的时候,是用两名输入员进行录入的,然后再用电脑软件进行自动比对,一旦出现不同,软件系统就会把不同的字自动翻红,这样就容易发现问题、及时更正了。

  遭遇冷僻字,求助超大字符集

  如果说,上面提到的做法只是烦一点的话,那么,碰到冷僻字就不只是烦的问题了,而是简直让人无从下手。

  汪建满举了这样一个例子:葑门的葑又叫“鱄门”、“鱼孚门”,是因为“鱄(鱼孚)”跟随波涛进入而得名的,可在普通字库里,“鱼孚”字根本打不出来。

  更难办的是,古籍上有些冷僻字甚至连收字4.8万多的《中华大字典》也查不到。

  汪建满说,一开始他们碰到这种情况,就只好用带造字工具的windows软件自己造字,很麻烦。后来他们购买了方正超大字符集和台湾的细明体超大字符集软件,这两大系统收录的汉字多达7万多,这样以后碰到冷僻字就有办法了,“多亏这些超大字符集啊!”

  三名熟练工忙一天,只能录入1万字

  古籍文字进行人工录入后,还要进行一校和二校,“我们的目的只有一个,就是尽可能少出差错!”汪建满说,这是对读者负责,也是对古籍负责。

  徐伟国说,从页面扫描、文字录入到校对、生成数据库等,花费工夫非常大。他们曾测算过,三名熟练工作人员忙一整天,也只能录入1万字。平均下来,一页古籍人工成本要6元多。如果算上房租费用、水电费和软件开发费用,那成本就更大了。徐伟国说,当年光是古籍数字化软件开发,就花了30多万元。

  就因为特别费人工,所以苏州图书馆方面定的目标任务是每年完成5万页、约1千万字的古籍数字化。“实践下来,每年都会超额完成任务”,汪建满相信,随着时间的推移,一定会有更多的古籍让大家轻松查阅!




Tags: 责任编辑:celery
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇根雕收藏艺术价值在于天成 下一篇新疆将完成少数民族古籍的抢救搜..

评论

帐  号: 密码: (新用户注册)
表  情:
内  容:

相关栏目

最新文章

图片主题

热门文章

推荐文章

相关文章

广告位

  • 藏龙微信
    关注藏龙微信
关于藏龙古玩网  藏龙古玩网招聘   藏龙网账户    广告合作  联系藏龙古玩网
版权所有@2011 藏龙古玩艺术品收藏交易网(www.a9188.com)
Copyright @ All Rights Reserved 藏龙古玩收藏网 豫ICP备14021024号-1
在线客服系统