老头,辜老也在其中:“肘子,给大家介绍一下数字图书馆和引擎的进展吧。”
“啊?哦。”这是纯纯的突然袭击,好在周至对数字图书馆的工作进展非常关心,于是快速在脑子里组织了语言:“这里有投影,那我连上笔记本给大家一边演示一边讲吧。”
数字图书馆是一个庞大的系统,而且是图数据库,相对于普通人更习惯接受的关系型数据库,图数据库理解起来相对要困难一些。
周至在PPT上的画图看上去倒是容易理解,但是深入到远程登录页面,展示图数据库关系结构的时候,辜老直接举手打断:“都是干文史的老骨头了,肘子在技术上不用讲得太深,给我们举几个在文科方面的应用就行。”
“哦,正好我们现在在搞一个展示项目,我就通过这个项目给大家演示一下吧。”周至说道:“笔记类的历史典籍,最丰富的是宋朝,后人评论《宋史》,往往评论其失之琐细,然而对于我们干数字图书馆和引擎的来说,宋代留下的浩繁的文字资料,为我们进行研究提供了最好的素材库。”
“我们的这个项目是将宋代的资料倒入库中,除了主干的历史资料《宋史》,《资治通鉴长篇》等书籍以外,还从《四库提要》,《四库全书》,《古今图书集成》当中,将宋代部分的文、集、章、奏、墓志、笔记等,都纳入其中,仅《四库全书》的‘别集类’著录就有三百八十八部,五千多万字,例如徐铉的《骑省集》三十卷,田锡的《咸平集》三十卷,《欧阳文忠公集》的一百五十三卷正文和两卷附录等等,都在其中。”
“资料齐备以后,我们便可以开始构建应用,技术工具的实现非常复杂,这里我就不讲了,现在我通过应用来给大家演示一下吧。”
“比如我们想要建立一个苏轼的检索目录,我可以在引擎工具里输入‘苏轼’二字,”周至在主索引的栏位开始录入两个字并且回车,很快,在电脑屏幕的下方出现了一大堆的文字介绍。
“在古人的文献典籍当中,苏轼二字其实主要存在于奏章、传记名称、词作者等地方,在更多的文献当中,多用‘轼’,‘子瞻’,‘东坡’等称谓。”
“除此以外,在他人的章奏笔记里,他还往往以‘三苏’,‘轼辙’等并称。”
“另外,史籍中的‘元祐党’,‘蜀党’等,可以是他的标签。”
“如何根据‘苏轼’这个主标签找寻出刚刚我说的二类标签,我们研发出了一些算法,这里边会涉及到许多的问题。”(本章完)