当前位置: 金沙澳门手机版网址 > 科技技术 > 正文

金沙澳门手机版网址:音信技能与中华价值观学

时间:2019-09-22 03:46来源:科技技术
借助大数据提供的便利,考据学出现了“后发先至”的现象。前辈学者经年研究的难题,很可能被新一代学人在短时间内解决。至少在这类问题上,信息素养的意义很可能要高于传统知

借助大数据提供的便利,考据学出现了“后发先至”的现象。前辈学者经年研究的难题,很可能被新一代学人在短时间内解决。至少在这类问题上,信息素养的意义很可能要高于传统知识体系,掌握查找知识的能力很可能也比掌握知识更为高效且重要。这里并非是说新时代的学者可以不掌握知识而解决问题,而是说,信息素养可以出于研究的需要,迅速进入新的领域并建构具有针对性的知识体系,这种大幅度的跨界是传统学者较难做到的。当然,就目前的研究状况来看,大数据时代“数字人文”研究还没有作出第一流的成果,多数成果仍然是在研究具体问题,而尚未建立新的范式。但近十余年来这一领域的学术积累正以指数级速度增长,足以令人期待由“量变”产生“质变”。或许,未来传统学者也应该未雨绸缪,需要考虑能否做出不被数据库遮蔽、凸显研究者个性的学问。

  之所以这样说,是因为看似与古典文学研究这样的传统人文学科毫无关系的IT技术,对古典文学研究的影响已经渗透进这一学科的方方面面,这种影响不仅表现在文献的检索和资料的整理有了远超以往任何历史时期的便捷和准确,而且随着技术的不断发展,计算机所承担的工作将会逐步代替人所从事的部分工作,技术与心智的分野在部分领域将不再那样截然分明。

通过数据库重新打捞那些以往不被关注的文献,这实际上仍是发现新材料,其性质与考古相似,亦可称之为当下的“预流之学”(陈寅恪:《敦煌劫余录序》)。与此相关的一个问题是,在超过120亿字的可检索的古典文本,以及各种不同类型的数据库中,还蕴藏无限问题可供发掘。而这些数据资源能否被学者使用,很大程度上取决于其所在单位购买的数据库数量。在高校间已有明显“数位落差”的现实条件下,学者个人的学术水准有可能受到所处文献环境的制约,而不同文献环境导致的信息素养的差异可能会进一步拉大这一差距。

技术与心智的互补建立在计算机检索基础之上的古典文学研究

数据库大量涌现,学术评判标准也会发生变化。出于“功利”眼光计算,当代学者费尽周折的考据工作,很可能被下一代学者轻易解决。其原因并非人的智力、才能有别,而是文献环境不断变化提供的巨大方便使然。一代有一代之学术,面对不同的环境,学术范式也应随之转移。所以,当下正是海量文献可供使用、可以大有作为的时代,也是考据研究缺乏亮点而趋于同质化的时代。换言之,即使是在数据仍未被充分电子化的当下,考据研究的合法性也正在受到冲击。一般性的文献挖掘仍然重要,但能够解决核心学术问题的研究更为重要。

  利用计算机从事古籍整理和文学史研究的辅助性工作,需要确保两个前提:第一,数字化的古籍文本必须是以精良善本为底本、经过机器和专家认真校勘的电子文本,也就是电子文本本身必须具备相当程度的可信度。这一点,由于目前古籍类数据库的开发主体不同,所采用的策略不同,部分数据库开发者或因为认识的误区,或由于版权方面的原因,在古籍数字化的版本处理方面尚不能尽如人意。不难想象,如果不能很好地处理版本问题,再大的数据库也只能仅仅充当一个检索字词出处的工具,而检索出的结果还需要学者与纸质书籍进行核对,很难以此为依据进行更为深入的工作。在这方面,高校古籍整理委员会项目中国基本古籍库处理得比较好,所收数字化文献均以精良善本为据。美中不足的是该数据库舍弃了各类古籍的序跋,令人无从了解这些版本的详细信息。第二,数字化的古籍文本必须已经达到相当规模。这一点,随着时间的推移和各科研教育机构对数据库重要性认识的提高,应该不难达到。目前,唐以前的文献基本上都有数字化版本。宋元两代的文献及明清二代的小说戏曲等多数已有数字化版本或正在被数字化。《永乐大典》、《古今图书集成》等大型类书和部分石刻、碑帖资料都已有可全文检索版本。明清两代的诗文文献和方志,由于数量浩繁,未见有大型高质量的数据库问世,距离有成效的实际应用,恐尚有相当的距离。但是,即使古籍浩如烟海,在日新月异的计算机扫描和OCR(Optical Character Recognition,光学字符识别)技术面前,终有被穷尽之日。问题在于出于经济利益的考虑,各数据开发机构都对所处理的文献进行了某种程度的加密或数据格式的限定,没有统一的元数据(Metadata,关于数据的数据,用以描述数据库结构等)标准,为各数据库间的整合利用带来了困难。而古籍数字化的程度和数据库被整合的程度越高,则前述运用计算机从事古籍整理和学术研究的成效才更大。

“大数据”如今已渗透到人类生活的方方面面。随着各种数据库的大量出现,传统文史研究也发生了变化。近年来,与“e考据”和“数字人文”相关的研究日趋增多,因此,进一步探索如何更切实地将理论、方法与研究实践有机结合,就变得十分重要。

  陈寅恪先生在《王静安先生遗书序》中,归纳王国维的治学方法有三:一曰取地下之实物与纸上之遗文互相释证;二曰取异族之故书与吾国之旧籍互相补证;三曰取外来之观念与固有之材料互相参证。(《金明馆丛稿二编》第247页。三联书店2001年出版)这些方法代表了上个世纪之初最先进的治学理念,即使放在今天来看也仍然具有不可忽视的意义。然而,时代在发展,在改革开发三十年,二十一世纪的第一个十年所剩时日也已不多的今天,我们反思并总结当代学界在古典文学研究方面的成就和缺憾,就会发现,自上个世纪八十年代以来尽管我们不停地尝试运用各种方法,但对当代古典文学研究影响最大的则是以计算机和网络为核心的IT(Information Technology,即信息技术)技术。

大数据时代对传统文史研究产生的影响,首先表现在资料上。近些年新推出的电子资源在内容上甚至有超越传统出版物之势,检索的快捷性和精确度,可以令学者省却翻检群书、游历访书之劳。在这样的学术环境下,探讨某些疑难问题可能只需简单检索,许多“悬案”的解决难度也相应大幅度降低。前人因资料局限而不得不大量运用的“理校”“推论”“悟证”诸方法,在大数据时代无疑要重新进行扬弃。

郑永晓 (中国社会科学院文学研究所)

在学术史研究中,清人往往因所见善本不丰而大量运用“理校”法展开研究,其中有的结论或与善本相合或遭善本否定。今人既然已经能够在研究中大量占有善本供校勘,那么这种研究方法虽仍有学习的必要,但其实用性也难免会打些折扣。大量新材料理应引发大量新结论,一些“常识”或“定论”必然也会随之遭到质疑甚至颠覆,这对于现有的研究自然会有相当明显的刺激作用。近年来学界对于近代学人的成就时有争论,原因之一就在于当时学者以一人之力所做的资料性工作,精度和效率都很容易被数据库所超越。不少在民国时期“古史辨”中几乎成为公认的定论,随着出土文献的发现而被推翻(典型的例子如对《孙子兵法》的辨伪),足见新材料在某些研究领域确实处于相当核心的地位。

  古典文学、包括与文学相关的历史文献的研究,所涉及的层面和研究范围相当广泛。如果我们做一个粗浅的区分,则大致可分为三个层面:其一为文献整理,包括大型文献总集的编纂、别集的整理等,涉及版本校勘、文献标点、作品辑佚等工作。在古籍数字化的数量和质量日益提高的今天,计算机在文献整理方面的优势正表现得淋漓尽致。例如,使用计算机的检索功能,可有效避免影响大型文献总集编纂质量的重收、误收问题,这一点在北京大学中文系开发的全宋诗电子分析系统中得到了很好的验证。又如,首都师范大学中国传统文化数字化中心进行的古典小说版本比对方面的研究,也很有启发意义。伴随越来越多的古籍被数字化,计算机在文献整理方面的优势将尽显无遗。建立在准确、快速、高效、智能基础上的计算机检索系统,可以帮助我们在古籍文献的整理方面大幅提高工作效率和工作水平。

在电子检索受到学界瞩目的同时,一些批评尤其是对于学术伦理的讨论也随之热门起来。电子检索的高效快捷,令不少学者担忧其可能引发更严重的学术不端。比如,有的研究者可能对相关领域了解有限,但在检索工具的助力下仍敢匆匆上马,轻易立说;有的研究者征引繁复,可谓博瞻,但实际上许多材料是脱离语境的“遥读”,经不起细加辨析;有的研究者过于迷信电子文本的全面性,但却因此而忽略了那些未被电子化的文献;有些电子文本存在错误,研究者未核查原书导致误引误断;等等。


促进材料深度辨析

  这里特别需要提出Djvu 文档格式的发明及其广泛应用问题。DjVu是由美国AT&T实验室自1996年起开发的一种图像压缩技术,已发展成为标准的图像文档格式之一,目前正得到越来越广泛的应用。这种压缩比例大、便于传输的数据格式,核心技术是将图像分成背景层(可用于显示纸的纹理)和前景层(可用于显示文本和线条)两部分,用高分辨率来显示前景层(文本和线条),而用低分辨率来压缩背景图片。其优越性在于显示文字或有用信息的前景层非常清晰,可以令读者阅读锐利清晰的文字信息而又保持原有介质的版式和风格,绝对不会遗失有用信息,也不会使前景层所负载的文字、图画等有用信息产生变异。因为从本质上而言仍是一种图形,所以保证了数字化后古籍文本的可信度问题,不会产生因校对不精而造成的信息失真。同时,因为这种技术是将图层分别予以不同的处理,对于文档前景层所显示的文字可以进行OCR处理,所以这个格式的文件可以进行关键字查询检索,满足数据库需要进行精确检索的需求(由于制作方式不同,并非所有djvu格式的文档都可以全文检索)。Djvu文档的这些特点对于传统古籍的数字化有着极为特殊的意义,它是截至目前惟一可以将稿本、钞本等文献纤毫毕现地发布于网络的压缩技术。时下网络上有《全宋文》、《丛书集成》和部分《续修四库全书》等文献都是利用这种文档格式制作并传播的。撇开知识产权保护问题不论,这种数据格式的发明的确为传统古籍的广泛利用提供了极大便利。

编辑:科技技术 本文来源:金沙澳门手机版网址:音信技能与中华价值观学

关键词: