《水浒传》版本研究(全二册)
上QQ阅读APP看书,第一时间看更新
 第二章 《京本忠义传》的研究与思考

第二节 《京本忠义传》研究中的歧路与困惑

在上述10篇关于忠义传的文章中,众多学者用了各种方法对这两纸残叶进行研究,然而得出来的结论,众学者均不完全相同,有的结论甚至可以说大相径庭。对这40余年间忠义传的研究进行归纳与总结,可以发现其中存在许多歧路与困惑。

一、忠义传的刊刻时代

关于忠义传的刊刻年代大致有三种说法。第一种是正德、嘉靖说,这种说法的提出者是顾廷龙与沈津二位先生。二位先生是从文物鉴定的角度对残叶作出判断,主要是通过刻本的字体、风格和纸张。刘冬、欧阳健二先生赞同此种说法。刘世德先生则进一步从版本的款识,包括版口、字体方面判断忠义传刊刻于正德、嘉靖年间。

第二种是嘉靖初期说,这种说法的代表人物是李永祜先生。但在李先生之前,马蹄疾先生在《水浒书录》中已将忠义传断为明嘉靖间刻本,去掉了正德这个时间段,只是马先生并未开具理由。李永祜先生对于嘉靖初期的论断给出了充足的理由,只是这些所谓的理由,或多或少都存在一些问题。

第一个理由,商品经济的意识。李先生认为明代商品经济兴起于万历年间东南沿海一带,带有“京本”书籍的产地正处于东南沿海。那么按照李先生逻辑,忠义传就应该是万历年间的产物,但是李先生得出来的结论却是忠义传不可能产生于嘉靖之前,最可能是嘉靖初年。这个逻辑着实让人惊讶,万历年间商品经济兴起,为何忠义传会产生于嘉靖初年?难道忠义传是在萌芽期产生的,若是如此理解的话,那么正德和嘉靖年间也都符合条件。

第二个理由,删书的风气。李先生引用了顾炎武的一句话“万历间人,多好改窜古书,人心之邪,风气之变,自此开始”。但是李先生认为顾炎武所说的删书时间并不准确,觉得时间还要往上推移。于是引用了石渠阁补印本中《水浒传序》中的话,认为郭勋将《水浒传》的致语给删去了,所以删书的风气应该在嘉靖初年就有了。对于这种看法,且不说关于郭勋删《水浒传》是否有明确的证据、汪道昆和钱希言是不是道听途说而来、这部所谓带有“致语”的《水浒传》是否真实存在等等问题,就说即便删书的风气是嘉靖初年就已经开始了,那么也无法确定忠义传在删书风气伊始就存在了,难道就不能延后到万历年间吗?

第三个理由,书口的标记。李先生通过对《中国版刻图录》与《全明分省分县刻书考》中书口变化的考察,得出明初至弘治年间,书口全为黑口;弘治十四年(1501)至正德十六年(1521),黑口、白口互见;嘉靖元年(1522)至万历末年,白口占主流地位。具体到福建建阳地区,弘治十一年(1498)至嘉靖三年(1524),是黑口白口并见时期;自嘉靖四年(1525)起至万历末年,白口占绝对主流地位。按照李先生所列举的材料,由于忠义传是白口,通过白口出现的时间来推断,只能说忠义传刊刻于嘉靖四年(1525)之后,而不能确定为嘉靖初年。

第四个理由,书名的位置。忠义传的书名在鱼尾之上,李先生通过对《中国版刻图录》的考索,发现书名在鱼尾之上第一例的是正德十一年(1516),第二例是嘉靖九年(1530),第三例是隆庆元年(1567),之后直到万历中期书名在鱼尾之上才占据优势。就此李先生认为忠义传刊刻于嘉靖九年(1530)前后,是个合理的时间。这种判断方法,实在太过于主观,正德年间有书名在鱼尾之上的例子,隆庆年间也有,凭什么取嘉靖年间的?

通过上述分析可以看出李先生在开具详细证据证明忠义传的刊刻时间,最后得出的结论却存在一定的偏差。这可能是因为李先生在判定忠义传到底刊刻于何时的时候,已经在心底预设了一个答案,那就是抹去正德、嘉靖说中的正德,只保留其中的嘉靖,所以在得出结论的时候,都往嘉靖初年上面靠。实际上,李先生所列举的各种证据,客观上来说,只能证明忠义传刊刻于嘉靖之后。若再考虑忠义传各个特征出现的交叉时间,却是在万历年间。万历年间商品经济兴起、万历年间人多好改窜古书、万历年间白口占据优势、万历年间书名多在鱼尾之上。

第三种是嘉靖之后说,这种说法的提出者是张国光先生。张先生的理由其实很简单,认为忠义传为简本,简本乃是由繁本删节而来,那么忠义传必然迟于郭勋本,即刻于嘉靖之后。同时更进一步说,忠义传可能为万历初刻本。这种说法的关键支撑证据在于,郭勋本必须是《水浒传》的祖本,然而现在并没有确切的证据证明这一点,所谓的郭勋本早已佚失不存。

除了以上三种忠义传刊刻年代的说法外,还有一种关于忠义传成书于元末明初的说法。这种说法的提出者是刘冬、欧阳健二位先生,所依据的是正文当中出现的“每”字与简体字,二人认为这些字是元代刻书的习用字。李骞先生同意这种说法,并且追加了两条证据,一个是正文中“将”字的使用时代亦是元代,另一个是引首诗中有“事事集成忠义传”一句,认为忠义传的成书年代颇早,是《水浒传》的祖本。

“元末明初”这种说法的证据链存在巨大的漏洞。无论是“每”字、“将”字,还是简体字,都不仅仅是元代才会使用,明代同样也会使用。关于这一点的反驳举证,张国光、刘世德、李永祜诸先生的文章中都有提及。至于版心“京本忠义传”很可能只是书名的简称。之所以会出现这样的问题,其实就像李永祜先生所说的,“忽略了对上述因素在古代版本发展过程中被使用的情况的考察”[6]

二、忠义传的卷数

关于忠义传卷数的说法,一般有两种。一种是二十卷说,这种说法最早的提出者是顾廷龙、沈津二位先生,之后李骞、周文业先生均同意此观点。此观点提出的理由非常简单,因为现存的两叶残纸忠义传的内容均在第十卷,而这两叶正文的内容在容与堂本中一个是第47回,一个是第50回,47回与50回均在第十卷,如果以每卷5回来计算,第46回至第50回正好处于第十卷,所以这个本子应该是每卷5回,共计100回20卷。

这种说法的问题在于,所谓每卷5回的说法纯粹是臆想出来的,忠义传第47回前面还有几回没人知道,第50回后面是否还有回数也无从知晓。于是刘世德先生使用了一种计算叶数的方法,来推断第47回前面还有多少回。推断的方法为:忠义传每叶728字,容与堂本每叶484字,前者约为后者的1.5倍。容与堂本第46回有14叶,第47回在忠义传保存下的文字之前(“爷指教出去的路径”之前)有12叶又7行2字,约12.3叶。若忠义传第十卷是从容与堂本第46回开始,那么应有的叶数为(14+12.3)/1.5=17.5,这个叶数与忠义传残叶所在的叶数基本吻合,忠义传残叶文字的起始位置大概在16.4叶的样子,所以可见忠义传第十卷的起始回数为第46回。

需要说明的是,刘世德先生虽然用了这种计算叶数的方法,来推断第十卷的起始回数,但是由于将其中一个算法搞错,本来应该是(14+12.3)/1.5,得出忠义传残存部分之前的叶数,刘先生却误将除法换成乘法,成了(14+12.3)*1.5,使得整个结论出现了偏差,变成第十卷起始回数为第47回。

另一种是存疑说,这种说法的代表人物是刘世德先生。刘先生的理由是忠义传仅残存两叶,何以证明它必然是二十卷或者一百回,最多只能说明五十回之前分为十卷,并不能证明五十回之后也有十卷,或者五十回,更不能证明全书最后一卷是卷二十,最后一回是第100回。

这种说法有一定的道理,此前二十卷的支持者,均是忠义传为繁本的支持者。若忠义传为繁本,那么回数应该是一百回,卷数则很可能是二十卷。但是忠义传的性质是否为繁本,这一点还很难说。若忠义传为简本的话,有可能存在田王故事部分。如果有田王故事部分,那么忠义传就不太可能为二十卷。就如之前在第一章简本祖本的研究中所提到的,评林本和刘兴我本在第十三卷之前每卷的分回均为5回,但是之后的分回则是4回到7回不等。忠义传第十卷的回数与内容正好与评林本、刘兴我本相同,而这两种本子都存在田王故事部分。所以通过现存忠义传残叶所处的回数以及卷数,并不能有效地断定忠义传即是二十卷、每卷5回。

三、忠义传的性质

关于忠义传的性质,应该是研究忠义传最为关键的问题,同时也是争议最多的一个问题。大体上的看法有三种:一种是繁本,此种说法以顾廷龙、沈津、刘冬、欧阳健、李骞、周文业诸先生为代表;第二种是简本,此种说法以张国光、刘世德先生为代表;第三种是繁简过渡本,此种说法以李永祜先生为代表。

最初繁本的支持者顾廷龙、沈津二位先生,对忠义传没有作出详细的研究,只是大致地比较,得出忠义传为繁本,但是同时也指出忠义传相较其他繁本略简。之后刘冬、欧阳健二先生因为先入为主的思想观念,预先认定忠义传为繁本,所以在将忠义传与其他繁本比对之时,认为其他繁本是在忠义传的基础上,做了一些补充性的描写,并没有做到客观地分析繁简的文句,到底是增补而成,还是删削所致。张国光先生则对“忠义传为繁本”的观点提出商榷,认为忠义传为简本,但文章并没有提出让人信服的证据。

在忠义传到底是繁本还是简本这个问题上,取得突破性进展的是李骞先生所使用的方法。这个方法的由来,欧阳健先生在《稗海潮》一书中有所记载:

1984年6月6日,欧阳健去大连参加明清小说讨论会,得到一个极好的组稿机会。路经沈阳时,去辽宁社科院访马蹄疾,不值;去辽宁大学访高明阁,与谈小说研究,请他赐稿。在大连,偶与李骞谈起《京本忠义传》残页,发现他注意到了残页卷十十七页和三十六页之间的关系,即两者之间有21.5页的篇幅,其总字数应为364×21=7644。若计算出其他各本的相关字数,则《京本忠义传》的简繁问题就解决了。这一思维方式为欧阳健未曾虑及,听了大为兴奋,当即与之约稿,请他尽快写出,务必在第一辑发稿前寄达。

…………

6月25日,收到李骞论《京本忠义传》文,一气看完,复以容与堂本校对之。再送刘冬过目,给了很高的评价。[7]

李骞先生在文章之中确实用到了与欧阳健先生所说的方法,只是李先生的算法错谬之大,实在让人难以置信。首先是忠义传半叶13行,李先生变成了半叶14行;其次忠义传从残存的地方算应该是有39个半叶,李先生错算成29页(58个半叶),关于这一点刘世德先生的文章有详细指出。只是不知如此错谬,到底如何生成。因为李先生在文章末尾感谢了黄霖师赠其忠义传复印件,证明李先生确实亲见此本。再来看上面欧阳先生《稗海潮》的载录,也存在一些问题。首先卷十第17叶至第36叶均以完整来算,也只是20叶篇幅,何来21.5叶?何况第17叶还并不完整,只有半叶,真正只有19.5叶;其次欧阳先生算总字数时,364是半叶的字数,而不是一叶的字数。正是由于这种错谬的算法,使得李先生算出来的忠义传卷十第17叶至第36叶的字数为22736字,容与堂本相应的部分只有15972字,得出忠义传是繁本的结论。

之后刘世德和李永祜二位先生同样对忠义传两纸残叶中间的字数进行了计算,但是二人同样出现了问题。李先生的问题在于,从两纸残叶起讫位置来算,相隔应该是19.5叶,而李先生错算成19叶。刘先生错的问题则比较复杂,忠义传残存的两纸,每纸均非完整的一叶,而是半叶再加上3行文字,也就是均残存16行文字,残缺10行文字。从忠义传第17叶起始的文字开始算,此叶应减去残缺的10行文字,但是第36叶则不需要减去这10行文字,因为到第36叶末,这10行文字已经包含在内,刘先生的算法则减去了这10行文字,少了280字。所以准确的字数应该是(36−17+1)*364*2−28*10=14280字。容与堂本相应部分的文字字数为16051字[8]

两相比较,忠义传比容与堂本少了1771字,占容与堂本总字数16051字的11%。忠义传残本部分的内容,刘世德先生认为是4回,其实并没有那么多。忠义传残存部分的内容,起始为卷十第17叶(爷指教出去的路径),截止部分为卷十第36叶末(军人每道那厮)。相应的部分为容与堂本第47回至第50回,其中第47回整回总计15.5叶,卷十第17叶(爷指教出去的路径)之前的内容,容与堂本此回是12.3叶,也就是忠义传相对应容与堂第47回的内容残存3.2叶。容与堂本第50回整回总计12.5叶,卷十第36叶(军人每道那厮)之后的内容容与堂本是3.5叶,也就是忠义传相对应容与堂第50回的内容残存9叶。将忠义传第47回残存的内容与第50回残存的内容相加,大致是1回的内容,再加上第48回和第49回的内容,大致是3回的内容。3回忠义传少1771字,全书若是100回则大致少6万字。这是刘先生用回数累积的方法顺推忠义传全书所缺失的字数。此外,刘先生也用了同样的方法,顺推了忠义传全书的字数。其实这种算法并不准确,因为不同的小说章回,有的字数差异较大。像第48回是5075字,第49回是7658字,但是字数最多的第24回有16152字。

既然以回数累积的方法来计算全书的字数并不是十分合理,那么是否有较为合理的计算方法?可以以字数积累的方法计算,容与堂本16051字,忠义传缺少了1771字,大约是11%,那么容与堂本全书共约68万字,换算到忠义传之上,字数则大致少了6.4万。11%的字数差异,分量并不算少,6.4万的字数,也不是一个小数目,至少由此来看,忠义传与其他繁本在字数上,存在一定的差距。那么具有争议的问题来了,与其他繁本相比,文字少了11%的忠义传算不算简本?李永祜先生觉得不算,李先生觉得忠义传删削的文字,数量少,程度浅,不应该把此本归到评林本一类的简本之中去,因为相对于容与堂本,评林本删削了55%以上。由此,李先生把忠义传定义为繁简过渡本。

在探讨忠义传性质之前,这里再介绍一种版本,此一版本的文字相较评林本为多,而相较容与堂为少,此本版本为种德书堂本。此本文字相对于容与堂本而言,大约删削了45%以上,种德书堂本被视作简本。那么,文字删节了多少才算简本?笔者曾有幸面见李永祜先生,向其咨询这个问题。李先生给我打了一个比方,以残疾人的定义为譬喻,评林本删削了55%以上,像断了腿、断了手,可以称为残疾人,忠义传相当于断了根指头,算不上残疾人。当时未曾细细琢磨,觉得颇有道理。待研究过后,发现忠义传所删削的字数达到11%,那就不是断一根指头那么轻微了,至少也是断了一个手腕。断一个手腕,称之为残疾人应该不过分了。

哪怕是仅仅断了根指头,是否可以算残疾人,此点也有值得商榷之处。虽然断了一根指头,从法律上来说不算残疾人,但于生理上而言,同样属于残疾人。而且残疾人也分等级,有重度、中度和轻度。

对于“简本”的定义,欧阳健先生是这样理解的:

什么叫简本?用胡应麟话说,是“游词余韵、神情寄寓处一概删之”。关键不在字数多少,而在是否保留游词余韵、神情寄寓处。绝不能悬拟一个标准,说一万字是繁本,九千字就是简本,更不能设想会发现一个从一万字删到九千字,八千字,七千字,六千字,五千字,四千字的“修改过程”。《京本忠义传》体现了描写细腻、口语生动的特点,从内容上看是地道的繁本。[9]

这段话欧阳健先生写于2015年之时。从这段话中首先可以看出,欧阳健先生已经改变了早年(1983年)的观点,早年欧阳先生认为容与堂本是在忠义传的基础上增补而成,现今转而承认忠义传是在容与堂本的基础上删节而成。但是欧阳先生依旧不承认忠义传为简本,理由是忠义传中保留着“游词余韵、神情寄寓处”。同时,欧阳先生认为不能设想有一个修改过程,但是现存《水浒传》版本,从忠义传到种德书堂本到评林本再到入清之后的八卷本、百二十四回本等,确实呈现出一个不断删节的过程。只是从删削11%的忠义传到删削45%的种德书堂本,这其间是否存在断链,是否还有删削20%、30%、40%的本子存在过?这一切都是未知之数。即便不承认断链的存在,忠义传删削11%的文字内容不是“游词余韵、神情寄寓”之处,难道是《水浒传》中的赘文吗?而且忠义传部分文句的删削,使得正文的逻辑性存在一定的欠缺,此点可详见刘世德、李永祜先生的文章。只不过这类伤及逻辑性的删削之处并不是很多,而且也没有严重影响阅读,所以并未引起大部分研究者的注意。

再看周文业先生对繁简本的理解,周先生认为繁简本的分类标准有两条,一条是故事情节,一条是文字繁简。文字繁简这个争议已然存在,另外周先生还从数字化的文字相似度来讨论繁简问题,见下文。故事情节的标准,一般是以田王故事的有无来判断,但是忠义传残叶没有保存这个部分,所以没法判断。于是周先生根据其他的小情节来判断,认为第50回中,简本删除了祝彪和小李广花荣交战的故事,但是忠义传没有,因此从故事情节来看,忠义传应属于繁本。

如此判断,看起来似乎有道理,其实不然。相比其他繁本而言,忠义传同样也删除了一些情节。容与堂本中有杨林被祝家庄识破身份之后的文字,“人见他走得差了,来路跷蹊,报与庄上大官来捉他。这厮方才又掣出刀来,手起伤了四五个人。当不住这里人多,一发上去,因此吃拿了”(47.14a),忠义传此段文字仅为“人见他走得差了,即报与庄上大人,因此吃拿了”(10.17b)。很显然,忠义传将杨林奋起反抗以及如何被抓的情节删除了,仅仅留下了被抓的结果。当然,相比其他简本而言,忠义传的情节又算是删节得较少的。

到底如何判断忠义传是简本还是繁本?笔者觉得删除的字数是一个方面,另外还有两个方面需要考虑。一是删节的意图。删除文字是为了节约成本,还是有其他的目的。拿金圣叹评点本来说,金批本几乎将《水浒传》中所有与内容无关的诗词删节掉了,但是不能因此说金批本是简本。金圣叹删节诗词的目的是为了提高《水浒传》的艺术性,金批本删节诗词之后,使得小说情节更为紧凑,所以金批本毫无疑问是繁本。那么忠义传的删节意图到底为何?关于此点,刘世德与李永祜二位先生在研究忠义传的过程中,得出了“忠义传刊刻于建阳”这一结论,此结论已透露出忠义传的删节意图。

关于建阳书坊删节书籍的记录,早在明代嘉靖年间郎瑛的《七修类稿》(卷四十五)中已经存在:

我朝太平日久,旧书多出,此大幸也。亦惜为福建书坊所坏。盖闽专以货利为计,但遇各省所刻好书,闻价高即便翻刊。卷数、目录相同而于篇中多所减去,使人不知,故一部止货半部之价,人争购之。[10]

之后胡应麟《少室山房笔丛》与周亮工《因树屋书影》中也有提及。可以说,建阳书坊删节文字的目的,无非就是为了节约成本、降低售价、提高竞争力。从此方面来看,作为由建阳书坊刊刻的忠义传,其删削意图亦当如是。所以从删节意图来说,忠义传当算作简本。

二是删节的影响。文字删节之后,是否会降低小说的艺术成就?如果是,那么应该属于简本。如果不是,则应该属于繁本。对于这一问题,1983年刘冬、欧阳健二位先生认为忠义传保留了其他繁本描写细腻、口语生动的长处,其他繁本是在忠义传的基础上进行增益和丰富,都是补充性的描写。2015年欧阳健先生再次撰文之时,关于忠义传与其他繁本的关系,此一看法有所改变,但是依旧认为忠义传有“描写细腻、口语生动的特点,从内容上看是地道的繁本”。也就是说,由始至终欧阳健先生都不认为忠义传的艺术性由于文字的删节而受到了损伤。但是从刘世德与李永祜二位先生的文章例证中,却明显可以看出,删节文字之后的忠义传,有的地方已经“伤及了作品的精神血脉”[11]

这里仅举两例以观:

例一:石秀向钟离老人询问路径,老人所作出的回答。

容与堂本:那老人道:你便从村里走去,只看有白杨树便可转湾。不问路道阔狭,但有白杨树的转湾便是活路,没那树时都是死路。如有别的树木转湾,也不是活路。若还走差了,左来右去,只走不出去。更兼死路里,地下埋藏着竹签、铁蒺藜。若是走差了,着飞签,准定吃捉了。待走那里去?(47.13ab)

忠义传:那老人道:你便从村里走去,只看有白杨树便可转湾。不问路道阔狭,但有白杨树的转湾便是活路,没那树时都是死路。若还走差了,左来右去,只走不出去。更兼死路里,地下埋藏着竹签、铁蒺藜。若是走差了,蹈着飞签,准定吃捉了。(10.17ab)

容与堂本比忠义传多了两句话,一句是“如有别的树木转湾,也不是活路”,另一句是“待走那里去”。第二句话有与没有差异不大,然而第一句话有与没有却有相当大的差异。钟离老人前面的意思是让石秀遇到白杨树就转弯,没有白杨树就是死路。按照正常人的理解,只要遇到白杨树就转弯,没有白杨树或者不是白杨树那就不转。看起来钟离老人后面多出的那句是废话,但恰恰是这样一句废话,却能够表现出人物的性格。首先,钟离老人是个老人,老人话一般比较多,而且此时又是在聊天,普通人聊天自然不会有意去构思言语。其次,多增加一句话也更能看出钟离老人的慈悲心肠,生怕石秀走错了路,所以特意再叮嘱一句,有其他树木的转弯也是死路,只能认准白杨树。这样的叮嘱在现实生活当中极为常见。

例二:祝彪与花荣打斗之后,回到祝家庄的言语。

容与堂本:孙立动问道:小将军今日拿得甚贼?祝彪道:这厮们伙里有个甚么小李广花荣,枪法好生了得。斗了五十余合,那厮走了。(50.4a)

忠义传:孙立动问道:小将军今日拿得甚贼?祝彪道:今日某阵与花荣斗了五十合,吃那厮走了。(10.36b)

此处容与堂本比忠义传多出了一句夸赞花荣的话。这句话很关键,从中也能看出人物的个性特征。首先,花荣的武艺,得到了对手祝彪极高的评价。一直以来,读者仅仅知道花荣箭法举世无双,此处从祝彪口中得知花荣的枪法造诣着实不低,让读者对花荣有了一个全新的认识。其次,容与堂本中祝彪语言的描述与忠义传也有所不同。容与堂本“有个甚么小李广花荣”,忠义传则直接称呼为花荣。从容与堂本文字中可以读出祝彪对花荣并不熟悉,这也符合之前的情节。此前祝彪想去追赶花荣,被手下的人叫住了,说花荣箭法了得,不可深追,于此祝彪才停住了脚。可见祝彪对花荣确实不怎么了解。此等情节又与《三国演义》中关羽追赶黄忠何其相似,正因为关羽不了解黄忠的箭术才敢深追,最后被射落盔缨。再次,通过祝彪对花荣的夸奖,也能对祝彪的性格有一定了解。此处容与堂本祝彪与孙立的对话,可以看出祝彪此人并不盲目自大,对自身与对手都有客观清醒的认识,且对于对手不吝褒奖之词。作为将领而言,这一点是较为难能可贵的。

所以,从删节的影响来看,忠义传同样属于简本。当然,若是与删节特多的种德书堂本、插增本、评林本、刘兴我本,乃至于八卷本、百二十四回本比较而言,忠义传哪怕是遭到删节,艺术性成就也是远远胜之,但是相比于其他繁本来说,忠义传则在不少地方缺少了那一抹神韵。

四、忠义传的数字化

当今的时代,是一个大数据时代。在这个大数据时代里,古籍的数字化已经是不可避免的时代潮流。古典小说数字化行业里,周文业先生绝对是其中的代表人物与领军者。自2001年起,至2022年,周先生组织了21届“中国古代小说、戏曲文献暨数字化国际研讨会”,同时自身在古代小说数字化的研究领域里也取得了可喜的成绩[12]。古代小说的数字化给研究者提供了很大的便利,节省了人工校对所需的时间。但是需要指出的是,无论是小说数字化,还是其他古籍数字化,都存在一个无法避免的问题,那就是数字化之后的文本可靠性到底有多少。

笔者曾见周文业先生的小说数字化文本,比对原文后发现,错舛之处不少。后来有幸在开会之时见到周文业先生,向其问及经过处理的小说数字化文本,是由电脑辨识生成,还是人工校对。周先生告知笔者,文本是由专门的公司录入员录入生成。笔者再问及录入人员是否是专门的汉语言专业系毕业的学生,是否能辨识繁体字与异体字?周先生说不是汉语言专业的学生,也无法辨识繁体字与异体字,录入员都是其他专业的员工,用五笔比对字形录入。笔者又问到录入之后是否曾有人校对过?周先生说还没有,因为工作量太大。这也许就是周文业先生小说数字化文本出现错舛的原因所在。

周先生研究忠义传的这篇文章《〈水浒传〉版本数字化及〈京本忠义传〉的数字化研究》,从中也可以看到数字化文本由于出现错舛所造成的结论偏差。在周先生的文章中提到一种文本相似度比对的方法,将忠义传、容与堂本、嘉靖残本、钟伯敬本、天都外臣序本、遗香堂本、郁郁堂本、金圣叹本等诸种版本,以容与堂本为轴心进行相似度比对,发现忠义传与容与堂本的相似度,比之金圣叹本、郁郁堂本、遗香堂本、天都外臣序本、钟伯敬本、嘉靖残本等诸本与容与堂本的相似度,多者之间颇为接近,于是得出结论,忠义传属于繁本。

但是当笔者查阅周先生文章中诸版本与容与堂本相似度的具体数值之时,却十分惊讶,文中所言第47回钟伯敬本与容与堂本相似度为91%、天都外臣序本与容与堂本相似度为82%、遗香堂本与容与堂本相似度为84%、郁郁堂本与容与堂本相似度为85%、金圣叹本与容与堂本相似度为81%。吃惊之处在于,诸版本与容与堂本的差异,笔者曾做过比对,远远没有周先生文章中所列举的数值那么大,像天都外臣序本、遗香堂本在数值中显示,与容与堂本将近有五分之一的文字不同。笔者为探寻其间原因,又细查了周先生文章中所附带的数字化文本,发现了其中问题所在。

首先,数字化文本将一个字的不同写法,当作了不同字来处理,如“里”与“裏”、“个”与“個”等。异体字是否需要当成不同的文字来处理,此点另说,更大的问题是数字化文本中存在太多的错舛文字。如数字化的钟伯敬本“只看有白杨便可转湾”当为“只看有白杨便可转湾”;“没那时都是死路”当为“没那时都是死路”;“如有别的木转湾也不是活路”当为“如有别的木转湾也不是活路”;“更死路里”当为“更兼死路里”;“便问爹爹高姓”当为“便问爷爷高姓”等等不一而足。除此之外,录入之时的繁简字、异体字也存在一些问题,如“左来右去只走不出去”当为“左來右去只走不出去”;“聴得外靣炒鬧”当为“聽得外靣炒鬧”等。这仅仅只是前面几句话,就出现了如此之多的差错,可以想见这样的数字化文本,计算出来的相似度到底有多大的可信度。

据笔者比对,若将繁简字与异体字均算作相同的文字。第47回钟伯敬本与容与堂本的相似度是100%,而周先生的数字化文本为91%;嘉靖残本与容与堂本的相似度是95%,而周先生的数字化文本为84%;遗香堂本与容与堂本的相似度为97%,而周先生的数字化文本为84%;天都外臣本与容与堂本的相似度为98%,而周先生的数字化文本为82%;郁郁堂本与容与堂本相似度为97%,而周先生的数字化文本为85%;金批本与容与堂本似度为96%,而周先生的数字化文本为81%。诸繁本与容与堂本的相似度均在95%以上,而忠义传与容与堂本的相似度仅为82%,差距依旧存在,与种德书堂本、插增本、评林本、刘兴我本等与容与堂本的相似度相比,依旧只是高低的问题。