中国法学会法律文书学研究会

马宏俊等：浅析司法大数据与智能裁判

日期：2020-04-17 来源：

一、裁判文书智能生成系统的运行机制

从目前全国各地的实践来看,类案推荐、大数据定罪量刑与案件偏离预警是大数据与人工智能技术在辅助法官办案即“审判智能化”领域最为耳熟能详的应用,其与裁判文书智能制作系统的运行机制类似,大多是在完成案件要素信息抽取的前提下,通过数据的运用,实现类案检索、事实梳理及法律分析等的个性化、精准化与合理化。

裁判文书智能生成系统即是基于专有语义的法律分析技术,对案件的起诉书、答辩状、书面证据和庭审笔录等前置数据内容进行智能判断分析后,按照最高法院文书格式要求,一键式自动生成本案判决书等各类裁判文书,并通过“左看右写”的方式支持法官通过查阅原始卷宗来完善裁判文书的内容。该种生成裁判文书所涉及的语义分析技术主要包括以下三种:(1)法律要素结构的搭建及应用技术,即在《人民法院案件信息业务标准(2015)》及分析具体案件的基础上搭建法律要素结构,并应用于裁判文书的自动生成。(2)底层要素分析技术,即根据对《裁判文书参考样式》、相关法律法规、案例数据及实例文本的分析,形成民事诉请要素、事实要素、基本要素、争议焦点和刑事法定情节、酌定情节及各罪的犯罪行为相关情形结构的底层要素结构,并通过分析具体要素在批量文书中所处的语言环境,总结出常用场景形成固定的提取规则,从而基本实现底层要素结构中简单要素的智能化自动化提取。(3)文本合成技术,即加工人员按照获取的数据进行单一模板的配置(分案由),形成一个案由下的模板集,之后再按照获取的数据在模板集合中进行文本的替换和重新整合。

裁判文书智能制作系统在规范文书制作化、捕捉案件事实、及统一裁判尺度方面还是具有明显优势的:首先,是对审理流程规范化的改进,因为该系统最终生成的裁判文书初稿须以前置程序中所涉及的起诉状、答辩状、庭审笔录、证据等内容为基础,其天然的规范性与格式性,迫使法官在案件审理过程中必须遵循既定的审理流程,并按时录入相应涉案文字材料。其次,系统的自动生成功能可以极大地提高法官审理案件的效率,因其自身所具备的要素分析技术,可以整合各类案件事实及证据,并自动梳理出涉案争议焦点,一键式自动生成判决书,从而大大减轻法官庭审前整理案件各类材料的负担,也省去了开庭后书写判决书、整理案件材料归档等繁重工作。最后,关于裁判文书的生成过程还离不开一项重要技术,即类案判决的运用,例如刑事案件,其主要依据案由、犯罪手段、量刑情节、刑罚、法院、地区、相关法条等多种关联因素综合检索同类案件,然后总结隐藏在类似案件中的共性规律,从而基于数据分析所呈现的平均结论对个案予以启发。虽然“世界上没有两片完全相同的树叶”,个案也一样,但不可否认的是,通过对法律问题的归结,案件与案件之间终会具有某种联系或比较的可能,这也使得个案的案情之间具有了可比性。这正是先例示范机制的价值:以经过检验的先例作为规范样本,事实上就是在强化法律本身。而我们需要警惕的是,大数据时代下的“类案”是由机械的数据对比得出的,而非人的思考、比较与分析,故智能裁判文书最终得出的判决结论是否可靠?有赖于系统中的数据是否有价值,也即所谓的类案数据是否具备有足够的规模与跨度?如果上述数据不具有代表性与包容性,抑或未能与法律推理、法律解释及法律论证等结合,那么最终的智能裁判文书就不能达到充分释法说理的效果。

二、智能裁判——技术理性与司法理性之碰撞

随着司法大数据时代的到来,智能裁判系统的运用不可避免地使当下裁判文书具备了一定技术理性,也即技术应用程序化与规范化下的天然形式理性,这与文书一直所蕴含的内在司法理性不同,前者可谓是一个完全中性的词汇,而后者具有一定的道德价值倾向,尤其在保护公民各项权利方面,这种倾向更为明显。如此,当智能裁判运用于司法实践,不可回避地,即会出现技术理性与司法理性的碰撞,技术理性追求的是审判效率与同案同判,而司法理性更加注重判决的质量与个案的特殊正义,如何使二者顺利融合才是我们当下要真正思考的问题。

(一)技术理性下的同案同判

2018年8月,中国裁判文书网总访问量已突破180亿次,累计公开裁判文书超过5000万篇。裁判文书公开的数据积累,也进一步促进了司法各领域大数据的基础完善和崛起,尤其使得法律行业内运用人工智能挖掘分析裁判规律成为可能,全国各级人民法院为响应最高院“智慧法院”建的设工作,也是努力探索创新各项信息化应用,近年来诸如“裁判文书自动生成系统在XX法院上线运行”,“一分钟即可生成裁判文书”的报道比比皆是。其中笔者发现,各地法院在报道中均不乏“促进同案同判”或是“避免同案不同判和法律适用不统一”等用语。

而“促进同案同判”语境下的案件多指刑事案件,一般一份刑事判决书最重要的两个部分即为定罪和量刑,而在我国以往实践中因对文书释法说理的要求还未充分落实,法官对此亦有较大的自由裁量权。以2017年“于欢案”为例,对中国裁判文书网上100多万起故意伤害案进行诸如“高利贷”、“警察在场”、“正当防卫”等关键词的搜索,结果发现类似案件已有多起,通过对部分案件的分析可将审判结果归为两类:一类是轻判的,比如河北省保定市的一起同类案件被认定为防卫过当,判处7年有期徒刑;一类是重判的,比如安徽省黄山市的一起同类案件,没有被认定为正当防卫,适用死缓;两种判决差异的关键在于正当防卫的适用问题。这一现象不禁引发我们对“同案不同判”问题的思考,也即类似案件下却有着相去甚远的判决结果,这确实不利于树立公众对司法公平正义的认同感,且极易削弱司法的公信力。所以,智能裁判系统如果能在一定程度上避免同案不同判现象的发生,自然会受到社会各界的广泛认同。

该系统在促进同案同判上的具体表现为:一是关于大数据定罪的运用,在人工智能机器研发之初,研发人员会截取系统案件中“经审理查明”到“本院认为”部分的文本交给机器学习,机器自身会借助文本相似度分析等技术,挖掘隐藏在以往司法文书中的法官、检察官定罪量刑的集体经验,计算出各定罪情节对罪名确定的影响程度,从而赋予各情节不同的平均影响系数,等到后续进行个案的分析时,即可综合对比系统案件中的事实部分,以确定最终罪名。其次是大数据量刑,此技术相比大数据定罪更为精准化,以“交通肇事罪”大数据量刑为例,可以选取“是否造成人员死亡”、“财产损失数额”、“是否醉驾(醉驾酒精含量多少)”等要素,交由计算机自动计算这些特征与判处刑期之间的关系,后得出较为复杂的量刑公式,最后在个案中自动计算出量刑结果,以实现“精准量刑”。鉴于系统上述数据的产生大多是对以往相似案件所涉数值的分析并计算得出平均值,故其最终结果在一定意义上是能够彰显“同案同判”之价值的。

(二)司法理性下的差异化判决

司法理性从本质上说是一种实践理性,其实践性主要体现在以下两个方面:其一,法官运用理性解决的是社会生活当中真实存在的纠纷,理性的获取、提升和实现都离不开实践;其二,法官运用的方法更多的是实践的方法,而非单纯的自然科学法则。所以法官在裁判文书写作过程中涉及的法律推理、法律解释及法律论证,与科学世界里的数字推理并不相同,后者探求的是数字符号或命题间的必然联系,而前者追求的则是最佳法律解决方案,该方案不仅受到法官个人实践理性的指导,还会受到客观社会现实的影响。

反观上文所述的系列“正当防卫案件”,人工智能可以从中捕捉到“故意伤害”、“高利贷”、“警察在场”等关键词,或许在其看来业已满足了“同类案件”的要求,从而得出各案件最后的裁量结果也应相同,如果二者相去甚远,则需启动案件偏离预警。但这是否意味着上述两起案件中一定有一起文书的裁判说理及结果有违司法公正呢?恐怕还无一人敢给出肯定的回答。首先,暂不论关键词匹配成功是否一定意味案件情节相似,即使是两起情节相似的案件,置于不同的社会环境或背景下,亦可能得出不同的判决结果,正当防卫在我国的适用即为很好的印证:在过去的司法实践中,案件被告提出正当防卫的辩护案件得到我国法院承认的情况是相当少见的,这一现象的直接原因就是中国法院认定正当防卫的门槛过高,导致了正当防卫条款的虚置;但在最近发生的一起“昆山反杀案”中,公安机关即直接认定当事人构成“正当防卫”并依法作出撤销案件的决定,这在一定程度上也反映了现代社会观念的变化与公民人权意识的增强;同样,该案的结果对于日后促进正当防卫的适用,乃至刑法其他规范的正确理解,均具有积极的意义。而试想,如果将昆山案通过智能裁判系统进行分析,那么系统所提炼出的关键词“持刀追砍”、“一人死亡”等,再结合历年案例数据分析,还会作出正当防卫的认定吗?

综上,数据化的均值判断虽然凝聚了类似案件价值选择、利益衡量、经验法则的时代评价和平均理解,但类案同样存在异质性,我们并不能完全否定一项差异化判决的存在价值。且对于文书中的内在因果逻辑、价值伦理、社会关系及文化背景等司法理性内容往往难以简化为智能裁判中的数据标准,所以民众对相似案件均等化处理的期许与具体个案的特殊正义间也会存在冲突,这亦是智能裁判文书形成过程中司法理性与技术理性的碰撞,而二者的融合还有赖于技术的进一步完善与法官自身能动性的调和。

三、我国当下智能裁判技术理性的潜在问题

不可否认,作为司法大数据产物的智能裁判系统在法治社会建设的当下有着不可估量的价值,其自身所具备的技术理性更是大大提高了法官办案和诉讼服务的智能化水平;但究其根本,智能裁判还只是人类生产工具变化的体现,其在为人类带来福祉的同时,我们也不能忽视它潜在的法律问题。

(一)智能裁判在释法说理上的脆弱性

首先是上文所述的两种理性碰撞问题,随着最高人民法院《关于加强和规范裁判文书释法说理的指导意见》的出台,裁判文书的制作也面临着更高的要求,智能裁判所具备的技术理性虽然可以满足文书的格式化与规范化要求,但在文书充分释法说理层面,恐怕还离不开法官个人的主观性与司法的能动性。

当下,大数据的积累与精准算法的研究使得裁判文书的自动生成成为可能:即当一个刑事案件传入法官的裁判系统之后,就算仅有公诉文书,人工智能也可以通过自然语义识别技术,提取案件情节,根据先前的案例数据及形成的算法推导出定罪量刑的结果,且随着案件诉讼程序不断向前推进,相关的信息也会越来越多,系统作出的量刑测算会更加准确。但是,司法裁判的任务不仅在于解决纠纷,更重要的在于说理和论证,这也是最高法院专门出台相关指导意见的原因——关于“释法说理”的目的,一份司法裁判文书,其判决结果的权威性与强制执行性并不单纯以国家机器和强制力为后盾,关键还在于“以理服人”,使得法律成为一种说理型权威。这时就需要法官充分围绕证据的审查判断、案件事实认定和法律适用进行说理,以法律的适用为例:(1)如果案件所涉法律依据的含义清晰无争议,则可直接适用,继而围绕裁判内容和尺度进行释法说理;(2)如果法律含义不清晰且存在争议的,应进行法律解释,并逐项回应法律争议焦点;(3)在法律规范存在竞合或冲突时,还应先对所选裁判依据的理由进行说明.....关于这些要求,恐怕目前的智能裁判系统尚未能满足;据了解,司法人工智能所形成的算法,大多建立在对海量文书学习、训练基础之上,其所具备的功能面对关键词提炼与简单的法条援引、适用可能没有问题,但对于复杂案件的说理,即上升到法条背后的法律解释恐仍有难度。

“释法说理”旨在增强裁判行为的透明度,提升司法公信力。一份裁判文书,它必须要能告诉当事人和社会公众,法官在审理案件时是如何选择法律依据,认定案件事实,以及将抽象的法条转变为具体的个案规范的,只有这样才能增强裁判过程的透明度,以规范审判权的行使;而这恰恰也是人工智能裁判的一个内在悖论:人工智能算法隐蔽性和案件裁判过程透明性间的冲突。不可否认,智能裁判预测罪名与量刑可以为法官尚未裁判的案件提供参考,但这样的算法背后毕竟只是一串数据,不仅公民或当事人不知道这些算法是什么,就连一线法官与数据研究人员也不能保证这样的算法就一定有科学依据;所以即使我们告诉当事人,人工智能的裁决最接近正义,他也努力去接受技术理性比带有非理性情绪的法官更为客观公正,但当事人还是无法与机器进行直接的沟通与对话,他也将因参与感的缺失而无法真切地感知正义实现的过程。

(二)司法大数据的基础尚不坚实

智能裁判系统有效运行的前提是司法数据的发展与完备,这意味着,一旦数据不完备或发生某种错误,其对我国司法裁判文书结论所带来的影响将是无法估量的;而这恰恰是目前我国司法人工智能面临的最大问题——数据基础的不坚实。

当前,我国统一的司法元数据标准尚未形成,数据集在质与量两方面均存在不完备之处:首先是质的方面,司法智能裁判系统最终的结论以历史案件为分析基础,但我们无法保证历史上每一个案件的裁决均符合公平正义,且事实上各类案件的裁决质量亦是参差不齐的;试想,如果大数据所依赖的文书本身即存在错误或瑕疵,那么基于这些数据所产生的模型和算法就可能遭遇精确性困境,最后可能的结局是:历史的经验错误被不断放大并形成了固化的“错误路径”。其次,尽管我国目前拥有全球最大案件信息库和裁判文书网,司法数据资源初具规模,但仍有大量未结构化的信息沉淀在法院内部,且地方法院间各自研发“智能裁判系统”,出现了诸如“睿法官”、“智审”、“法官e助理”等平台,各系统在数据库、算法、模型设计以及分析技术上必然存在差异,如此数据信息呈现闭环流通,而难以发挥出大数据测算的优势,最终智能裁判文书结论的确定性与可靠性也必然大打折扣。

此外,据有关研发人员表明,在现有技术条件下还无法保证训练的样本文书与识别技术全都是绝对正确的。譬如,财产犯罪案件中,法官对金额的描述可能分布在文书的不同位置,如果一个案件真实涉案标的是5000元,但文书其他位置还存在其他金额(2000元、3000元等)的描述,此时不能排除智能裁判系统却将金额识别为2000或3000元,这样将会导致后续一系列包括类案识别、定罪量刑等模型算法产生错误。所以这块也是当前技术的短板,有待于进一步完善。

四、司法改革背景下对智能裁判之展望

数据的积累与共享、人工智能的发展已经让人们看到智能裁判对司法决策与执行的强大辅助力,但同时其自身存在的技术上的不足,以及与司法理性的融合问题,除了有赖于技术上的突破,还有待于法律职业者自身去主动拥抱这个对我们影响至深的工具革命,也以期能够真正落实习近平总书记“把深化司法体制改革和现代科技应用结合起来”的要求。

(一)充分发挥智能裁判的数据理性

虽然目前的人工智能裁判系统就案件内在的逻辑关系与法律适用仍难以达到“司法智慧”的程度,但其在数据相关性上的分析对于司法审判来说还是具有诸多积极意义的,尤其是量刑辅助裁判系统的发展。从当下各地试验来看,裁判文书自动生成系统的运用主要集中于刑事案件的定罪量刑与简单的民商事案件裁判,但慢慢地该技术也开始运用于了证据收集、提起公诉、事实认定、证据确认、案情分析等多个辅助裁判环节;笔者认为,现阶段法院可以充分发挥智能裁判系统在数据分析领域的技术理性功能,包括扩大在民事、商事、行政、国家赔偿等其他类型案件中的适用,尤其是与量刑近似的损害赔偿环节,智能辅助分析亦有其用武之地,如此既可以减轻法官办案的工作量,同时也能提高涉及数据判决结果的精准性。

(二)增加智能裁判的透明性

人工智能算法的隐蔽性和案件裁判过程的透明化是智能裁判系统内在的一个冲突,一旦引入智能裁判系统,即使其裁判结果非最终性结果,但必然对法官最后的裁决产生影响,而人工智能结果的推理过程只能具象为一连串数据与算法,这些可能连法官和审判庭也不知晓,被告及其代理人亦难以进行有效辩护,更勿论司法竞技的对抗效果。且目前计算机识别技术尚不能保证百分之百的准确性,一旦系统某一参数发生任何细微变化,都有可能带来裁判后果的“蝴蝶效应”,其实际影响范围和程度也许会超出技术和司法人员的想象与控制范围。此从保护诉讼当事人基本人权的视角,笔者建议在应用智能裁判系统制作裁判文书的过程中必须做到程序公正,即披露智能裁判系统的技术参数以及对于量刑等裁判工作的影响程度,如果在当事人提出质疑,且法院认为有必要的情况下,法院还应有权强制披露相关智能分析工具算法的代码,不过这一行为的行使还应考虑到智能算法商业秘密的保护,故披露的条件、范围和程度最好出台相应的规定予以规范。

(三)技术理性与司法理性的融合

我国智能裁判系统在技术上的进一步完善与发展自然是必要的,也有赖于我国对高科技司法专业人才的引进与培养,从而深入挖掘司法大数据的价值,为我国司法能力和司法水平的提升提供人才支撑和技术支持,在此笔者不再多作赘述。下面主要讨论一下在适用智能裁判系统过程中司法理性与技术理性的融合问题。

近年来,司法大数据的发展给司法审判带来了诸多利处:“截至2018年5月底,全省共有491位刑事法官使用该系统生成量刑表4073份,智能生成裁判文书856份,完结案件数7844件,系统总点击量55万余次”;“系统运行平稳,法官尤其是中、基层法院的法官高度认同,越用越喜欢并依赖这套系统来办理量刑规范化范围内的刑事案件”;“使用该系统后,法官办理量刑规范化案件的时间平均减少约50%,制作裁判文书的时间缩短约70%,制作程序性法律文书的时间减少近90%,大幅度减轻了法官量刑办案的工作量”......但同时我们不免担忧,这会不会造成法官审判时对智能裁判系统的过度依赖,从而产生司法惰性?

在法院,法官的考核与绩效一般是公正与效率,其中公正一般难以被量化,但效率量化的指标就具体很多,包括审判周期、办案量、上诉率等等;所以在绩效指标无法量化的情况下,法官主要依据自己的专业素养和道德操守来审判案件,一旦考核有了可操作性,作为理性人的法官也会不可避免地选择趋利避害。简言之,文书自动生成的智能化、格式化与高效率使得法官会不自觉选择“优化”自己的司法行为,而导致其尽可能俭省地填写文书模板所要求的必备内容,而不是用逻辑去努力说服当事人。但是,虽然当前人工智能已经具备了自主学习的能力,若要兼顾法律效果和社会效果这样的要求显然还是超越了它的能力,更不可能期待它作出类似于“马伯里诉麦迪逊案”这样的伟大裁决。尤其在现今司法改革充分强调裁判文书释法说理背景下,裁判论证与解释负担的加强对法官的司法能动性提出了更高的要求,所以裁判者必须对个案的异质性予以足够关注,并保持一定的自主性,避免对智能裁判的盲目崇拜与过度依赖。笔者认为,现行裁判文书自动生成系统中“左看右写”的独特设计,是符合审判的实际需要的,即法官可以对智能裁判所形成的文书初稿中每一项信息要素逐个确认,并在综合全案作出整体价值判断后对机器结果进行二次验证:若一致,则再进行充分的说理论证;如若考虑到个案差异而与机器裁决不一致,则需要更加谨慎地思考,必要时可以通过内部机制,最终作出符合《指导意见》的裁判文书。如此,方能充分实现数据信息与司法智慧结合的价值,并发挥出智能裁判的预期效用。

结语

大约从2013年开始,我国法院进入了以智能化为核心的“智慧法院”建设时期,也即在传统司法信息化建设的基础之上,进一步利用大数据与人工智能等前沿技术,推进人民法院在全业务、全方位和全流程上的智能化,这一点在司法裁判文书制作上的体现尤为明显:利用相关系统可以对起诉状、答辩状、庭审笔录、原审文书等材料进行文本分析和信息提取,再结合办案系统案件信息进行类似案件判断,从而基于法律规定与类案裁判结果,形成具体个案裁判文书的初稿。这一过程的优势在于其能够以规模性的数据经营分析隐藏在类似案件中的共性规律,从而形成规范化样例或标准化量度,避免了个人主观差异所带来的不确定和偏差,也即所谓的“同案不同判”问题。

但审视我国目前的裁判文书智能制作系统,其数据基础是否足够夯实与完备,并能实现真正的“同案同判”、“等量等罚”,这是值得我们思考的问题,也即技术理性与司法理性的碰撞与融合问题——司法大数据背景下的技术发展确实可以实现对相似案件的均等化处理,但所谓的“均值判断”是否即等同于公正?答案不得而知,即使在整个社会追求“同案同判”的价值基础上,也并未完全否定差异化判决的存在,且考虑到个案特殊正义的存在,差异化判决在司法运行过程中是允许的,有时甚至是必须的,这也恰恰体现了司法理性的价值所在,它在技术理性缺乏人的主体性与司法的能动性时,即可发挥弥补法律漏洞之功能。笔者认为,工具理性和技术力量的发展并不能替代司法的经验智慧和价值判断合理性,法官在书写裁判文书的过程中也应在技术利用与司法能动性间找到平衡,只有二者真正的融合,才能适应我国加强裁判文书释法说理改革之要求,并充分发挥出类案推送、裁判文书智能制作等数据系统的预期效用。