前言:
1月24日,正义网主办的以“智慧公诉”为主题的检察大数据沙龙在北京召开。
最高检检委会委员、公诉厅厅长陈国庆在主旨演讲中指出,大数据技术对提高公诉办案质量和效率具有重大意义,检察机关公诉部门将大力提高大数据技术的应用水平,为做好新时期检察公诉工作提供有力科技支撑。
活动中,来自检察系统的参会人员和专家学者代表围绕大数据如何为检察机关公诉工作提供科技支撑等问题进行了充分讨论,提出了很多新的理念和独道见解。
应用人工智能是各个行业发展的趋势,也是检察工作发展的趋势,人工智能在哪些方面可以为公诉工作服务呢?
根据我的思考,我现在谈谈我的看法:
一、卷宗数据化
公诉工作怎么应用人工智能呢?
首先要找到数据源,没有数据源巧妇难为无米之炊。
那么,什么是我们的数据源呢?
我们的数据源,就是我们的卷宗和法律文本,卷宗包括历史卷宗和在办案件卷宗,其中也包括刑事裁判文书。
我们的历史的卷宗怎么才能变成数据卷宗呢?
过去,我们经常提到电子卷宗。但是,电子卷宗的概念在不断的演变和进化,已经混乱了。最早的电子卷宗,是把卷宗扫描的图片称为电子卷宗。接下来进行OCR识别,形成文字版,把这个文字版也称为电子卷宗。
我们用大数据的思维去审视这个文字版的卷宗,那么,还没有到位,应该把我们汉字识别之后的电子卷宗进行数据化处理。为了区别开来,我把新的电子卷宗形式,称为数据卷宗。
那么,是什么形式呢?
从一个卷宗里的内容里抽取罪名、地点、手段、情节及量刑等诸多数据,保持关联性,存入数据库,这个时候的电子卷宗可以进行数据化处理,这就是我们的数据化卷宗的形式。
有了数据卷宗,我们就有了一个足够大的数据源,这个是大数据应用的基础。
有了这个基础,我们才可以更好的应用数据卷宗,开展各类大数据与人工智能的开发。
目前,我们检察机关案管部门接到卷宗,都需要用手工方法把案卷的基础数据录入软件,进行管理。这种方法效率低、数据类型少和数量小,严重地制约了我们对卷宗数据的应用和对案件的分析。如果有了制作数据化卷宗的手段,卷宗来了,先转化为数据卷宗。然后,就可以自动抽取案管部门需要的案件信息,人工方法需要一天完成的工作量几分钟就可以完成,甚至可以收集更多的信息。
数据化的卷宗应该怎么制作呢?
我们把卷宗、裁判文书和法律法规进行扫描识别,然后应用语义分析的分词软件程序,把卷宗中的文字按词汇进行分割,分出一个个的独立的词语,并且可以分出词性及褒贬,机器的智慧已经到了这种程度。
我用软件做了一个“交通肇事案”语义分析的测试,在分析中,既分出来了若干个基础的词汇,也分出常用固定连接词汇,如:“东湖”、“公安”、“分局”及合成词“东湖公安分局”等,形成实用性更强的有效词汇。
对所有文本进行分类,即进行词汇、词义的分类和人名等的分类,如:把案件中的证人、嫌疑人、被害人自动地全都抽取出来。也就是说,让机器认识人,并且知道他是什么角色。
然后是聚类,聚类可以把相同性质的词进入归类,相近语义的语句进行归类。比如:一个人供述自首的几种语言表达形式,归为一类。这就为我们接下来一些语义分析提供了最好的资源。
回想一下,各类论文都要我们写出关键词,这个关键词是什么用途?就是用于检索、搜索用的。有了分词软件,可以从文章自动找出无限多的关键词。比人工效率高、系统、全面。当然,检索起来也就需要有庞大的系统进行支持,这也是依赖于计算机技术的发展,有这个大数据处理的能力。这也就是在百度中搜索时,无论你输入的是文章中的一段话或是一个词都可以搜到这篇文章,无论词语是不是文章的重点,也都可以搜到,这也是因为百度对文章进行了全部分词。这个也是案件推送的基础。
这些基础工作形成的信息,要为之建立相应的字典库,如:法律法规库、卷宗库、裁决文书库及量刑库等等。
这时,历史卷宗都是以数据的形式存在。数据可检索、可关联、可抽取,为我们的数据应用提供基础,也提供了针对新卷宗抽取数据的方法策略。
我们在建立法律法规库的时候,要把所有罪名涉及的犯罪情节抽取出来以及量刑范围。
我们在建立量刑库的时候,就要把量刑对应元素在卷宗中出现的材料名称、位置和与之关联的提示性语句作做标记,并且把用于补充、印证的语句位置做好标记。
二、数据化卷宗的应用
数据化卷宗存在了,怎么应用呢?
具体的应用要做系统考虑。我的考虑是这个要以迭代的方式,从最简单的方式入手,一步步成长,一项项积累,直到全覆盖。下面我谈几点:
1、智能生成起诉书
我们先来分析一下起诉书所需要的元素。
起诉书第一段的自然概况和最后一段的法律适用是规范的格式,中间段落是证据和犯罪事实部分,这部分随案件不同存在变化。
自然概况和法律适用,可以从卷宗里面对应的书证、笔录及法律文本中抽取相应的元素。比如:强制措施种类与时间,可以从拘留证、逮捕证抽取。罪名对应的法律条文可以从法律文本库中抽取。
犯罪事实部分,不同的案件有不同的叙述形式,但是某一类案件都有它需要叙述的要点。这个要点是什么?这就是我们量刑所要必备的量刑情节。我们在叙述案情部分一定要围绕法律法规所涉及的量刑要点去叙述。
新卷宗到手,人工机智程序就可以按照库中的标记以及机器理解的范围进行查找和抽取新卷宗中犯罪情节元素,最后把这些情节元素以流畅的语言形式表述出来。
文书的语言风格也不需要有过多担心。2017年1月春运期间,《南方都市报》开发出的一款人工智能机器人,在给定新闻素材后,不到一分钟就把新闻稿写出来了,语言的流畅程度可与优秀的记者媲美。按照这个构想所有的法律文书都可以制作完成。
这时,开始有人担心了,我们的检察官要做什么?
我们的检察官就是审查正确与否,对不准确的稍加修改就可以了。
这里涉及的案件信息的抽取手段,在人工智能学习历史卷宗的过程中,就已经学会了,这里主要是应用。
2、大数据量刑
先介绍一下我们大庆市让胡路区检察院开发的一款量刑软件。我们的软件,在手动选取犯罪情节后,可以对15种罪名进行电脑自动量刑。这是依据最高法下发的量刑规范编写的软件。
一般来想来,量刑情节是交错的、复杂的。其实,深入到分析过程中会发现,量刑情节是一个有序叠加的过程。就是加刑情节和减刑情节,哪些是刑期相加、哪些是相减都有据可依,然后再依据总则对全案刑期进行比例增减。对于有列举量刑情形的罪名,按照相应的公式可以计算得到刑期。
针对最高法量刑规范中明确的15种罪名的犯罪情节与量刑关系的量刑,简单些。
要做大数据量刑,需要怎样做?
第一步,犯罪情节的刑期量化
那就是应用人工智能的方法。把某一个罪名的几千本卷宗让机器学习一下,把相应的犯罪情节及其对应的量刑刑期列举出来,通过建立数学模型对每一种情节的刑期进行量化,具备这些条件,就可以进行基于大数据的量刑了。
第二步,找到犯罪情节
通过大数据的方式,在法律法规库中找到罪名对应的犯罪情节特征,然后从新卷宗中抽取犯罪情节。
第三步,代入公式计算
就是把对应犯罪情节的刑期进行加减,并由总则对之进行比例调整。
这样就完成了对一个新案件的大数据量刑。
3、智能摘录证据
工作中想要摘卷宗中某个证人叙述的情节,我们若翻卷宗,特别是内容比较多的卷宗,找起来效率低。有了数据化卷宗,我们可以应用查询功能,直接定位到这段话的位置,如同百度搜索一样,因为百度搜索也是应用的语义分析的技术。找到的文本内容可以复制,可以进行分析和比较。证据摘录达到一定程度,机器通过对此过程的学习,也可以进化为自动摘录的工具,把我们摘录的习惯学会,机器自动摘录。并且智能区分摘录有罪证据、无罪证据,加刑证据、减刑证据,从轻证据、从重证据。
人不需要再做这些事,机器帮我们把这些事做了。人不再做这些手工的事,人只是用智慧审查证据。
4、智能讯问
机器通过对证据摘录和证据分析行为的学习,就会知道哪些是加重刑罚的证据,哪些是减轻的证据。具有了一定的证据分析鉴别能力之后,就可以进行智能讯问了。
用历史卷宗对机器进行训练,可以识别出,嫌疑人在交待关键问题时,此前的若干铺垫性问话是什么。也可以识别出嫌疑人翻供的有效应对是什么。也知道哪些是加重刑罚的供述要问,哪些是减轻刑罚的辩解要听。由人工智能汇总分析这些问话,找到规律和适用场景,在新的讯问中,就可以依据需要使用这种语言和策略。常规的、规律性的问话,对机器来说不难做到,也看不出比人高明。只有在处理复杂问题时,才可以体现它的优势。
5、定罪分析
法律的分析逻辑是三段论,也就是通过由法律规定、案件事实得出结论的过程。
当证据分析的能力有了,案件事实的认定能力就有了。有了法律与事实两个大小前提,得到有罪与否,构成哪个犯罪,就可以做到了。这个分析的过程,再制作出文字的论述过程,这就是审查报告了。
6、多维度推送
多维度推送,最大的特点是:给你想要的。
在你办理案件时,人工智能分析你的经历、知识体系及参考案件需要,想你所想,推送给你所想要查阅的卷宗、法律。
(1)按案件难点推送
人工智能识别出案件的难点所在,在历史卷宗中,找到类案进行推送,供我们参考。如果不是难点,推送过来是没有必要的。
(2)延伸思考推送
无论你办哪一类案件,人工智能每次都推送一个未成年人此类犯罪的案件给你。那么,大量信息冲击的结果,就会引发你对未成年犯罪的思考与调研。总之,这是基于全卷宗每个词都是关键词的基础上,进行有益于兴趣阅读的教学模式的推送。形成办案与教学培训相得益彰的效果。
(3)补充知识体系
当你在办理抢劫案时,但卷宗中涉及嫌疑人是累犯,可能就会推送其他类型犯罪含有累犯的案件。也可能补充学习的是涉案的金融知识或是行政法规。总的来说,是人工智能侦测到你知识体系的不足,有目的向你推送。
(4)动态推送
在你的办案主界面不变情况下,每次鼠标有移动,都可以触发推送的更新。让你有更多机会见到你希望看到的推送。有些即便你不点开,也可能产生灵感触动。