【论文阅读】中国法研杯司法考试数据集研究（CAIL）

英文标题：JEC-QA: A Legal-Domain Question Answering Dataset
中文标题：法律领域问答数据集
论文下载：arxiv@1911.1
项目地址：GitHub@CAIL
比赛链接：CAIL@司法考试

序言

本论文是关于中国法律智能技术评测比赛中司法考试任务数据集的构成与一些测试模型的评估。在上面的项目地址GitHub@CAIL中已有测试模型，但是它完全没有应用到数据集中给到的参考书目文档，笔者在阅读本论文前认为参考书目文档可能可以用于数据增强，或用于构建知识图谱以预训练得到更好的题干及选项的语义表示。诸多尝试后，笔者决定还是先参考原作者已完成的工作，事实上原作者是将司法考试任务视为阅读理解任务来评估的，其中使用到ElasticSearch\text{ElasticSearch}ElasticSearch检索以及多级推理等技术，这意味着该任务的解决思路将会十分开阔，但是该任务本身的困难程度是非常高的，因为目前机器做题的成绩远远差于普通人类的水平。

笔者建议对该任务感兴趣的朋友可以先阅读本文以熟悉前人的解决思路，然后再加以改进并测试。项目地址GitHub@CAIL中的基线模型的正确率大约为26%26\%26%，这已经足以通过该评测任务第一阶段的测试了。

其实这个任务目前也没有多少队伍在做，笔者只是对这个话题非常感兴趣，所以花了一些功夫。个人觉得对参考书目文档的预处理是非常重要的，其中有许多冗余的信息，然后数据集中的subject字段是存在缺失的，而这个字段其实对信息检索是非常有帮助的，所以需要额外训练模型对该字段进行预测，这个笔者之前也想到了，在本论文中原作者也强调了这一点的必要性。

文章目录

序言摘要 Abstract\text{Abstract}Abstract111 引入 Introduction\text{Introduction}Introduction222 相关工作 RelatedWork\text{Related Work}RelatedWork2.12.12.1 阅读理解 ReadingComprehension\text{Reading Comprehension}ReadingComprehension2.2\text{2.2}2.2 开放领域问答 Open-domainQuestionAnswering\text{Open-domain Question Answering}Open-domainQuestionAnswering2.32.32.3 法律智能 LegalIntelligence\text{Legal Intelligence}LegalIntelligence333 数据集构成与分析 DatasetConstructionandAnalysis\text{Dataset Construction and Analysis}DatasetConstructionandAnalysis3.13.13.1 数据集构成 DatasetConstruction\text{Dataset Construction}DatasetConstruction3.23.23.2 推理类型 ReasoningTypes\text{Reasoning Types}ReasoningTypes444 实验 Experiments\text{Experiments}Experiments4.14.14.1 检索策略 RetrieveStrategy\text{Retrieve Strategy}RetrieveStrategy4.24.24.2 实验配置 ExperimentSettings\text{Experiment Settings}ExperimentSettings4.34.34.3 基线 Baselines\text{Baselines}Baselines4.44.44.4 实验结果 ExperimentalResults\text{Experimental Results}ExperimentalResults4.54.54.5 比较分析 ComparativeAnalysis\text{Comparative Analysis}ComparativeAnalysis4.64.64.6 案例分析 CaseStudy\text{Case Study}CaseStudy555 结论 Conclusion\text{Conclusion}Conclusion666 致谢 Acknowledgements\text{Acknowledgements}Acknowledgements附录A\text{A}A：参考文献后记

摘要 Abstract\text{Abstract}Abstract

本文提出目前规模最大的法律领域问答数据集JEC-QA\text{JEC-QA}JEC-QA，数据源为中国国家司法考试（National Judicial Examination of China，下简称为NJEC\text{NJEC}NJEC）真题，每年NJEC\text{NJEC}NJEC的通过率约为10%10\%10%。

司法考试中通常需要检索相关法条以完成答题，这属于逻辑推理的过程，因此常规的问答模型在JEC-QA\text{JEC-QA}JEC-QA数据集上的表现并不是很好，最先进的问答模型也只能取得28%28\%28%的正确率，而专业人员平均能够达到81%81\%81%的正确率，即便是非专业人员稍加训练一般也能达到64%64\%64%的正确率，因此人类与机器在司法考试任务上的表现差异巨大。

JEC-QA\text{JEC-QA}JEC-QA数据集可以从官网获得：该数据集需要发送邮件向原作者申请获得，如果急需使用的可以通过笔者分享的链接下载👇

链接: /s/1vDvklLaFFqNtT7T9-mZ0iw 提取码: s3u5

此外，JEC-QA\text{JEC-QA}JEC-QA比CAIL@司法考试提供的数据集更加完整，两者训练集完全相同，但JEC-QA\text{JEC-QA}JEC-QA中额外提供测试集与法学参考教材的文档数据。

111 引入 Introduction\text{Introduction}Introduction

法律问答（Legal Question Answering，下简称为LQA\text{LQA}LQA）旨在为法律问题提供解释，建议以及解决方案。合格的LQA\text{LQA}LQA系统不仅可以为非专业人员提供专业咨询服务，而且还能帮助专业人员提高工作效率（如更加准确地分析真实案件）。

LQA\text{LQA}LQA的两大难点：

① 高质量的LQA\text{LQA}LQA训练数据集稀缺；

② 法律领域的案例与问题都是复杂且细致的；

大部分LQA\text{LQA}LQA问题可以划分为两种典型的类别，如Table 1所示：

①知识驱动的（knowledge-driven，下简称为KD\text{KD}KD）问题：理解特定法律概念；

②案例分析的（case-analysis，下简称为CA\text{CA}CA）问题：分析真实案件；

两类问题都要求模型具有复杂推理能力与文本理解能力，因此LQA\text{LQA}LQA是自然语言处理中非常困难的任务。

JEC-QA\text{JEC-QA}JEC-QA数据集概述：

① 数据集中共计263652636526365条多项选择题，每条选择题包含444个选项，规模是参考文献[23][23][23]中数据集的505050倍；

② 数据集中包含一套全国统一法律职业资格考试辅导书和中国法律规定构成的参考书目文档（详见JEC-QA\text{JEC-QA}JEC-QA数据集中reference_book\text{reference\_book}reference_book目录下的内容）；

③ 数据集中标注了部分问题所属的KD\text{KD}KD和CA\text{CA}CA类别，以及问题所属的法律类型（如属于国际经济法问题，刑法问题等），如何由专家提供的额外标签对LQA\text{LQA}LQA的深度分析是很有帮助的；

原作者可能是希望我们从JEC-QA\text{JEC-QA}JEC-QA的参考书目中检索相关文档，再使用阅读理解模型来回答相关问题，其中又涉及单词匹配（word matching），概念理解（concept understanding），数词分析（numerical analyis），多段落阅读（multi-paragraph reading），多级推理（multi-hop reasoning）等技术。

以Figure 1为例，图中描述的是一种犯罪行为导致两种不同的犯罪类型，要求模型必须理解Motivational Concurrence并推理出除单词级别的语义匹配（lexical-level semantic matching）外的其他证据。此外，模型需要通过多段落阅读与多级推理来结合直接证据和其他证据来回答问题，数词分析需要被用来比较哪一种犯罪行为是更加严重的。

本文设计了统一的问答架构并实现了777种代表性的神经阅读理解模型，通过将这些方法在JEC-QA\text{JEC-QA}JEC-QA数据集上进行测试，发现最好的方法也只能取得大约25%25\%25%和29%29\%29%的正确率（分别在KD\text{KD}KD和CA\text{CA}CA问题类别上），该水平远远低于人类的表现。实验结果表明现存的问答方法无法在JEC-QA\text{JEC-QA}JEC-QA上进行复杂的多级推理，并且难以理解法律概念。

222 相关工作 RelatedWork\text{Related Work}RelatedWork

2.12.12.1 阅读理解 ReadingComprehension\text{Reading Comprehension}ReadingComprehension

阅读理解数据集（近十年内提出）：

① 相对早期的数据集（至）：基于以下数据集，参考文献[11,42,43,52][11,42,43,52][11,42,43,52]中都提出了不同的深度阅读理解模型并取得很好的评估结果。

CNN/DailyMail\text{CNN/DailyMail}CNN/DailyMail：参考文献[17][17][17]

MCTest\text{MCTest}MCTest：参考文献[35][35][35]

SQuAD\text{SQuAD}SQuAD：参考文献[33][33][33]

WikiQA\text{WikiQA}WikiQA：参考文献[50][50][50]

NewsQA\text{NewsQA}NewsQA：参考文献[39][39][39]

② 回答问题涉及概括多篇不同文本的数据集（至）：基于以下数据集，参考文献[07,44,45,47][07,44,45,47][07,44,45,47]提出汇总多文本信息的技术。

TrivialQA\text{TrivialQA}TrivialQA：参考文献[21][21][21]

MS-MARCO\text{MS-MARCO}MS-MARCO：参考文献[31][31][31]

DuReader\text{DuReader}DuReader：参考文献[16][16][16]

③ 回答问题涉及逻辑推理的数据集（至）：目前依然缺乏具有逻辑推理能力的阅读理解模型。

RACE\text{RACE}RACE：参考文献[28][28][28]

HotpotQA\text{HotpotQA}HotpotQA：参考文献[49][49][49]

ARC\text{ARC}ARC：参考文献[07][07][07]

2.2\text{2.2}2.2 开放领域问答 Open-domainQuestionAnswering\text{Open-domain Question Answering}Open-domainQuestionAnswering

开放领域问答（下简称为OpenQA\text{OpenQA}OpenQA）的概念在参考文献[14][14][14]种首次提出，其旨在借助外部知识库来回答问题，早期的研究一般借助人工收集的知识文档（参考文献[03,27,41][03,27,41][03,27,41]），近年来多借助结构化的知识库（参考文献[01,02,53][01,02,53][01,02,53]）。

OpenQA\text{OpenQA}OpenQA模型的设计一般分为两部分，首先阅读可供检索的材料，然后进行答案的选择或挖掘。若没有文档级别的标注信息，一般需要借助无监督的信息检索方法，如TF-IDF\text{TF-IDF}TF-IDF或BM25\text{BM25}BM25检索算法，但是这些方法一般只能处理文档与问题间单词级别的相似度，而难以挖掘出两者语义上的关联性。

因此近期的方法（参考文献[07,29,46][07,29,46][07,29,46]）都是首先对文档重排序以过滤掉噪声内容，尽管这些方法已经在某些场景下取得了超越人类水平的性能，但是他们依然缺乏推理能力。

2.32.32.3 法律智能 LegalIntelligence\text{Legal Intelligence}LegalIntelligence

参考文献[51][51][51]：生成法庭意见（generating court views）来解释判决结果（interpret charge results）。

参考文献[06,32][06,32][06,32]：检索相关或类似的案件。

参考文献[15,18,30,37,48,55][15,18,30,37,48,55][15,18,30,37,48,55]：预测判决结果以及确定适用条款（applicable articles）。

参考文献[12,13,23,24][12,13,23,24][12,13,23,24]：法律问答竞赛及相关研究成果。

尽管如此，可用的LQA\text{LQA}LQA系统依然很遥远。

333 数据集构成与分析 DatasetConstructionandAnalysis\text{Dataset Construction and Analysis}DatasetConstructionandAnalysis

3.13.13.1 数据集构成 DatasetConstruction\text{Dataset Construction}DatasetConstruction

如前文所述，JEC-QA\text{JEC-QA}JEC-QA数据集中包含题库和参考书目文档两部分内容。

题库：题库中共计270027002700条多项选择题（数据源为至NJEC\text{NJEC}NJEC真题）与303713037130371条来自各类考试网站的练习题，去重后剩余263652636526365条题目构成JEC-QA\text{JEC-QA}JEC-QA的题库。

笔者注：笔者在本博客摘要章节提供了数据集的下载链接，题库由JSON\text{JSON}JSON数据形式构成，每个问题包含六个字段，如下所示：

题库的统计信息可见Table 2：

参考书目文档：参考书目文档由司法考试辅导书和法律规定构成，共计151515个专题，215215215个章节的考试内容提要，338233823382条法律规定。

注意这部分文档并非利用OCR\text{OCR}OCR技术图像转文字得到，而是确实地耗费人工手动转成电子版本，文档段落已做好划分。

参考书目的统计信息可见Table 3：

3.23.23.2 推理类型 ReasoningTypes\text{Reasoning Types}ReasoningTypes

本文总结了555种不同的推理类型用于解答JEC-QA\text{JEC-QA}JEC-QA中的问题，示例详见Table 4：

①单词匹配（word matching）：通过单词级别的匹配度确定相关性最高的文档段落，并从中检索有助于解题的信息；

②概念理解（concept understanding）：法律领域存在大量专有名词，如Table 4示例中模型需要理解的principal offender的含义；

③数词分析（numerical analyis）：量刑标准通常涉及简单的数字运算，如Table 4示例中的模型需要得出12×13=4<512\times\frac13=4<512×31=4<5的证明结论；

④多段落阅读（multi-paragraph reading）：综合不同段落的文档推导出问题答案；

⑤多级推理（multi-hop reasoning）：从Table 4可以发现，66%66\%66%的CA\text{CA}CA问题需要多级推理能力；

笔者注：多级推理是目前NLP中非常热门的话题，以multi-hop或reason为关键词检索ACL或EMNLP近两年收录的论文中可以寻得大量相关内容，笔者已知的方法如通过树形证明图来构建逻辑推理的过程，这类任务往往不仅要求得到正确的答案，并且需要给出推导出答案的证据（即证明过程），而图的构建往往会涉及算法分析以及运筹规划的方法，论文链接如下：

论文标题：PRover: Proof Generation for Interpretable Reasoning over Rules中文标题：通过在规则上进行可解释的推理生成证明过程论文下载地址：.emnlp-main.9\text{.emnlp-main.9}.emnlp-main.9论文项目地址：GitHub@PRover\text{GitHub@PRover}GitHub@PRover

@inproceedings{sahaprover,title={{PR}over: Proof Generation for Interpretable Reasoning over Rules},author={Saha, Swarnadeep and Ghosh, Sayan and Srivastava, Shashank and Bansal, Mohit},booktitle={EMNLP},year={}}

444 实验 Experiments\text{Experiments}Experiments

本文主要实现了OpenQA\text{OpenQA}OpenQA方法框架并在JEC-QA\text{JEC-QA}JEC-QA数据集上评估模型性能。OpenQA\text{OpenQA}OpenQA方法框架的解题思路分为两步：首先检索相关段落，然后再使用解题模型给出答案。

4.14.14.1 检索策略 RetrieveStrategy\text{Retrieve Strategy}RetrieveStrategy

本文使用ElasticSearch\text{ElasticSearch}ElasticSearch（笔者编写的ElasticSearch6\text{ElasticSearch6}ElasticSearch6简易教程）对参考书目文档进行检索，注意参考书目文档的层次架构是比较清晰的，因此直接将内容存入ElasticSearch\text{ElasticSearch}ElasticSearch搜索引擎即可（需要标注章节标题和其他标签），此外问题的每个选项都需要分别检索，因为它们往往指向完全不同的文档内容。

本文为了缩小检索范围并降低噪声数据带来的影响，需要首先确定问题所属的法律类型（即题库中的subject字段，经过观察发现该字段一共包含151515种不同的类型，刚好可以与参考书目文档的151515个专题相匹配）。这里原作者测试了三种典型模型：

① BERT\text{BERT}BERT（参考文献[10][10][10]）

② TextCNN\text{TextCNN}TextCNN（参考文献[25][25][25]）

③ DPCNN\text{DPCNN}DPCNN（参考文献[20][20][20]）

在问题所属法律类型预测上的性能，实验结果如Table 5所示：

实验结果显示，平均而言BERT\text{BERT}BERT表现出最好的预测性能，因此本文采用BERT\text{BERT}BERT作为话题分类器（topic classifier），选取与题目相关度最高的222个法律类型下的文档进行检索，并从中分别检索出KKK个相关度最高的段落用于解题，另外还将从法律法规文档中检索KKK个相关度最高的段落，共计检索出3K3K3K个段落。本文设定超参数K=6K=6K=6用于实验评估（原因详见4.54.54.5节中的比较分析）。

本文为了评估检索策略的性能，随机选取377377377个问题进行人工标注，每个问题标注333种标签之一：

① AllHit\text{All Hit}AllHit（下简称为AH\text{AH}AH）：即每个相关段落都被成功检索出来；

② PartialMiss\text{Partial Miss}PartialMiss（下简称为PM\text{PM}PM）：即部分相关段落未能检索出来；

③ AllMiss\text{All Miss}AllMiss（下简称为AM\text{AM}AM）即所有相关段落都未能检索出来；

评估结果如Table 6所示：

实验结果显示，大约46%46\%46%的问题都可以根据检索得到的材料正确地被作答，KD\text{KD}KD问题的命中率显著高于CA\text{CA}CA问题，因为前者通常与特定的概念相关联，因此可以更容易地进行检索。

4.24.24.2 实验配置 ExperimentSettings\text{Experiment Settings}ExperimentSettings

本文采用控制变量法在各种问答模型上进行比较实验，采用fastText\text{fastText}fastText方法（参考文献[22][22][22]）在大规模法律领域语料集上预训练词向量，所有模型的词向量维度都是w=200w=200w=200，隐层节点数量为d=256d=256d=256

本文设计的统一问答架构说明：

① 框架的输入为三元组(q,o,r)(q,o,r)(q,o,r)，分别表示题干，选项和检索得到的段落：

q=(q1,q2,...,q∣q∣)q=(q_1,q_2,...,q_{|q|})q=(q1,q2,...,q∣q∣)是经过分词处理后的单词序列；o=((o1,1,o1,2,...,o1,∣o1∣),...,(on,1,on,2,...,on,∣o1∣)o=((o_{1,1},o_{1,2},...,o_{1,|o_1|}),...,(o_{n,1},o_{n,2},...,o_{n,|o_1|})o=((o1,1,o1,2,...,o1,∣o1∣),...,(on,1,on,2,...,on,∣o1∣)是经过分词处理后的选项序列，在本题库的背景下nnn恒等于444，即问题选项数量总是为444个；假设每个选项检索得到m=3K=18m=3K=18m=3K=18个相关段落，ri,jr_{i,j}ri,j表示第iii个选项的第jjj个段落，即有ri,j=(ri,j,1,ri,j,2,...,ri,j,∣ri,j∣)r_{i,j}=(r_{i,j,1},r_{i,j,2},...,r_{i,j,|r_{i,j}|})ri,j=(ri,j,1,ri,j,2,...,ri,j,∣ri,j∣)，其中1≤i≤n,1≤j≤m1\le i\le n,1\le j\le m1≤i≤n,1≤j≤m；

② 框架的输出分为两种不同的任务：

对于单选题而言，本质是一个444分类问题，因此输出即为scoresingle∈Rn\text{score}^{\rm single}\in\R^nscoresingle∈Rn，表示每个选项正确的概率；对于多选题而言，所有可能的输出结果就是2n−12^n-12n−1种不同的情况，因此输出即为scoremulti∈R2n−1\text{score}^{\rm multi}\in\R^{2^n-1}scoremulti∈R2n−1，表示每种选项组合正确的概率；笔者注：其实这是一件很有趣的问题，官方提供的示例代码中选择将四个选项分别表示为1,2,4,81,2,4,81,2,4,8，然后加和得到对应的答案标签值，这类似于Linux\text{Linux}Linux中权限设置指令umask\text{umask}umask的语法逻辑。可能有人会问为什么不直接输出一个444维向量（表示每个选项正确的概率），然后设定一个概率阈值来筛选出多选题的答案不就完事了，感觉上似乎也是可行且更加合理，而且更加容易实现，但是原作者的观点是这样的效果显然会稍差于输出151515维向量，而且事实上是很难通过传统的多分类激活函数SoftMax\text{SoftMax}SoftMax来实现的，因为本质上其实是需要做444次二分类。

考虑到部分问答模型无法适用于上述的方法框架，本文对这些方法做了一些调整：

若原模型只接受题干和检索段落作为输入（即不输入问题选项），则将题干和每个选项分别拼接后输入原模型，原模型将会输出第iii个选项的得分sis_isi，如此输入444次即可得到所有选项的得分向量，相当于把选择题当成444个判断题来解答。若原模型是设计用于从检索段落中挖掘答案的句子，则将模型的输出层修改为一个线性层，使得能够输出每个选项的得分（这个笔者没有搞明白是什么意思，猜测可能是将选项添加到检索段落中去，然后得到选项的得分）。若原模型是设计用于多段落阅读理解任务，则将模型分别应用于问题的每个选项对应的m=3K=18m=3K=18m=3K=18个检索段落，原模型将会针对第iii个选项的第jjj个段落输出隐层表示hi,j∈Rdh_{i,j}\in\R^dhi,j∈Rd，然后对同一选项的所有隐层表示进行最大值池化（max-pooling），从而获得第iii个选项的隐层表示hi′=[hi,1′,hi,2′,...,hi,d′]h_i'=[h_{i,1}',h_{i,2}',...,h_{i,d}']hi′=[hi,1′,hi,2′,...,hi,d′]，其中hi,j′=max⁡(hi,k∣∀1≤k≤m)h_{i,j}'=\max(h_{i,k}|\forall 1\le k\le m)hi,j′=max(hi,k∣∀1≤k≤m)，最后将hi′h_i'hi′输出到线性层以获得第iii个选项的得分。大部分原模型都是针对单选题的，对于多选题而言，在scoresingle\text{score}^{\rm single}scoresingle后面添加一个线性层（从444维映射到151515维）即可得到多选题的向量值scoremulti\text{score}^{\rm multi}scoremulti，其实笔者觉得这个做法不太说得通的，个人觉得不如人工设定阈值更加合理，我想可能说[0,0,0,1][0,0,0,1][0,0,0,1]和[0.2,0.2,0.2,0.4][0.2,0.2,0.2,0.4][0.2,0.2,0.2,0.4]所代表的单选题答案都是D\rm DD，但是显然它们在同一个线性层权重下大概率指向完全不同的多选题的选项组合。

本文使用的优化器为Adam\text{Adam}Adam（参考文献[26][26][26]），特别地对BERT\text{BERT}BERT模型使用BertAdam\text{BertAdam}BertAdam优化器（参考文献[10][10][10]）。

本文划分20%20\%20%的数据作为测试集。

4.34.34.3 基线 Baselines\text{Baselines}Baselines

本文使用的777个代表性的阅读理解问答基线模型：

4.44.44.4 实验结果 ExperimentalResults\text{Experimental Results}ExperimentalResults

实验结果详见Table 7：

结果显示最好的模型在多选题上也只能取得28.63%28.63\%28.63%的正确率，这与非专业人员64%64\%64%的水平相差甚远（人类可以阅读同样的参考文档），而非专业人员与专业人员在CA\text{CA}CA问题上的表现差距非常大，原因是非专业人员检索得到的段落不足以解题，因此检索质量是解题正确率的重要因素。

虽然CA\text{CA}CA问题的表现显著低于KD\text{KD}KD问题，但是事实上CA\text{CA}CA问题中涉及的概念都要比KD\text{KD}KD问题中的简单（如抢劫、盗窃、谋杀等），所以前者检索起来会更加容易。尽管如此，现存的方法在概念理解上的表现都很差。

4.54.54.5 比较分析 ComparativeAnalysis\text{Comparative Analysis}ComparativeAnalysis

本文针对表现较好的Co-matching\text{Co-matching}Co-matching模型进一步深层分析，实验结果详见Table 8：

结果显示即便在给定充足相关段落的条件下，现存的模型也只能正确回答32%32\%32%的问题，这意味着模型无法完全理解相关材料，注意到模型在多级推理和多段落阅读理解上的CA\text{CA}CA问题表现尤其差。

不同KKK值的表现如Table 9所示：

结果显示K=6K=6K=6是一个较为经济且高效的选择。

4.64.64.6 案例分析 CaseStudy\text{Case Study}CaseStudy

如Table 10所示，这是一个需要多级推理的例题：

无需阅读题干，就会发现选项D\rm DD与其他三个选项是冲突的，而现存的方法不具备发现冲突的选项的能力。

进一步地，若忽视选项D\rm DD，现存的模型依然会选择所有其他选项，事实上正确选项只有C\rm CC，原因是现存的模型只能实现一级推理，只要阅读相关段落，发现犯罪主体的年龄低于161616岁，即可排除选项A\rm AA和选项B\rm BB。因此多级推理能力的训练是必要的。

555 结论 Conclusion\text{Conclusion}Conclusion

In this work, we present JEC-QA as a new and challenging dataset for LQA, and JEC-QA is the largest dataset in LQA. Both retrieving documents and answering questions in JEC-QA require multiple types of reasoning ability, and our experimental results show that existing state-of-the-art models cannot perform well on JEC-QA. We hope our JEC-QA can benefit researchers on improving the reasoning ability of reading comprehension and QA models, and also making advances for legal question answering. In the future, we will explore how to improve the reasoning ability of question answering model and integrate legal knowledge into question answering, which are necessary for answering questions in JEC-QA.

总结就是现存的方法不能在JEC-QA\text{JEC-QA}JEC-QA上有好的表现，期待大家在该数据集上进一步的研究。

666 致谢 Acknowledgements\text{Acknowledgements}Acknowledgements

This work is supported by the National Key Research and Development Program of China (No. YFC0831900) and the National Natural Science Foundation of China (NSFC No. 61572273, 61661146007)

附录A\text{A}A：参考文献

[01] Berant, J.; Chou, A.; Frostig, R.; and Liang, P. . Semantic parsing on freebase from question-answer pairs. In Proceedings of EMNLP.
[02] Bordes, A.; Usunier, N.; Chopra, S.; and Weston, J. . Large-scale simple question answering with memory networks. arXiv preprint arXiv:1506.02075.
[03] Chen, T., and Van Durme, B. . Discriminative information retrieval for question answering sentence selection. In Proceedings of EACL.
[04] Chen, D.; Fisch, A.; Weston, J.; and Bordes, A. . Reading wikipedia to answer open-domain questions. In Proceedings of ACL.
[05] Chen, Z.; Cui, Y.; Ma, W.; Wang, S.; and Hu, G. . Convolutional spatial attention model for reading comprehension with multiple-choice questions. In Proceedings of AAAI.
[06] Chen, Y.-L.; Liu, Y.-H.; and Ho, W.-L. . A text mining approach to assist the general public in the retrieval of legal documents. Journal of ASIS&T 64(2):280–290.
[07] Clark, C., and Gardner, M. . Simple and effective multi-paragraph reading comprehension. In Proceedings of ACL.
[08] Clark, P.; Cowhey, I.; Etzioni, O.; Khot, T.; Sabharwal, A.; Schoenick, C.; and Tafjord, O. . Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457.
[09] Cui, Y.; Chen, Z.; Wei, S.; Wang, S.; Liu, T.; and Hu, G. . Attention-over-attention neural networks for reading comprehension. In Proceedings of ACL.
[10] Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. . Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[11] Dhingra, B.; Liu, H.; Yang, Z.; Cohen, W. W.; and Salakhutdinov, R. . Gated-attention readers for text comprehension. In Proceedings of ACL.
[12] Do, P.-K.; Nguyen, H.-T.; Tran, C.-X.; Nguyen, M.-T.; and Nguyen, M.-L. . Legal question answering using ranking svm and deep convolutional neural network. arXiv preprint arXiv:1703.05320.
[13] Fawei, B.; Pan, J. Z.; Kollingbaum, M.; and Wyner, A. Z. . A methodology for a criminal law and procedure ontology for legal question answering. In Proceedings of JIST.
[14] Green Jr, B. F.; Wolf, A. K.; Chomsky, C.; and Laughery, K. 1961. Baseball: an automatic question-answerer. In Proceedings of IRE-AIEE-ACM.
[15] He, C.; Peng, L.; Le, Y.; and He, J. a. Secaps: A sequence enhanced capsule model for charge prediction. arXiv preprint arXiv:1810.04465.
[16] He, W.; Liu, K.; Liu, J.; Lyu, Y.; Zhao, S.; Xiao, X.; Liu, Y.; Wang, Y.; Wu, H.; She, Q.; et al. b. Dureader: a chinese machine reading comprehension dataset from real-world applications. In Proceedings of ACL workshop.
[17] Hermann, K. M.; Kocisky, T.; Grefenstette, E.; Espeholt, L.; Kay, W.; Suleyman, M.; and Blunsom, P. . Teaching machines to read and comprehend. In Proceedings of NIPS.
[18] Hu, Z.; Li, X.; Tu, C.; Liu, Z.; and Sun, M. . Few-shot charge prediction with discriminative legal attributes. In Proceedings of COLING.
[19] Jia, R., and Liang, P. . Adversarial examples for evaluating reading comprehension systems. In Proceedings of EMNLP.
[20] Johnson, R., and Zhang, T. . Deep pyramid convolutional neural networks for text categorization. In Proceedings of ACL.
[21] Joshi, M.; Choi, E.; Weld, D. S.; and Zettlemoyer, L. . Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551.
[22] Joulin, A.; Grave, E.; Bojanowski, P.; Douze, M.; J´egou, H.; and Mikolov, T. . Fasttext. zip: Compressing text classification models. In Proceedings of ICLR.
[23] Kim, M.-Y.; Goebel, R.; Kano, Y.; and Satoh, K. . Coliee-: evaluation of the competition on legal information extraction and entailment. In Proceedings of JURISIN.
[24] Kim, M.-Y.; Lu, Y.; Rabelo, J.; and Goebel, R. . Coliee-: Evaluation of the competition on case law information extraction and entailment.
[25] Kim, Y. . Convolutional neural networks for sentence classification. In Proceedings of EMNLP.
[26] Kingma, D., and Ba, J. . Adam: A method for stochastic optimization. In Proceedings of ICLR.
[27] Kwok, C.; Etzioni, O.; and Weld, D. S. 2001. Scaling question answering to the web. ACM Transactions on Information Systems.
[28] Lai, G.; Xie, Q.; Liu, H.; Yang, Y.; and Hovy, E. . RACE: Large-scale reading comprehension dataset from examinations. In Proceedings of EMNLP.
[29] Lin, Y.; Ji, H.; Liu, Z.; and Sun, M. . Denoising distantly supervised open-domain question answering. In Proceedings of ACL.
[30] Luo, B.; Feng, Y.; Xu, J.; Zhang, X.; and Zhao, D. . Learning to predict charges for criminal cases with legal basis. In Proceedings of EMNLP.
[31] Nguyen, T.; Rosenberg, M.; Song, X.; Gao, J.; Tiwary, S.; Majumder, R.; and Deng, L. . Ms marco: A human generated machine reading comprehension dataset. arXiv preprint arXiv:1611.09268.
[32] Raghav, K.; Reddy, P. K.; and Reddy, V. B. . Analyzing the extraction of relevant legal judgments using paragraph-level and citation information. In Proceedings of ECAI.
[33] Rajpurkar, P.; Zhang, J.; Lopyrev, K.; and Liang, P. . Squad: 100,000+ questions for machine comprehension of text. In Proceedings of EMNLP.
[34] Rajpurkar, P.; Jia, R.; and Liang, P. . Know what you don’t know: Unanswerable questions for squad. In Proceedings of ACL.
[35] Richardson, M.; Burges, C. J.; and Renshaw, E. . Mctest: A challenge dataset for the open-domain machine comprehension of text. In Proceedings of EMNLP.
[36] Seo, M.; Kembhavi, A.; Farhadi, A.; and Hajishirzi, H. . Bidirectional attention flow for machine comprehension. In Proceedings of ICLR.
[37] Shen, Y.; Sun, J.; Li, X.; Zhang, L.; Li, Y.; and Shen, X. . Legal article-aware end-to-end memory network for charge prediction. In Proceedings of ICCSE.
[38] Tang, M.; Cai, J.; and Zhuo, H. H. . Multi-matching network for multiple choice reading comprehension. In Proceedings of AAAI.
[39] Trischler, A.; Wang, T.; Yuan, X.; Harris, J.; Sordoni, A.; Bachman, P.; and Suleman, K. . Newsqa: A machine comprehension dataset. arXiv preprint arXiv:1611.09830.
[40] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, Ł.; and Polosukhin, I. . Attention is all you need. In Proceedings of NIPS.
[41] Voorhees, E. M., et al. 1999. The trec-8 question answering track report. In Proceedings of Trec.
[42] Wang, S., and Jiang, J. . Machine comprehension using match-lstm and answer pointer. arXiv preprint arXiv:1608.07905.
[43] Wang, W.; Yang, N.; Wei, F.; Chang, B.; and Zhou, M. . Gated self-matching networks for reading comprehension and question answering. In Proceedings of ACL.
[44] Wang, S.; Yu, M.; Chang, S.; and Jiang, J. a. A co-matching model for multi-choice reading comprehension. In Proceedings of ACL.
[45] Wang, S.; Yu, M.; Guo, X.; Wang, Z.; Klinger, T.; Zhang, W.; Chang, S.; Tesauro, G.; Zhou, B.; and Jiang, J. b. R3: Reinforced reader-ranker for open-domain question answering. In Proceedings of AAAI.
[46] Wang, S.; Yu, M.; Jiang, J.; Zhang, W.; Guo, X.; Chang, S.; Wang, Z.; Klinger, T.; Tesauro, G.; and Campbell, M. c. Evidence aggregation for answer re-ranking in opendomain question answering. In Proceedings of ICLR.
[47] Wang, Y.; Liu, K.; Liu, J.; He, W.; Lyu, Y.; Wu, H.; Li, S.; and Wang, H. d. Multi-passage machine reading comprehension with cross-passage answer verification. In Proceedings of ACL.
[48] Xiao, C.; Zhong, H.; Guo, Z.; Tu, C.; Liu, Z.; Sun, M.; Feng, Y.; Han, X.; Hu, Z.; Wang, H.; et al. . Cail: A large-scale legal dataset for judgment prediction. arXiv preprint arXiv:1807.02478.
[49] Yang, Z.; Qi, P.; Zhang, S.; Bengio, Y.; Cohen, W.; Salakhutdinov, R.; and Manning, C. D. . Hotpotqa: A dataset for diverse, explainable multi-hop question answering. In Proceedings of EMNLP.
[50] Yang, Y.; Yih, W.-t.; and Meek, C. . Wikiqa: A challenge dataset for open-domain question answering. In Proceedings of EMNLP.
[51] Ye, H.; Jiang, X.; Luo, Z.; and Chao, W. . Interpretable charge predictions for criminal cases: Learning to generate court views from fact descriptions. In Proceedings of NAACL.
[52] Yih, W.-t.; Chang, M.-W.; He, X.; and Gao, J. . Semantic parsing via staged query graph generation: Question answering with knowledge base. In Proceedings of ACL.
[53] Yu, M.; Yin, W.; Hasan, K. S.; Santos, C. d.; Xiang, B.; and Zhou, B. . Improved neural relation detection for knowledge base question answering. In Proceedings of ACL.
[54] Zhang, X.; Wu, J.; He, Z.; Liu, X.; and Su, Y. . Medical exam question answering with large-scale reading comprehension. In Proceedings of AAAI.
[55] Zhong, H.; Zhipeng, G.; Tu, C.; Xiao, C.; Liu, Z.; and Sun, M. . Legal judgment prediction via topological learning. In Proceedings of EMNLP.

后记

可能有人已经发现我已经转到其他平台写自己的日志博客了。

最近的更新频率确实很低，因为自己有很多其他事情需要忙，可能对我来说最重要的就是111111月212121日的舟山群岛马拉松了。

月初结识WXY\text{WXY}WXY后，现在参加了高校百英里接力赛，本来101010月333日队内选拔时自己经验匮乏，10km10\rm km10km被人带崩，差点没跑下来，不过还是入选了正式队员名单，昨日预选赛在源深体育场跑出20分555555秒的500050005000米场地成绩，在自己第一场正式比赛中就跑出了个人最好成绩，真的是特别特别的高兴，也让其他校友顿时刮目相看。现在就等着101010月232323日的城市接力赛了，在首马前与一众同好进行一场快乐的路跑实在是非常痛快的事情。

去年111月份开始跑步的时候，我可能想不到自己能够跑到这种程度，跑步对我的改变实在是太大太大，最重要的是它完全没有影响到我在学业上的强劲势头，我在第一学年评测中依然位于前三的位置。事实证明本科时还是太放纵自己，我确实应该可以做得更好。人总是会给自己找各种各样的借口，事实上真的没有什么事情是不可能的，一切贵在坚持罢了。

我一直以来都是个很自负的人，只是现在我会更加肆无忌惮地毕露锋芒，因为已经完全无需隐忍。我始终认为模仿别人的套路总是落了下乘，这也是内卷的本质，我宁可去走一条很少有人会选择的道路，即便这一路布满荆棘。