匿名的同行评审被大多数计算机科学会议使用,OpenReview就是这样一个平台,旨在支持同行评议过程中的开放性。我们从openreview平台上收集了10k的submissions数据和40k审稿数据。同时从谷歌学术和arXiv上收集了它们的引用数据和non-peer-reviewed 版本。通过深入分析这些数据,我们有几个有趣的发现,可以帮助公众理解双盲同行评审过程的有效性。
背景:OpenReview旨在促进公开的同行评审过程,论文、相关审评意见、和最终结果是全部公之于众,不担任审稿人的同行可以判断该论文的贡献以及判断评审过程的公正性。在公众的监督下,审稿人将面临更大的压力,迫使自己做出更公平的评论。另一方面,以往的同行评议分析工作由于缺乏被拒绝的论文实例及其相应的评审意见而受到限制。 方法:鉴于这些公开评论,有很多有趣的问题可以帮助我们理解双盲同行审查过程的有效性: 1. 众所周知,2020年人工智能会议的审查负担非常沉重,因为提交的论文数量激增。这些人工智能会议必须聘请更多非行业专家参与双盲审查过程。这些非专家对审查过程有何影响? 我们从统计学角度,统计了评审分数的分布情况,并计算了2017-2022年份不同confidence-level的评审人的平均打分情况。如下图所示: low-confidence评论者(例如,level1和level2)往往更宽容,因为他们可能对自己的决定没有信心,而high-confidence的评论者(例如,level4和level5)往往更严谨和严格的,因为他们可能对已发现的弱点更有信心。 为了评估非专家和专家审稿人之间的平均差异。我们采用了假设检验的方法(t-test),我们通过计算p值和效应量d值。结果表明,非专业评审人和专业评审人之间存在差异,但是效应量很小。 进一步探讨非专业的审稿人对论文评审结果的影响。我们分别计算欧几里得距离、JS、均值方差的散度。实验的结果表明2017-2019年的数据差异较小,2020-2022年非专业评审人和专业评审人之间的差异较大。 2. 评审者通常从多个方面来评价一篇论文,如动机、新颖性、展示和实验设计。不幸的是ICLR不会要求审稿人回答这样的问卷,然后一个问题随之产生。哪个方面在评分中起决定性作用? 我们旨在通过分析各方面的情绪来回答这个问题。我们通过自动化标注与人工干预方式制作了五个数据集并标记了相应的标签。我们使用一个预先训练的文本模型对每个方面进行情感分析。根据每篇评论各方面的情感分析结果和评论得分,进行相关分析。结果如下图所示: 从图中可以看出,从宏观的角度来看,评价分数越高,积极的方面就越多,这是意料之中的。我们观察到,在6分以上的评论中,绝大多数对新颖性、积极性、展示方式没有负面评价,但可能会允许相关的工作和实验存在一些缺陷。对论文整体评价较好的审稿人,可能会对相关工作和实验提出改进建议,使论文更加完善。 3. OpenReview平台不仅提供已接受论文的提交细节(如标题、关键字和摘要),还提供被拒绝论文的提交细节,这使我们能够执行更细粒度的聚类分析。考虑到细粒度层次聚类结果,不同研究领域的接受率存在显著差异。 首先将ICLR 2020提交的每一篇文章的标题、摘要、关键词串联起来,并通过删除停止词、标记化、词干列表等方法对其进行预处理。我们在标记过程中利用AI术语字典,以确保包含多个单词的AI术语不被拆分。我们使用一种层次聚类方法Ward聚类,即在每一阶段,将簇间距离最小的两个簇进行合并。将层次聚类的结果可视化如图: 观察研究主题之间的相关性并且计算了不同类别间接收率的差异。结果显示在接受率上存在显著差异,例如”Black-Box Adversarial Attacks”接受率最高,它属于对抗机器学习领域。“Few-Shot Learning”的接收率最低。它是属于“强化学习”范畴的一类学科。 4. 一种后验定量评价论文的方法是跟踪其被引次数。高引用数通常意味着更重要的,开创性的,或更有灵感的工作。OpenReview不仅发布已接受的论文的提交详情,也发布未接受的论文的提交详情。被拒绝的作品可能会被放在arXiv.org网站上,或者在其他网站上发表,以吸引更多引用。这为我们分析评论分数和被引用数之间的关系提供了机会。论文的评审分数和被引用次数之间是否有很强的相关性? 被引用数定量地表明了一篇论文的影响力。我们展示了几个关于评论分数和被引用数之间相关性的有趣结果。 OpenReview不仅发布已接受的论文的提交细节和评论,也发布被拒绝的论文的提交细节和评论。这些被拒绝的作品可以放在arXiv.org网站上,或者在其他网站上发表,但仍然会产生影响。我们收集了被录用论文和被退稿论文的引文信息,并研究了他们的评论分数与引文数的相关性。我们绘制ICLR 2017-2022年提交的平均被引数直方图,如图所示: 从图中可以看出,评论分数越高的论文,被引频次越高,这是意料之中的。我们进一步调查了个别论文的被引数,如图所示: 可以看到许多被拒绝的论文获得了大量的引用数,这是有点惊讶的。一般来说,被录用的论文会受到更多的关注,因为它们都是在ICLR上正式发表的。不过,被拒的论文稍后修改可能会在其他地点接受,仍会引起注意。我们观察到拒绝决定并不影响他们的引文数量。虽然被拒,但评论分数高的论文仍有可能有较高的被引数。 对于突破性的论文,人们总是有不同的看法。评论者A认为它很新颖,很乐意给高分,但评论者B可能会认为它太疯狂或不现实而拒绝它。评论者之间可能会有很大的争论。但通常很难达成共识。本研究旨在探讨论文评审分数的变异与论文被引数之间的关系。根据论文的评审分数差异对论文进行分组,计算各组论文的平均被引次数。如图所示: 可以观察到,被引用次数多的论文确实更有可能获得不同的评论分数。 5. 提交的文件可以在接受/拒绝通知之前发布在arXiv.org上,这可能是来自其他会议的被拒绝的文件。它们之所以特别,是因为它们可以根据被拒绝的评论进行改进,而且它们的作者不是匿名的。这些提交是否显示较高的接受率? 我们发现,在接受/拒绝通知5之前,arXiv上已经发布了2761份投稿,约占投稿总数的23.17%。arXiv的版本不是匿名的,这给双盲审查过程带来了不公平。我们发现arXived提交的作品的接受率明显高于非arXived提交的作品(平均48.16% vs. 28.94%)。 上图展示了每个月提交到arXiv网站上的论文的数量,包括接受的和被拒绝的。可以看到,随着提交截止日期的临近,在arXiv上发布的论文越来越多。在投稿日至通知日之间,arXiv上也有大量的论文发表。我们可以看到,随着提交截止日期的临近,在arXiv上发布的论文越来越多。在投稿日至通知日之间,arXiv上也有大量的论文发表。从论文的接受率来看,我们发现论文在arXiv上发表的越早,被接受的可能性就越大。另外,在通知日期后在arXiv上发布的论文有较高的接受率。这可能是因为论文被采纳后,作者们迫不及待地想要分享自己的研究成果。 6. Rebuttal是开放评审平台为作者和评审人员提供的一个交流的机会。一种好的rebuttal可以提高论文的分数。哪种rebuttal更容易提高评论分数? 我们从ICLR 2020收集了5790对(review-rebuttal)。 通过对rebuttal次数的分析,rebuttal次数越多,越容易提高评审分数(均值2.31 vs 1.31)。 通过对rebuttal长度的分析,rebuttal长度越长,越容易提高评审分数。Rebuttal是提高评审分数的有效途径。如果你想让你的论文更容易被接受,你需要把重点放在rebuttal阶段。因此,我们提出了一种新颖的方法来预测作者rebuttal后的分数变化情况。模型架构图如下: 我们命名为Double BERT称为DBERT。一个BERT学习评论内容,另一个学习Rebuttal内容。我们使用预训练的BERT来生成word embedding。然后将这些嵌入作为输入输入BiLSTM,生成sentence embedding。这些编码的句子被送入连接层并连接在一起。这些编码后的连接句子被传递给BiLSTM-ATTENTION,以编码Review-Rebuttal的段落embedding。 该方法不仅解决了transformer句子训练长度的限制。而且提供了时序长程对话逻辑推理。从准确度、召回率、F1分数三方面对模型进行了评价。结果显示均高于单bert模型。能为作者rebuttal阶段提供辅助和校验的作用。 作为一名作者如果想要自己论文更容易接收,应该把握住一个热点,注重论文的创新性和动机。审稿的过程中祈祷遇到非专业评审人。在rebuttal环节,注重rebuttal次数和长度,可以使用DBERT模型对rebuttal后的结果进行预测、反馈、修改迭代操作,达到满意的效果。 结论:我们对数据集进行了深入的分析,包括从openreview,从GoogleScholar收集的论文引用信息,以及从arXiv.org收集的非同行评审的论文。所有这些收集到的数据都可以在Github上公开获得,这将帮助其他研究人员在这个数据集中识别新的研究机会。更重要的是,我们调查了几个关于同行评议过程的有趣问题的答案。我们的目标是根据我们的分析结果提供一些提示,以定量地回答这些问题,这些数据分析结果可能有助于论文的撰写、评审和决定是否接受。
扫描查看移动版
校址:辽宁省沈阳市和平区文化路三巷11号 | 邮编:110819