如果学术打假能赚钱,能否遏制泛滥成灾的学术造假?

今年4月至5月上旬,“耿同学”实名举报了4所高校的5位顶尖学者论文造假,包括同济大学生命科学与技术学院院长、长江学者、国家“杰青”,南开大学生命科学学院院长、院士候选人、国家杰青,中山大学肿瘤防治中心副主任、国家杰青,中山大学生命科学学院副院长、国家杰青,上海大学转化医学研究院院长、长江学者等,涉事学校也都纷纷响应启动了调查程序。

但是也不难想象,类似的举报行动未必能够持续存在,热闹一阵后归于沉寂可能更是常态。学术界像耿同学这样进行学术打假活动的人士被称为“学术侦探”,如著名的图片女皇伊丽莎白·比克,以揭露大量论文中的图片问题而广为人知。他们虽然有不少成功案例,也受到了很多人的肯定,但本质上还是一种民间志愿者的个人行为,出于公义,他们花费大量时间和精力筛查可疑论文、搜集证据,却很难获得稳定的经济回报,因此注定是一种业余行为。面对同样广为人知的大量学术造假和职业化的论文工厂等问题,他们的努力就像精卫填海,精神可嘉,而海是注定填不平的——每年全球发表数百万篇论文,即便只有1%有问题也是几万篇的体量。

究其根源,学术不端和论文工厂等灰色行为的背后都有足够的利益驱动,如为了赚钱、获得教职、获得资助、掌握更多学术资源等,强有力的回报激励让这些人发挥了大量聪明才智和辛勤汗水来造假,规模之大可能远超人们的想象,2023年学界上万篇论文的年度撤稿高峰就是一种明显的迹象。相形之下,民间志愿者们零散的举报与之相比完全不成比例,在这里经济规律依然成立:造假有回报,打假没有,所以愿意投入这件事的人和资源就非常少,像撤稿观察(Retraction Watch)和 PubPeer 论坛那样业界最知名的打假机构,也主要靠慈善捐赠来维持运转。

然而现在情况可能有了一些不同,如果说学术造假买卖论文等行为对于社会和公众的伤害是间接的,感受不到的,那么这些行为对于直接的利益相关方造成的损失就是实实在在的,如威利集团因为旗下欣达威品牌实在烂的无法挽救,一年数千篇撤稿对期刊和整个集团带来的声誉损失无法估量,(延伸阅读:2023年的一万篇撤稿也仅是冰山一角, 期刊编辑们守不住学术大门了吗?)只好断尾求生,完全舍弃了这个品牌,当初收购所花的钱也都打了水漂。其他许多期刊因为编辑们的把关不严和特刊等事件导致被科睿唯安等机构踢出影响因子行列,带来的损失也是实实在在的。(延伸阅读:又一细分顶刊STOTEN遭科睿唯安除名,环境圈将迎来巨震?)因此这些机构开始有了投入资源打击论文造假的动力,无论是哪种形式的造假——如果为了赚点版面费就有可能导致期刊寿命骤减甚至搭上品牌的声誉,那确实是亏本生意。

于是出版商们开始主动出资,支持企业开发针对性强、日常化的论文检测服务,相比纯粹个人出于公益的打假,这种商业化打假的路径可能更有效、更持久。因为当学术打假能真正赚钱的时候,自然会有更多专业团队、技术人才和资本加入这个行列,壮大检查力度,形成规模化、日常化的论文审查机制。 最近的标志性事件是美国化学学会(ACS)旗下的出版部门 ACS Publications 联合其他投资者对于初创公司 Signals 给与了110万美元的种子轮投资。ACS Publications 目前拥有 85-90+ 本期刊(包括混合期刊和纯开放获取期刊),覆盖化学所有细分领域以及交叉学科(如材料、能源、生物、环境、纳米等)。旗舰期刊Journal of the American Chemical Society是化学界公认的顶级期刊之一,2024-2025 影响因子约 15.6-15.7。

位于英国的 Signals 公司开发了基于数据图谱和大型语言模型的学术不端检测软件,能检测至少30种可疑迹象,如来自多个国家的多个领域学者的不合理合作、引用已知的论文工厂的文章,以及与研究主题无关的论文等。他们不仅提供手稿检查,还给出报告和统计数据,帮助出版商提升决策效率,甚至能够在一定程度上评估论文的质量,为期刊提供更多视角的参考。这种按照不同层级提供不同服务的商业模型,可能会更加有效。

最近几年,这样的企业和工具已经涌现了不少。比如更早成立的 Clear Skies公司,是较早推出AI工具检测研究欺诈的商业机构之一。他们的“Papermill Alarm”(论文工厂预警系统)能通过引用网络分析等方法识别 论文工厂产物,还开发了Oversight指数来评估期刊的诚信风险。Clear Skies与科睿唯安等机构合作,已经在行业内获得多项奖项。 此外,还有Grounded AI 通过引用上下文分析发现论文工厂活动;ReviewerZero用大模型检测可疑期刊;Pangram专注于识别生成式AI创作的文本;ImageTwin则专门排查问题图像;Indexcat计算“内容可信度指数”等。这些工具各有侧重,正在被出版商和国际科技与医学出版商协会(STM)的研究诚信中心整合使用。该中心该中心每月筛选来自超过13000种期刊的20多万篇稿件,出版商需支付费用,费用取决于稿件数量。

如果他们的工作卓有成效,出版商的付费意愿也越来越大,那么无疑会吸引更多人才和资金进入这个领域,在AI技术的加持下,不排除未来有一天,100%的论文都可能被检测一遍甚至两遍,造假的难度和成本将会指数级上升,若很快突破潜在收益的临界点的话,学界的风气可能为之一变。

当然,就像市场上不同品牌对于自身美誉度管理也有不同的追求和看法一样,体面人会比较重视质量和声誉,许多出版商愿意花钱采购类似的服务,同时主动将其导入自身的出版流程中,让这些工具真正发挥作用,有些出版商则不然,对于相关业务不感兴趣:很多期刊连回应造假被曝光后要不要撤稿都要拖上一两年,更不用说花钱找人帮忙检测问题论文了。也是,查得严了,把我的APC客户都吓跑了咋办?你负责吗?