德勤报告错误引发加拿大对人工智能引用的担忧

在德勤的一份备受瞩目的加拿大医疗保健审查报告中发现错误后，公众对公共政策研究的审查力度正在加大。

据《独立报》调查显示，德勤受加拿大政府委托进行的一项医疗保健分析报告（耗资近160万美元）中存在明显的AI生成的错误。这份长达526页的文件由纽芬兰和拉布拉多省政府于5月发布，是该省医疗保健领域近期最昂贵的咨询合同之一。

这份报告是为当时由自由党领导的卫生与社区服务部撰写的。报告探讨了远程医疗、留任激励措施以及新冠疫情对医护人员的影响，当时纽芬兰和拉布拉多省正面临严重的护士和医生短缺问题。然而，随后的媒体评论对支撑这些建议的证据可靠性提出了质疑。

专注于加拿大最东部省份的进步媒体《独立报》发现了多处潜在的错误和异常之处。此外，该报的调查显示，尽管文章主体并非机器撰写，但部分研究引文可能借助人工智能工具生成或篡改。

据《独立报》报道，德勤的报告中包含虚假的学术引文，引用了捏造的学术论文。这些虚构的文献被用来支持成本效益分析，而成本效益分析是制定医疗保健支出决策的关键组成部分。该报告还将一些从未参与过研究的真实研究人员错误地归于他们名下，人为地制造出确凿证据的假象。

有些引文更进一步，描述了一些据称由从未合作过的研究人员共同撰写的论文。尽管如此，该审查报告并未声称所有参考文献都存在缺陷。相反，其关注点在于引文问题呈现出的某种模式，这可能会削弱人们对该报告关于人员配备、远程医疗和系统改革等结论的信心。

该报告还引用了一篇据称发表在《加拿大呼吸治疗杂志》上的文章。然而，调查人员在该杂志的数据库中未能找到这篇文章，这加深了人们的担忧，即生成工具可能捏造了听起来合情合理但实际上并不存在的文献来源。

德勤加拿大的一位发言人在给《财富》杂志的一份声明中为该报告的内容辩护。这位发言人表示：“德勤加拿大坚定支持我们在报告中提出的建议。我们正在对报告进行少量引用更正，这些更正不会影响报告的结论。”

发言人补充说，人工智能并未直接生成这份报告。他们表示，人工智能只是“有选择地用于支持少量研究引用”。然而，鉴于这项医疗保健研究的规模和涉及的巨额资金，批评人士认为，即使只是有限地依赖机器生成的参考文献，也需要更加严格的核实和透明。

此外，该公司声称修正引用错误不会影响报告结论的说法也引起了质疑。一些学者和政策制定者质疑，在不重新评估任何后续成本效益模型或劳动力预测的情况下，如何纠正捏造或错误归因的研究。

新斯科舍省达尔豪斯大学护理学院的兼职教授盖尔·汤布林·墨菲（Gail Tomblin Murphy）是其中一位被错误引用的作者。她告诉《独立报》，德勤在一篇“根本不存在”的学术论文中引用了她的名字。她指出，她只与错误引用中提到的其他六位作者中的三位合作过，并非与文中描述的全部作者合作过。

“听起来，如果你能得出这样的结论，他们可能大量使用了人工智能来生成文献，”汤布林·墨菲说道。她的评论凸显了学术界日益增长的不安，即生成式工具可能会炮制出看似可信但却不准确的参考文献，尤其是在咨询人员没有严格核实每一条参考文献的情况下。

她进一步警告说，指导公共政策的报告必须有经过验证的高质量证据支持。此外，汤布林·墨菲强调，政府和公众为此类工作支付了大量资金，因此报告必须“准确、有据可依，并有助于推动各项工作向前发展”。她的批评凸显了尽职调查方面的不足，而非单一的技术错误。

根据上周三在一篇博客文章中公布的信息公开申请，加拿大政府为德勤的这项研究支付了近160万美元，该研究分八期发布。截至周一，尽管该报告的参考文献和方法论引发了争议，但该报告仍然可以在纽芬兰和拉布拉多省政府网站上查阅。

自该报告发布以来，该省的政治领导层发生了变化。纽芬兰和拉布拉多省进步保守党领袖托尼·韦克汉姆于10月下旬宣誓就任该省新省长。然而，省长办公室和卫生与社区服务部均未立即回应《财富》杂志就5月份报告提出的问题，迄今为止也未公开回应相关担忧。

这种沉默让人不禁质疑，该报告的建议是否会继续指导卫生政策。这也引发了人们对省议员或联邦监管机构进一步审查咨询公司的研究成果在影响核心公共服务之前如何经过审核的担忧。

加拿大曝光的这些丑闻与澳大利亚的类似问题如出一辙。今年7月，德勤出具了一份价值29万美元的报告，旨在帮助澳大利亚政府加强福利监管。这份长达237页的研究报告同样运用了生成技术，但后来被发现包含“虚构内容”，包括引用根本不存在的学术研究以及捏造的联邦法院判决书。

在一位研究人员指出问题后，德勤发布了澳大利亚研究报告的修订版。这份更新后的报告已于上月悄悄上传至政府网站，报告承认该公司曾使用Azure OpenAI生成语言系统来辅助撰写最初的报告。而这一承认是在外部审查揭露了报告引文中的缺陷之后才做出的。

在更新后的澳大利亚报告中，德勤写道：“此次更新绝不影响报告的实质性内容、结论和建议。”然而，批评人士指出，捏造的信息来源本身就令人质疑任何基于证据的建议的可靠性，而不仅仅是表面上的细节问题。此外，这第二次事件也加剧了关于德勤人工智能造假以及该公司内部事实核查机制有效性的争论。

作为澳大利亚案件的一部分，德勤当地成员公司被要求就那份存在缺陷的福利报告向联邦政府支付部分退款。这项经济处罚表明，官员们认为与人工智能相关的错误非常严重，需要进行赔偿。

相比之下，目前尚未公布任何关于加拿大医疗保健报告的潜在退款或合同补救措施的信息。尽管如此，随着政策制定者、医护人员和纳税人质疑他们是否从这项如今需要对其证据基础进行事后修正的研究中获得应有的价值，压力可能会越来越大。

更广泛地说，这两起事件都凸显了政府在缺乏严格保障措施的情况下依赖使用生成技术的大型咨询公司所带来的风险日益增加。它们也表明，公共机构需要更严格的信息来源核实标准，尤其是在篇幅较长、内容复杂的政策报告中，因为这些报告可能会对关键服务产生长达数年的影响。

总而言之，德勤对加拿大医疗保健的审查和澳大利亚的福利研究的进展凸显了在人工智能辅助研究为公共政策决策提供信息时，迫切需要可靠的证据、透明的方法和强有力的监督。

推荐阅读