在德勤的一份備受矚目的加拿大醫療保健審查報告中發現錯誤後,公衆對公共政策研究的審查力度正在加大。
據《獨立報》調查顯示,德勤受加拿大政府委託進行的一項醫療保健分析報告(耗資近160萬美元)中存在明顯的AI生成的錯誤。這份長達526頁的文件由紐芬蘭和拉布拉多省政府於5月發佈,是該省醫療保健領域近期最昂貴的諮詢合同之一。
這份報告是爲當時由自由黨領導的衛生與社區服務部撰寫的。報告探討了遠程醫療、留任激勵措施以及新冠疫情對醫護人員的影響,當時紐芬蘭和拉布拉多省正面臨嚴重的護士和醫生短缺問題。然而,隨後的媒體評論對支撐這些建議的證據可靠性提出了質疑。
專注於加拿大最東部省份的進步媒體《獨立報》發現了多處潛在的錯誤和異常之處。此外,該報的調查顯示,儘管文章主體並非機器撰寫,但部分研究引文可能借助人工智能工具生成或篡改。
據《獨立報》報道,德勤的報告中包含虛假的學術引文,引用了捏造的學術論文。這些虛構的文獻被用來支持成本效益分析,而成本效益分析是制定醫療保健支出決策的關鍵組成部分。該報告還將一些從未參與過研究的真實研究人員錯誤地歸於他們名下,人爲地製造出確鑿證據的假象。
有些引文更進一步,描述了一些據稱由從未合作過的研究人員共同撰寫的論文。儘管如此,該審查報告並未聲稱所有參考文獻都存在缺陷。相反,其關注點在於引文問題呈現出的某種模式,這可能會削弱人們對該報告關於人員配備、遠程醫療和系統改革等結論的信心。
該報告還引用了一篇據稱發表在《加拿大呼吸治療雜誌》上的文章。然而,調查人員在該雜誌的數據庫中未能找到這篇文章,這加深了人們的擔憂,即生成工具可能捏造了聽起來合情合理但實際上並不存在的文獻來源。
德勤加拿大的一位發言人在給《財富》雜誌的一份聲明中爲該報告的內容辯護。這位發言人表示:“德勤加拿大堅定支持我們在報告中提出的建議。我們正在對報告進行少量引用更正,這些更正不會影響報告的結論。”
發言人補充說,人工智能並未直接生成這份報告。他們表示,人工智能只是“有選擇地用於支持少量研究引用”。然而,鑑於這項醫療保健研究的規模和涉及的鉅額資金,批評人士認爲,即使只是有限地依賴機器生成的參考文獻,也需要更加嚴格的核實和透明。
此外,該公司聲稱修正引用錯誤不會影響報告結論的說法也引起了質疑。一些學者和政策制定者質疑,在不重新評估任何後續成本效益模型或勞動力預測的情況下,如何糾正捏造或錯誤歸因的研究。
新斯科舍省達爾豪斯大學護理學院的兼職教授蓋爾·湯布林·墨菲(Gail Tomblin Murphy)是其中一位被錯誤引用的作者。她告訴《獨立報》,德勤在一篇“根本不存在”的學術論文中引用了她的名字。她指出,她只與錯誤引用中提到的其他六位作者中的三位合作過,並非與文中描述的全部作者合作過。
“聽起來,如果你能得出這樣的結論,他們可能大量使用了人工智能來生成文獻,”湯布林·墨菲說道。她的評論凸顯了學術界日益增長的不安,即生成式工具可能會炮製出看似可信但卻不準確的參考文獻,尤其是在諮詢人員沒有嚴格覈實每一條參考文獻的情況下。
她進一步警告說,指導公共政策的報告必須有經過驗證的高質量證據支持。此外,湯布林·墨菲強調,政府和公衆爲此類工作支付了大量資金,因此報告必須“準確、有據可依,並有助於推動各項工作向前發展”。她的批評凸顯了盡職調查方面的不足,而非單一的技術錯誤。
根據上週三在一篇博客文章中公佈的信息公開申請,加拿大政府爲德勤的這項研究支付了近160萬美元,該研究分八期發佈。截至週一,儘管該報告的參考文獻和方法論引發了爭議,但該報告仍然可以在紐芬蘭和拉布拉多省政府網站上查閱。
自該報告發布以來,該省的政治領導層發生了變化。紐芬蘭和拉布拉多省進步保守黨領袖託尼·韋克漢姆於10月下旬宣誓就任該省新省長。然而,省長辦公室和衛生與社區服務部均未立即回應《財富》雜誌就5月份報告提出的問題,迄今爲止也未公開回應相關擔憂。
這種沉默讓人不禁質疑,該報告的建議是否會繼續指導衛生政策。這也引發了人們對省議員或聯邦監管機構進一步審查諮詢公司的研究成果在影響核心公共服務之前如何經過審覈的擔憂。
加拿大曝光的這些醜聞與澳大利亞的類似問題如出一轍。今年7月,德勤出具了一份價值29萬美元的報告,旨在幫助澳大利亞政府加強福利監管。這份長達237頁的研究報告同樣運用了生成技術,但後來被發現包含“虛構內容”,包括引用根本不存在的學術研究以及捏造的聯邦法院判決書。
在一位研究人員指出問題後,德勤發佈了澳大利亞研究報告的修訂版。這份更新後的報告已於上月悄悄上傳至政府網站,報告承認該公司曾使用Azure OpenAI生成語言系統來輔助撰寫最初的報告。而這一承認是在外部審查揭露了報告引文中的缺陷之後才做出的。
在更新後的澳大利亞報告中,德勤寫道:“此次更新絕不影響報告的實質性內容、結論和建議。”然而,批評人士指出,捏造的信息來源本身就令人質疑任何基於證據的建議的可靠性,而不僅僅是表面上的細節問題。此外,這第二次事件也加劇了關於德勤人工智能造假以及該公司內部事實覈查機制有效性的爭論。
作爲澳大利亞案件的一部分,德勤當地成員公司被要求就那份存在缺陷的福利報告向聯邦政府支付部分退款。這項經濟處罰表明,官員們認爲與人工智能相關的錯誤非常嚴重,需要進行賠償。
相比之下,目前尚未公佈任何關於加拿大醫療保健報告的潛在退款或合同補救措施的信息。儘管如此,隨着政策制定者、醫護人員和納稅人質疑他們是否從這項如今需要對其證據基礎進行事後修正的研究中獲得應有的價值,壓力可能會越來越大。
更廣泛地說,這兩起事件都凸顯了政府在缺乏嚴格保障措施的情況下依賴使用生成技術的大型諮詢公司所帶來的風險日益增加。它們也表明,公共機構需要更嚴格的信息來源覈實標準,尤其是在篇幅較長、內容複雜的政策報告中,因爲這些報告可能會對關鍵服務產生長達數年的影響。
總而言之,德勤對加拿大醫療保健的審查和澳大利亞的福利研究的進展凸顯了在人工智能輔助研究爲公共政策決策提供信息時,迫切需要可靠的證據、透明的方法和強有力的監督。