医学AI模型脆弱:0.001%错误数据足以扭曲判断
AI模型的微小瑕疵,会引发大问题
1月14日消息,纽约大学的研究发现,大型语言模型(LLM)在医学信息训练中存在潜在风险。研究显示,即使是极小比例的错误数据,比如训练数据中仅含有0.001%的错误信息,也可能导致模型输出不准确的医学答案。 这项研究强调了数据质量对于训练AI模型的重要性。虽然大型语言模型在处理复杂任务时表现出色,但一旦输入数据中包含哪怕是一点点的错误或偏差,就可能产生严重的后果。尤其是在医疗领域,这种错误可能会对患者的健康造成严重影响。因此,在开发和使用这些技术时,必须格外重视数据筛选和验证过程,确保其准确性与可靠性。
数据“投毒”其实是一个相对简单但效果显著的概念。大型语言模型(LLM)通常需要通过大量的文本进行训练,而这些文本多数来源于互联网。通过在训练数据中掺入特定的信息,可以使模型在生成答案时将这些信息误认为是事实。这种方法甚至不需要直接接触LLM本身,只需将目标信息公布于互联网上,就有可能被纳入训练数据中。比如,一家制药公司只需要发布几篇针对性的文章,就可能影响模型对某种药物的理解和认知。
据了解,研究团队选择了一个广泛应用于大型语言模型(LLM)训练的数据库“ThePile”进行研究。该数据库包含了大量医学数据,其中大约四分之一的数据未经人工审核,主要是通过网络爬虫获取的。研究人员在三个医学领域(普通医学、神经外科和药物)中选择了60个主题,并在“ThePile”中嵌入了由GPT-3.5生成的“高质量”医学错误信息。实验结果表明,即使只替换0.5%至1%的相关信息,训练出的模型在这些主题上生成错误信息的概率也会显著增加,而且这些错误信息还会波及其他医学主题。
研究人员深入研究了错误信息对模型输出的最低影响门槛。以疫苗错误信息为例,即便错误信息仅占训练数据的0.01%,模型生成的答案中仍有超过10%包含错误信息;而当错误信息比例下降到0.001%时,仍有超过7%的答案存在误导性。研究人员指出,对于拥有700亿参数的LLaMA2模型,类似的攻击只需生成大约4万篇文档(成本不到100美元)。这些文档可以是普通网页,错误信息可以放置在用户通常不会注意到的地方,甚至可以利用隐藏文本(例如,在黑色背景下使用黑色字体)来传递。 这种现象凸显了错误信息传播的潜在风险及其深远影响。尽管错误信息所占比例很小,但其对模型输出的污染程度却如此显著,这表明我们需要更加严格地监控和管理训练数据。同时,这也提醒我们,即使是微小的错误信息注入也可能产生严重的后果。因此,开发更有效的检测和过滤机制变得至关重要,以确保模型能够提供准确可靠的信息。
研究还指出,当前存在的错误信息问题同样需要重视。很多非专业人员习惯于从通用的大规模语言模型(LLM)中获取医学信息,然而这些模型通常是基于整个互联网进行训练的,其中包含了大量未经审核的错误信息。为了解决这一问题,研究人员开发了一种算法,该算法能够识别LLM输出中的医学术语,并将其与经过验证的生物医学知识图谱进行对比,进而标记出那些无法验证的表述。尽管这种方法可能无法捕捉到所有的医学错误信息,但它确实成功地标记出了大部分的问题内容。
然而,即使是顶级的医学数据库(如PubMed),仍然面临错误信息的问题。医学研究文献中充满了未被证实的理论和已经过时的治疗方法。
研究表明,即便使用了最优质的医学数据库,也不能确保训练出的大型语言模型(LLM)完全不受错误信息的影响。由于医学领域的复杂性,创建一个始终可靠且准确的医学LLM显得尤为具有挑战性。