OpenAI o3 数学成绩造假门:裁判身份曝光,揭露下一个Theranos风波?
数学成绩造假门:曝光裁判身份,揭示下一个科技巨头黑幕?
1月20日消息,科技媒体TechCrunch于昨日(1月19日)发表文章指出,EpochAI因未能及时公开OpenAI的资助而陷入争议,这导致其研发的数学基准测试FrontierMath的公正性受到了质疑。
EpochAI是一个主要由OpenPhilanthropy支持的非营利机构。该组织发起了一项名为FrontierMath的基准测试项目,旨在通过结合高级数学难题来评估和检测AI模型的数学水平。
OpenAI的O3模型在EpochAI的FrontierMath基准测试中表现出色,以显著优势领先其他模型,准确率达到25%,而其他模型的得分普遍在2%左右。
EpochAI的一名承包商“Meemi”在LessWrong论坛上发帖表示,许多FrontierMath的贡献者直到项目公开宣布时才得知OpenAI参与了该基准的搭建工作。 这一情况揭示了开源项目和科研合作中的潜在沟通问题。尽管OpenAI作为一家领先的机构参与其中,但这种信息不对称可能会影响项目的透明度和信任度。这样的延迟披露不仅可能让贡献者感到被边缘化,还可能影响整个项目的公信力。因此,在未来类似的合作中,加强内部沟通与信息披露显得尤为重要。
Meemi表示:“沟通存在严重不透明的问题。我认为EpochAI有义务公开OpenAI的资助情况,同时,承包商在决定是否参与基准测试工作时,应获得其工作成果可能被用于增强能力的相关透明信息。”
六位参与 FrontierMath 基准测试设计的数学家表示,他们并不知道 OpenAI 拥有独家访问权限。如果事先知道,他们可能不会参与。
一些社交媒体用户担心,这种保密行为可能会损害 FrontierMath 作为客观基准的声誉。除了资助 FrontierMath 之外,OpenAI 还可以访问该基准测试中的许多问题和解决方案 ——Epoch AI 在 12 月 20 日 o3 发布之前并未透露这一事实。
Tamay Besiroglu,作为EpochAI的副主任兼联合创始人之一,在回应Meemi的帖子时重申了FrontierMath的完整性未受影响,但他也坦承公司在透明度方面确实存在不足,并承认这是一个需要改进的错误。 在我看来,Besiroglu的表态显示出EpochAI对于外界关切的初步响应态度。虽然公司坚持其产品完整性和可信度,但未能及时公开相关信息,这在一定程度上削弱了公众的信任。增强透明度不仅有助于重建信任,也是公司长远发展的必要步骤。
AI专家Gary Marcus对OpenAI的某些声明提出了质疑,这一事件让人联想到当年轰动一时的Theranos丑闻。Theranos由伊丽莎白·霍尔姆斯创立,曾声称其技术仅需几滴血便能完成数百项检测,然而最终这些承诺被证明是虚假的,公司也因此倒闭,创始人霍尔姆斯也因此被判犯有欺诈罪。 Gary Marcus的质疑是否同样会动摇公众对人工智能技术的信任,还有待观察。不过,这无疑提醒了我们,对于任何新兴技术,特别是那些号称能够带来革命性变化的技术,我们都应保持审慎的态度。在追求技术创新的同时,透明度和诚信同样重要。正如历史上的许多案例所显示的那样,一旦信任被破坏,重建起来将异常艰难。因此,在推动技术发展的同时,确保其真实性和可靠性至关重要。
Besiroglu承认,OpenAI确实能够访问FrontierMath的大部分问题和答案,但存在一个“OpenAI未曾接触过的保留数据集”,专门用于测试模型的真实能力。这个设计不仅体现了对技术透明度的重视,也展示了对人工智能评估标准的严格要求。通过这种方式,我们可以更准确地衡量这些模型在面对未曾见过的数据时的表现,从而更好地理解它们的实际能力和局限性。这无疑为未来的人工智能研究和开发提供了一个更加严谨和科学的框架。
Besiroglu 写道
我们被限制在O3版本发布前后才能披露合作关系,回顾过去,我们应该更加努力地争取尽早对基准测试贡献者保持透明。我们的数学家应当知道谁能够访问他们的工作。即便我们在合同上有所限制,我们也应将与贡献者的透明度作为与OpenAI协议中不可协商的一部分。