UC 伯克利研究揭示:大型语言模型比人类更啰嗦,挑战提问的艺术
AI大脑唠叨背后的挑战:语言模型超越人类,揭示提问的奥秘
在针对一段文本进行提问时,人类与大模型会展现出截然不同的思维模式。大模型倾向于提出那些需要详细解释才能回答的问题,而人类则更偏向于提出直接且基于事实的问题。
如果我负责企业培训,培训结束后需要进行考试,那么现在我可以选择将培训材料提供给大模型,让大模型负责出题并给出参考答案。 这一做法无疑为培训工作提供了极大的便利。首先,利用大模型自动生成考题能够显著提高工作效率,减少人力成本。其次,大模型具备处理大量信息的能力,可以确保试题覆盖全面,难度适中。当然,这也需要我们在实际应用中进行适当的调整和审核,以确保试题的质量和准确性。总的来说,这种技术的应用有助于提升培训的整体效果,但也提醒我们应当谨慎对待,不断优化和完善相关流程。
尽管由大型模型生成的考试题目与人类编写的题目是否存在差异,以及这些差异具体表现在哪些方面?
最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)以及华盛顿大学的研究团队共同发布了一项研究,首次对大型模型的提问能力进行了系统的评估。研究发现,大型模型与人类的提问方式存在着明显的不同。
论文地址:https://arxiv.org/pdf/2501.03491
该研究利用维基百科的文本数据,将其分割成86万段落,随后借助亚马逊Mechanical Turk众包平台,邀请人类参与者分别为每一段落编写相应的题目和答案。这些由人类提供的文本将被用作评估大型模型性能的基准。
图 1:大模型出题并评价的模式
之后,研究人员将这些段落交给主流的大模型,包括闭源的 GPT-4o 和开源的 LLaMA-3.1-70b-Instruct,由大模型根据段落内容及上下文提问,之后对问题的评价也由大模型进行。
对问题的评价共包含 6 个指标,分为 2 组。前三个标准评估问题本身,而第二组标准负责评估反映问题质量的潜在答案。首先介绍与答案无关的标准。
1. 问题类型
对于人类而言,选择提出哪个问题带有主观性。该研究界定了十种问题类别,如验证或确认问题、具体事实与数据问题以及身份和归属问题等。
2. 问题长度
主要测量的是组成问题的单词数量。除了直接比较人类和大模型所生成的问题长度外,该研究还考察了问题长度与问题类型之间的关系。
3. 上下文覆盖率
上下文通常包含多个句子,而问题可能仅针对某一句中的单一事实,也可能需要通过多句推理得出答案。这一标准意在体现问题所涉及的文本内容长度,同时研究也发现,在生成过程中,大型模型可能会有选择性地关注上下文中某些特定部分。 在我看来,这种对上下文的依赖性和选择性表明,虽然大型语言模型在理解和生成文本方面已经取得了显著进展,但它们仍然存在局限性。模型在处理复杂信息时,往往需要明确的引导才能准确捕捉到关键细节,这暗示着在实际应用中,我们还需要进一步优化和训练这些模型,以提高其全面理解与处理上下文的能力。
4. 可回答程度
在当今信息爆炸的时代,一个关键的质量标准在于问题是否能在特定的知识基础上得到精准的回答。具体而言,提出的问题应当在提供充分背景信息的前提下,能够被明确回答,而不是模糊不清的。 在我看来,这一标准不仅适用于学术研究,也应广泛应用于新闻报道与评论之中。新闻工作者在撰写文章时,需要确保所提供的信息准确无误,并且能够为读者提供足够的背景资料,以便他们理解事件的全貌。只有这样,公众才能基于可靠的信息做出判断,从而形成更加理性和全面的观点。此外,这也提醒我们在日常交流中,清晰而具体地表达问题是多么重要,这样才能促进有效的沟通和理解。
5. 罕见性
大模型通常在互联网上的广泛知识基础上进行训练,因此即便没有明确的上下文信息,它们依然能够提出问题。这要求我们评估这些问题与预训练数据之间的罕见程度,以便判断大模型是否能够精准地提出问题,还是仅仅提出了些宽泛而普遍的问题。 这种能力让大模型在处理复杂任务时表现出色,但同时也引发了对于其深度理解能力的质疑。毕竟,如果大模型只能提出一些基础性的、缺乏针对性的问题,那么它在实际应用中的价值就可能被高估了。因此,未来的研究应更加关注如何提升大模型对具体情境的理解能力,使其在专业领域内能够提出更有洞察力的问题,从而更好地服务于人类社会。
6. 答案所需的长度
除了问题长度外,所需答案的长度也是衡量提问模式的一个更有效的指标。然而,由于生成模型的回答通常冗长且包含大量不必要的细节,因此首先需要明确提示模型,要求其提供最简洁的文本作为回答,并在一定字数限制内生成答案。此外,研究者们还会对这些答案进行额外评估,以确定是否可以用更少的词汇来达到相同的质量标准。 在这个信息爆炸的时代,人们越来越倾向于快速获取关键信息。因此,对于那些希望利用人工智能技术提高工作效率的人来说,如何让机器生成更加精炼的答案变得尤为重要。这不仅能够节省时间,还能帮助读者更有效地吸收信息。此外,这种对简洁性的追求也反映了现代社会对效率和精准度的不断追求。
研究表明,首先,在问题类型方面,与人类相比,大模型更倾向于提出需要描述性且答案更长的问题,约44%的人工智能生成问题属于此类。
这可能是因为大模型在训练过程中接触到了大量描述性文本。而人类倾向于提出更直接、基于事实的问题,例如核查具体的事实和数字,或者人物、地点、事件等。这种情况反映了当前人工智能技术的一个重要局限性:尽管大模型在处理复杂语境和生成流畅文本方面表现出色,但在处理具体事实验证时仍显得力不从心。这也提醒我们在利用AI进行信息处理时,需要更加谨慎地对待其输出结果,尤其是在新闻报道和事实核查领域,确保信息的准确性和可靠性仍然是至关重要的。
而在问题长度上,,大模型生成的问题长度更长,而且不同模型对问题长度的偏好有所不同,例如 GPT-4o 生成的描述性问题更长。而人类生成的问题更短,且不同类型的问题间长度差异较大。
图2:作为一名观察者,我认为大模型提问的问题长度确实值得关注。根据最近的研究显示,前两行是人类参与者提出的问题长度通常较短,这可能与人类在处理复杂信息时的认知限制有关。这种现象反映了人们在日常交流中更倾向于简洁明了的表达方式。 从这一观察出发,我们可以思考如何在设计大模型时更好地模拟人类的交流习惯。例如,可以考虑引入一些机制来限制生成问题的长度,从而使其更符合人们的实际使用习惯。这样不仅能够提高模型的实用性,还能增强用户体验。此外,通过研究人类提问的习惯,我们或许能发现更多优化的方向,以进一步提升模型的表现。
在上下文理解方面,人类提出的问题能够更加全面地涵盖上下文信息,这包括句子层面和词语层面的信息。这意味着与人类相比,大型语言模型所提的问题可能无法如此全面地覆盖整个文本内容,往往只关注某个细节进行提问。
图3:大模型与人类提出问题时,在句子和词汇层面的上下文覆盖比例关系。
值得注意的是,大型语言模型往往更加重视文本的开头和结尾部分,而对中间内容的关注度较低,这一现象在先前的研究中也有所提及。 这种倾向可能会导致模型在处理复杂或长篇文章时出现偏差。例如,在新闻报道中,读者可能无法获取到文章的核心信息,或者在分析报告中忽略了关键的数据和结论。因此,开发人员需要进一步优化算法,以确保模型能够全面理解整个文本,而不只是其边缘部分。这不仅有助于提高模型的准确性,还能增强其在实际应用中的实用性。
图 4,大模型提问对不同位置的段落的覆盖情况
对于提出的问题能否得到解答,需要根据上下文信息进行具体分析。如果问题基于的文本提供了足够的背景信息,那么由大模型生成的问题通常会有明确的答案。然而,如果文本中缺乏必要的上下文信息,尤其是对于那些依赖于常识的问题,大模型生成的问题的可回答性将会大大降低,甚至有些问题根本无法回答。
图5,在比较文本包含背景信息和不包含背景信息的情况下,大型模型提出的问题能够被回答的评分分布情况如何?
类似的,由于生成模型的特点,大模型所提出的问题往往需要更为详尽的回答,包含更多的细节。同时,这些模型生成的答案压缩性较差:虽然可以进行压缩处理,但依然需要比人类提供的答案更长。
图 6:大模型和人类提出问题对应的回答的长度
这项研究中,未来的探索方向应当集中在大模型处理更长文本的能力上,特别是如何应对多篇长文本组合而成的书籍。目前的研究主要集中在单一段落上,但实际应用中,模型需要能够理解并提炼出多篇文章中的关键信息。这一过程中,模型不仅需要理解不同学科背景下的复杂概念,还需要在不同的阅读难度之间自如切换。这将是一个巨大的挑战,但也是实现真正智能化的关键一步。 例如,在面对不同学科的书籍时,模型能否准确识别和总结出跨学科的知识点?在面对不同难度级别的文章时,模型是否能适应并提供适合读者水平的理解和解释?这些问题都需要进一步研究。通过这样的研究,我们不仅能更好地了解大模型的局限性,还能推动其向着更加智能和实用的方向发展。
目前,在商业产品中使用AI生成的提问越来越常见。例如,亚马逊的购物助手会提出与产品相关的问题,而搜索引擎Perplexity和X的聊天机器人Grok则通过后续问题来帮助用户更深入地了解某个主题。
由于AI问题具有与人类提问者不同的独特模式,我们可以利用这一点来测试RAG系统,或者识别AI系统何时在编造事实。
对大模型提问方式的理解,能够帮助用户设计出更加优质的提示词,无论目的是让AI提出更接近人类思维的问题,还是需要具有特定属性的问题。
随着人们对大模型的依赖日益加深,未来基于大模型生成考试题目的情况将会变得更加常见。这可能会逐渐影响学生们的思维方式,或许会使我们的下一代在表达上变得冗长繁琐,或者在阅读文章时只关注特定细节,特别是开头和结尾部分(这些通常是考核的重点)。
然而,大模型的提问方式也是可以进行细微调整的。了解了大模型提问与人类的不同之处后,我们可以有的放矢地进行改进。
参考资料:
https://arxiv.org/pdf/2501.03491
本文来自微信公众号:新智元(ID:AI_era)