研究发现,AI在历史上并不擅长

AI在某些任务上表现出色,如编码或生成播客。但一项新研究发现,它难以通过高级历史考试。

一组研究人员创建了一个新的基准测试三款顶尖的大型语言模型(LLMs)—— OpenAI的GPT-4,Meta的Llama和Google的Gemini——对历史问题做出回答的正确性。该基准测试称为Hist-LLM,根据塞育全球历史数据库进行答案的正确性测试,这是一本庞大的历史知识数据库,以古埃及智慧女神命名。

研究结果于上个月在备受瞩目的人工智能会议NeurIPS上公布,但导致失望的结果,据与奥地利复杂性科学中心(CSH)合作的研究人员表示。表现最好的LLM是GPT-4 Turbo,但它的准确率只达到约46%,不比随机猜测高出多少。

“这项研究的主要结论是,虽然LLMs令人印象深刻,但仍然缺乏所需深度理解的高级历史知识。它们对基础事实非常好,但当涉及到更微妙、博士级别的历史探索时,它们还不够胜任,”该论文的合著者之一、伦敦大学学院计算机科学副教授玛利亚·德尔里奥·查农娜(Maria del Rio-Chanona)表示。

研究人员向TechCrunch分享了LLMs答错的样本历史问题。例如,GPT-4 Turbo被问及古埃及某个特定时期是否存在鳞甲。LLM回答是肯定的,但是这种技术在埃及出现是在1500年后。

为什么LLMs在回答技术性历史问题时表现不佳,而在回答关于编码等非常复杂问题时表现很好?德尔里奥·查农娜告诉TechCrunch,这可能是因为LLMs倾向于从非常突出的历史数据中推断,很难检索到更加晦涩的历史知识。

例如,研究人员问GPT-4,古埃及在特定历史时期是否有一支职业常备军。正确答案应该是否定的,但该LLM回答错误说是有。这很可能是因为有关其他古代帝国,如波斯拥有常备军的公开信息比较多。

“如果你有100次被告知A和B,1次被告知C,然后被问及C的问题,你可能只会记得A和B,然后试图从中推断出结果,”德尔里奥·查农娜说。

研究人员还发现其他趋势,包括OpenAI和Llama模型在一些地区,如撒哈拉以南非洲表现更差,暗示了它们的训练数据可能存在偏见。

这些结果表明,LLMs在某些领域仍然无法替代人类,CSH的研究成员彼得·图尔钦(Peter Turchin)说。

但研究人员仍然对LLMs未来帮助历史学家表示乐观。他们正在努力完善他们的基准测试,包括更多来自代表不足地区的数据和添加更复杂的问题。

“总体而言,虽然我们的结果突出了LLMs需要改进的领域,但也强调了这些模型在历史研究中的潜力,”论文写道。