
伦敦大学学院 (UCL) 研究人员的一项研究表明,GPT 等大型语言模型 (LLM) 能够预测神经科学研究结果,其准确率甚至超越人类专家。这项发表在《自然-人类行为》杂志上的研究展示了在大型文本数据集上训练的人工智能不仅可以提取信息,还能识别模式以预测科学结果。
科学预测的新方法
该研究的主要作者、伦敦大学学院心理学与语言科学系的 Ken Lo 博士表示,像 ChatGPT 这样的生成式人工智能的发展为泛化和知识提取开辟了巨大的可能性。然而,研究人员并没有研究人工智能分析过去信息的能力,而是决定探究人工智能是否能够预测未来的实验结果。
“科学进步往往需要反复试验,这需要时间和资源。即使是经验丰富的研究人员也可能会错过文献中的重要细节。我们的研究表明,LLM 可以检测模式并预测实验结果,”Lo 博士说道。
BrainBench:人工智能和专家测试
为了测试 LLM 的能力,研究人员创建了一个名为 BrainBench 的工具,其中包含来自神经科学的科学摘要:
- 一份摘要包含实际的研究结果。
- 第二个是专家创建的经过修改但合理的结果。
15 个语言模型和 171 位神经科学专家接受了测试,以检验其区分真假结果的能力。结果令人印象深刻:
- 人工智能的平均准确率为 81%,而专家的准确率仅为 63%。
- 即使是知识自我评价最高的专家也只达到了 66%。
改进的模型和观点
科学家们还调整了开源的 LLM(Mistral 的一个版本),并用神经科学领域的科学文献对其进行了训练。最终构建的模型 BrainGPT 的准确率甚至更高——达到了 86%。
“我们的工作表明,人工智能可以成为实验设计过程中不可或缺的一部分,不仅可以加快工作速度,而且可以提高效率,”布拉德利·洛夫教授(伦敦大学学院)说。
机遇与挑战
研究人员表示,他们的方法可以适用于多种科学学科。然而,研究结果提出了一个重要问题:现代科学研究是否足够创新?人工智能预测的高准确率表明,许多科学发现与现有模式相符。
罗博士补充道:“我们正在构建人工智能工具,帮助科学家设计实验、预测可能的结果、加快迭代速度并做出更明智的决策。”
人工智能应用的这一突破有望加速科学发现并提高全球研究的效率。