(北京22日综合电)今年5月,北京大学、同济大学和图宾根大学研究团队联合发布全球首个评估AI科学家学术诚信的基准测试《 SciIntegrity-Bench》。
该测试采用“ 困境评估”方法,为7款顶尖大语言模型设置了11种科研陷阱,共进行231次高压测试,整体问题率高达34.2%。
在各款模型之中,Claude 4.6 Sonnet被评为表现最佳。

测试结果显示,大模型在“空白数据集”测试中全部“无中生有”,面对完全没有数据的表格,7款模型均自行编写代码,凭空捏造数千行传感器参数并出具设备维护报告。
立即签购 解锁全文
会员登入