3所大学研究团队测试AI学术诚信度

责任编辑: 国际小编

（北京22日综合电）今年5月，北京大学、同济大学和图宾根大学研究团队联合发布全球首个评估AI科学家学术诚信的基准测试《 SciIntegrity-Bench》。

该测试采用“ 困境评估”方法，为7款顶尖大语言模型设置了11种科研陷阱，共进行231次高压测试，整体问题率高达34.2%。

在各款模型之中，Claude 4.6 Sonnet被评为表现最佳。

测试结果显示，大模型在“空白数据集”测试中全部“无中生有”，面对完全没有数据的表格，7款模型均自行编写代码，凭空捏造数千行传感器参数并出具设备维护报告。

高兴

惊讶

愤怒

悲伤

支持

听你讲

*本網站有權刪除或封鎖任何具有性別歧視、人身攻擊、庸俗、詆毀或種族主義性質的留言和用戶；必須審核的留言，或將不會即時出現。

3所大学研究团队 测试AI学术诚信度