智源推出的天秤(FlagEval)大模型评测体系及开放平台,旨在建立一站式的科学、公正、开放的基础模型评测基准、方法及工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。