基准测试

Apollo是一个多语言医学领域的模型、数据集、基准和代码库，Apollo LLM官网入口网址

一个用于评估大型视觉语言模型的精英基准测试集，MMStar官网入口网址

用于评估文本到视觉生成的创新性指标和基准测试，VQAScore官网入口网址

医疗领域检索式问答基准测试，Benchmark Medical RAG官网入口网址

在线聊天机器人竞技场，比较不同语言模型的表现。LMSYS Chatbot Arena官网入口网址

综合表格数据学习工具箱和基准测试，LAMDA-TALENT官网入口网址

高性能语言模型基准测试数据集，DCLM-baseline官网入口网址

视频指令调优与合成数据研究

SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试，总价值 100 万美元。

地球科学的开源大预言模型，首先在收集和清理过的地球科学文献（包括地球科学开放存取论文和维基百科页面）上对 LLaMA 进行进一步预训练，然后使用知识密集型指令调整数据（GeoSignal）进行微调，K2-上海交通大学官网入口网址

用于多模态上下文中的检索增强生成的基准测试代码库。

数据库查询的自然语言处理基准测试，TAG-Bench官网入口网址

用于衡量设备 AI 加速器推理性能的基准测试工具。

一种测试大语言模型在复杂社交博弈中智能性的基准测试框架，灵感来源于‘狼人杀’游戏。