AI模型评测

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，帮助用户选择最适合自己需求的语言模型，C-Eval官网入口网址

智能语音助手，让你的生活更智能、更便捷，StableVicuna官网入口网址

OpenCompass是一个基于人工智能技术的评估平台，为用户提供全面的语言模型评估和排名服务，帮助用户了解模型在不同领域的表现，OpenCompass官网入口网址

H2O LLM Eval是一款基于H2O Wave平台开发的评估工具，帮助用户比较不同模型的性能，并根据Elo排名系统进行评估，选择最适合自己需求的模型，H2O EvalGPT官网入口网址

MMLU Benchmark是一个多任务语言理解的基准测试，旨在评估和比较不同模型在多个语言理解任务上的性能。用户可以通过比较不同模型在各个任务上的表现来选择最适合自己需求的模型，MMLU官网入口网址

SuperCLUE是一个中文通用大模型综合性测评基准，包含10项基础能力，涵盖语言理解、对话、生成、知识与百科、代码、逻辑与推理、计算、角色扮演和安全等多个方面。它可以帮助评估中文大模型在不同任务和场景下的表现，为研究人员和开发者提供参考，SuperCLUE官网入口网址

CMMLU是一个综合性的中文评估基准，用于评估语言模型在中文语境下的知识和推理能力，涵盖了多个任务和主题，CMMLU官网入口网址

MMBench是一个评估大型多模态AI模型性能的平台，提供了一个排行榜展示各种模型在不同任务上的得分情况，帮助用户选择适合自己需求的模型，MMBench官网入口网址

Holistic Evaluation of Language Models (HELM)是一个综合评估语言模型的框架，提供广泛的覆盖范围和标准化的评估，帮助研究人员和开发人员提高语言模型的质量和性能，HELM官网入口网址

PubMedQA是一个用于生物医学研究问题回答的数据集，包含专家标注的问题回答对、未标注的问题回答对和人工生成的问题回答对，适用于生物医学研究和自然语言处理任务，PubMedQA官网入口网址

Open LLM Leaderboard是一款开源自然语言处理模型排行榜平台，提供模型排行榜、模型评估和模型对比等功能，可帮助用户更好地选择和使用自然语言处理模型，Open LLM Leaderboard官网入口网址

LLMEval-3是一款专业知识能力评测工具，涵盖了教育部划定的13个学科门类、50余个二级学科，提供大量标准生成式问答题目，帮助用户评估模型在不同学科领域的能力，LLMEval3官网入口网址

Gemini是DeepMind推出的全新AI模型，集成了多模态推理功能，超越了以往模型的性能，适用于科学文献洞察、竞争性编程等多种应用场景。使用方式：Gemini可通过Google AI Studio和Google Cloud Vertex AI集成到应用程序中，Gemini官网入口网址

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态，以“评测助力，让AI成为人类更好的伙伴”为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。