OpenBench

6个月前发布 2.7K 00

工具介绍:OpenBench是一个开源、跨平台的大语言模型评估工具,支持20+基准任务,兼容 Groq、OpenAI、Anthropic、Google Gemini、Ollama 等模型平台。所有操作通过命令行完成,适合快速、标准化地评估 LLM 表现。

收录时间:
2025-08-06

OpenBench简介

OpenBench是什么?

OpenBench是由Groq团队开发的开源、跨平台的大语言模型评估工具,旨在提供标准化、可重复的基准测试环境。它支持超过 20 个评估套件,涵盖知识、推理、编程和数学等多个领域,适用于研究人员、开发者和 AI 工程师进行模型性能对比与优化。

OpenBench开源地址:https://github.com/groq/openbench

OpenBench

OpenBench的主要功能

  • 支持 20+ 基准测试:涵盖知识(MMLU、GPQA)、推理(SimpleQA、MuSR)、编程(HumanEval)、数学(AIME、HMMT)等任务。
  • 与模型提供商无关:兼容 Groq、OpenAI、Anthropic、Google、Cohere、Ollama 等 15+ 平台。
  • 命令行工具简洁高效:
    • bench list:列出可用评估项
    • bench describe:查看评估详情
    • bench eval:运行模型评估
    • bench view:查看评估结果
  • 快速评估:60 秒内完成一次模型测试,适合快速迭代。
  • 可扩展性强:支持自定义评估任务和指标,适合研究和开发者深度定制。
  • 构建于 Inspect AI 框架之上:继承其稳定性和灵活性。

OpenBench使用教程(大模型评估工具) 

一、安装环境 

# 安装 uv 并创建虚拟环境
uv venv
source .venv/bin/activate

# 安装 OpenBench
uv pip install openbench

二、配置 API 密钥

根据你使用的模型平台设置环境变量:

export GROQ_API_KEY=你的密钥
export OPENAI_API_KEY=你的密钥
export ANTHROPIC_API_KEY=你的密钥

可选:设置默认模型

export BENCH_MODEL=groq/llama-3.1-70b

三、运行评估任务

# 示例:运行 MMLU 任务
bench eval mmlu –model groq/llama-3.3-70b-versatile –limit 10

其他示例:

# Groq 模型
bench eval gpqa_diamond –model groq/meta-llama/llama-4-maverick-17b-128e-instruct

# OpenAI 模型
bench eval humaneval –model openai/o3-2025-04-16

# Anthropic 模型
bench eval simpleqa –model anthropic/claude-sonnet-4-20250514

# Google Gemini
bench eval mmlu –model google/gemini-2.5-pro

# 本地模型(Ollama)
bench eval musr –model ollama/llama3.1:70b

四、查看评估结果

bench view

结果将保存在 ./logs/ 文件夹中,也可通过交互式界面查看。

五、常用命令速查表 

bench list # 查看所有可用任务和模型
bench describe # 查看任务详情
bench eval <任务> # 运行评估
bench view # 查看结果
bench –help # 查看所有命令和参数

OpenBench使用总结测评

OpenBench是一个强大而灵活的工具,适合你进行模型性能对比、基准测试、或构建自己的评估流程。如果你正在研究 LLM 或开发相关应用,它能显著提升你的效率和准确性。

关于OpenBench特别声明

本站新媒派提供的OpenBench内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年8月6日 上午8:09收录时,该网页上的内容,都属于合规合法,后期网页的内容如有出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

相关导航

STranslate

STranslate

STranslate是一款轻量高效的多合一翻译与OCR工具,支持多语言输入翻译、划词翻译、截图翻译、剪贴板监听,并可同时显示多个翻译服务结果。内置基于 PaddleOCR 的中英日韩离线文字识别,支持截图、文件、静默 OCR,还可接入 OpenAI、Gemini、百度、微软、腾讯、有道等十余家翻译与 OCR 服务,提供回译、全局朗读、自定义 Prompt、二维码识别等特色功能,满足办公、学习与创作的多场景需求。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...