OpenBench

5天前发布 382 00

工具介绍:OpenBench是一个开源、跨平台的大语言模型评估工具,支持20+基准任务,兼容 Groq、OpenAI、Anthropic、Google Gemini、Ollama 等模型平台。所有操作通过命令行完成,适合快速、标准化地评估 LLM 表现。

收录时间:
2025-08-06

OpenBench简介

OpenBench是什么?

OpenBench是由Groq团队开发的开源、跨平台的大语言模型评估工具,旨在提供标准化、可重复的基准测试环境。它支持超过 20 个评估套件,涵盖知识、推理、编程和数学等多个领域,适用于研究人员、开发者和 AI 工程师进行模型性能对比与优化。

OpenBench开源地址:https://github.com/groq/openbench

OpenBench

OpenBench的主要功能

  • 支持 20+ 基准测试:涵盖知识(MMLU、GPQA)、推理(SimpleQA、MuSR)、编程(HumanEval)、数学(AIME、HMMT)等任务。
  • 与模型提供商无关:兼容 Groq、OpenAI、Anthropic、Google、Cohere、Ollama 等 15+ 平台。
  • 命令行工具简洁高效:
    • bench list:列出可用评估项
    • bench describe:查看评估详情
    • bench eval:运行模型评估
    • bench view:查看评估结果
  • 快速评估:60 秒内完成一次模型测试,适合快速迭代。
  • 可扩展性强:支持自定义评估任务和指标,适合研究和开发者深度定制。
  • 构建于 Inspect AI 框架之上:继承其稳定性和灵活性。

OpenBench使用教程(大模型评估工具) 

一、安装环境 

# 安装 uv 并创建虚拟环境
uv venv
source .venv/bin/activate

# 安装 OpenBench
uv pip install openbench

二、配置 API 密钥

根据你使用的模型平台设置环境变量:

export GROQ_API_KEY=你的密钥
export OPENAI_API_KEY=你的密钥
export ANTHROPIC_API_KEY=你的密钥

可选:设置默认模型

export BENCH_MODEL=groq/llama-3.1-70b

三、运行评估任务

# 示例:运行 MMLU 任务
bench eval mmlu –model groq/llama-3.3-70b-versatile –limit 10

其他示例:

# Groq 模型
bench eval gpqa_diamond –model groq/meta-llama/llama-4-maverick-17b-128e-instruct

# OpenAI 模型
bench eval humaneval –model openai/o3-2025-04-16

# Anthropic 模型
bench eval simpleqa –model anthropic/claude-sonnet-4-20250514

# Google Gemini
bench eval mmlu –model google/gemini-2.5-pro

# 本地模型(Ollama)
bench eval musr –model ollama/llama3.1:70b

四、查看评估结果

bench view

结果将保存在 ./logs/ 文件夹中,也可通过交互式界面查看。

五、常用命令速查表 

bench list # 查看所有可用任务和模型
bench describe # 查看任务详情
bench eval <任务> # 运行评估
bench view # 查看结果
bench –help # 查看所有命令和参数

OpenBench使用总结测评

OpenBench是一个强大而灵活的工具,适合你进行模型性能对比、基准测试、或构建自己的评估流程。如果你正在研究 LLM 或开发相关应用,它能显著提升你的效率和准确性。

数据评估

OpenBench浏览人数已经达到382,如你需要查询该站的相关权重信息,可以通过第三方来进行查询,比如爱站、5118数据、chinaz等;更多网站价值评估因素如:该网站的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于OpenBench特别声明

本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年8月6日 上午8:09收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

与OpenBench相关工具

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...