OpenBench

9个月前发布 2.7K 00

工具介绍:OpenBench是一个开源、跨平台的大语言模型评估工具,支持20+基准任务,兼容 Groq、OpenAI、Anthropic、Google Gemini、Ollama 等模型平台。所有操作通过命令行完成,适合快速、标准化地评估 LLM 表现。

收录时间:
2025-08-06

OpenBench简介

OpenBench是什么?

OpenBench是由Groq团队开发的开源、跨平台的大语言模型评估工具,旨在提供标准化、可重复的基准测试环境。它支持超过 20 个评估套件,涵盖知识、推理、编程和数学等多个领域,适用于研究人员、开发者和 AI 工程师进行模型性能对比与优化。

OpenBench开源地址:https://github.com/groq/openbench

OpenBench

OpenBench的主要功能

  • 支持 20+ 基准测试:涵盖知识(MMLU、GPQA)、推理(SimpleQA、MuSR)、编程(HumanEval)、数学(AIME、HMMT)等任务。
  • 与模型提供商无关:兼容 Groq、OpenAI、Anthropic、Google、Cohere、Ollama 等 15+ 平台。
  • 命令行工具简洁高效:
    • bench list:列出可用评估项
    • bench describe:查看评估详情
    • bench eval:运行模型评估
    • bench view:查看评估结果
  • 快速评估:60 秒内完成一次模型测试,适合快速迭代。
  • 可扩展性强:支持自定义评估任务和指标,适合研究和开发者深度定制。
  • 构建于 Inspect AI 框架之上:继承其稳定性和灵活性。

OpenBench使用教程(大模型评估工具) 

一、安装环境 

# 安装 uv 并创建虚拟环境
uv venv
source .venv/bin/activate

# 安装 OpenBench
uv pip install openbench

二、配置 API 密钥

根据你使用的模型平台设置环境变量:

export GROQ_API_KEY=你的密钥
export OPENAI_API_KEY=你的密钥
export ANTHROPIC_API_KEY=你的密钥

可选:设置默认模型

export BENCH_MODEL=groq/llama-3.1-70b

三、运行评估任务

# 示例:运行 MMLU 任务
bench eval mmlu –model groq/llama-3.3-70b-versatile –limit 10

其他示例:

# Groq 模型
bench eval gpqa_diamond –model groq/meta-llama/llama-4-maverick-17b-128e-instruct

# OpenAI 模型
bench eval humaneval –model openai/o3-2025-04-16

# Anthropic 模型
bench eval simpleqa –model anthropic/claude-sonnet-4-20250514

# Google Gemini
bench eval mmlu –model google/gemini-2.5-pro

# 本地模型(Ollama)
bench eval musr –model ollama/llama3.1:70b

四、查看评估结果

bench view

结果将保存在 ./logs/ 文件夹中,也可通过交互式界面查看。

五、常用命令速查表 

bench list # 查看所有可用任务和模型
bench describe # 查看任务详情
bench eval <任务> # 运行评估
bench view # 查看结果
bench –help # 查看所有命令和参数

OpenBench使用总结测评

OpenBench是一个强大而灵活的工具,适合你进行模型性能对比、基准测试、或构建自己的评估流程。如果你正在研究 LLM 或开发相关应用,它能显著提升你的效率和准确性。

OpenBench官网无法访问的常见原因及解决方案

如果你经常打不开OpenBench网站,最可能的原因有以下一些。别怕,还有办法帮助你顺利访问网站。

一、可能被软件屏蔽:部分应用,如微信、QQ 等自带的浏览应用可能就屏蔽了部分网址不让打开。

解决方案:采用自己手机的浏览器打开该网址,如Safari、Chrome等,而不是用微信或QQ的浏览器。

二、浏览器拦截:有时浏览器会错误地将网站判断成不安全、为不良网站而封锁。实际上,这并不一定意味着网站有问题,是因为浏览器厂商在其封锁列表之中的缘故。

解决方案:通过其它浏览器可能打开,例如:iphone用户Safari,windows用户(微软),Edge。推荐独立浏览器:Alook浏览器、X 浏览器、VIA 浏览器等

三、网络连接问题:如果你的网络速度比较慢,或所在运营商没有对该网站进行最佳化,也会出现无法打开的情况。

解决方案:切换到其他网络环境(wifi、移动数据等)用网络加速器让访问更顺畅科学上网(如访问 google 网站)

以上方法应该能解决99.99%网站打不开了。如果这些也无济于事,你可以留言咨询或微信联系我们进行寻求帮助!

关于OpenBench特别声明

本站新媒派提供的OpenBench内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年8月6日 上午8:09收录时,该网页上的内容,都属于合规合法,后期网页的内容如有出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...