OpenBench

6个月前发布 2.7K 00

工具介绍：OpenBench是一个开源、跨平台的大语言模型评估工具，支持20+基准任务，兼容 Groq、OpenAI、Anthropic、Google Gemini、Ollama 等模型平台。所有操作通过命令行完成，适合快速、标准化地评估 LLM 表现。

收录时间：

2025-08-06

访问官网手机查看

开源工具 # LLM性能测试平台 # 大模型评估工具

访问官网

OpenBench简介

OpenBench是什么？

OpenBench是由Groq团队开发的开源、跨平台的大语言模型评估工具，旨在提供标准化、可重复的基准测试环境。它支持超过 20 个评估套件，涵盖知识、推理、编程和数学等多个领域，适用于研究人员、开发者和 AI 工程师进行模型性能对比与优化。

OpenBench开源地址：https://github.com/groq/openbench

OpenBench的主要功能

支持 20+ 基准测试：涵盖知识（MMLU、GPQA）、推理（SimpleQA、MuSR）、编程（HumanEval）、数学（AIME、HMMT）等任务。
与模型提供商无关：兼容 Groq、OpenAI、Anthropic、Google、Cohere、Ollama 等 15+ 平台。
命令行工具简洁高效：
- bench list：列出可用评估项
- bench describe：查看评估详情
- bench eval：运行模型评估
- bench view：查看评估结果
快速评估：60 秒内完成一次模型测试，适合快速迭代。
可扩展性强：支持自定义评估任务和指标，适合研究和开发者深度定制。
构建于 Inspect AI 框架之上：继承其稳定性和灵活性。

OpenBench使用教程（大模型评估工具）

一、安装环境

# 安装 uv 并创建虚拟环境
uv venv
source .venv/bin/activate
# 安装 OpenBench
uv pip install openbench

二、配置 API 密钥

根据你使用的模型平台设置环境变量：

export GROQ_API_KEY=你的密钥
export OPENAI_API_KEY=你的密钥
export ANTHROPIC_API_KEY=你的密钥

可选：设置默认模型

export BENCH_MODEL=groq/llama-3.1-70b

三、运行评估任务

# 示例：运行 MMLU 任务
bench eval mmlu –model groq/llama-3.3-70b-versatile –limit 10

其他示例：

# Groq 模型
bench eval gpqa_diamond –model groq/meta-llama/llama-4-maverick-17b-128e-instruct
# OpenAI 模型
bench eval humaneval –model openai/o3-2025-04-16
# Anthropic 模型
bench eval simpleqa –model anthropic/claude-sonnet-4-20250514
# Google Gemini
bench eval mmlu –model google/gemini-2.5-pro
# 本地模型（Ollama）
bench eval musr –model ollama/llama3.1:70b

四、查看评估结果

bench view

结果将保存在 ./logs/ 文件夹中，也可通过交互式界面查看。

五、常用命令速查表

bench list # 查看所有可用任务和模型
bench describe # 查看任务详情
bench eval <任务> # 运行评估
bench view # 查看结果
bench –help # 查看所有命令和参数

OpenBench使用总结测评

OpenBench是一个强大而灵活的工具，适合你进行模型性能对比、基准测试、或构建自己的评估流程。如果你正在研究 LLM 或开发相关应用，它能显著提升你的效率和准确性。

关于OpenBench特别声明

本站新媒派提供的OpenBench内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2025年8月6日上午8:09收录时，该网页上的内容，都属于合规合法，后期网页的内容如有出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的运营工具和AI工具资源分享！本文地址https://pidoutv.com/sites/37430.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenBench

OpenBench简介

OpenBench是什么？

OpenBench的主要功能

OpenBench使用教程（大模型评估工具）

一、安装环境

二、配置 API 密钥

三、运行评估任务

四、查看评估结果

五、常用命令速查表

OpenBench使用总结测评

相关导航

ComoRAG

kkFileView

LogoCreator

Maple Mono

Zotero PDF2zh

MagicColor

STranslate

Geopattern

暂无评论