功能
轨迹回放
逐步浏览每个任务的截图序列
评测详情
查看评测 prompt、分数、verdict 和评分标准
API 日志检索
检查每步的 API 调用记录和 system prompt
Judge 对比实验
跨任务对比多种评测方法,识别高方差和结论翻转的任务
快速开始
启动服务器
参数说明
| 参数 | 默认值 | 说明 |
|---|---|---|
--host | 127.0.0.1 | 监听地址(内网共享请传 0.0.0.0) |
--port | 8080 | 服务端口 |
--watch | 关闭 | 实验文件变化时自动重新生成索引 |
--watch-interval | 3.0 | 轮询间隔(秒) |
--generate-only | 关闭 | 仅生成 experiments.json 后退出,不启动服务器 |
安全提示: 服务器默认只绑定127.0.0.1,仅本机可访问。/api/regenerate接口无鉴权,/experiments/*直接返回原始文件(日志、截图、配置)。仅在可信网络上传--host 0.0.0.0——具体参见下方内网共享章节。
仅生成索引
experiments/ 目录并写入 browseruse_bench/visualization/data/experiments.json。适用于 CI 或提前预生成数据。
实验目录结构
可视化服务器读取与排行榜相同的实验目录格式:内网共享
在 tmux 后台运行服务器,断开 SSH 后服务依然可访问: 安装 tmux(如未安装):0.0.0.0 时,启动日志首行会打印服务器探测到的局域网 URL——用 tmux attach -t viz 接入即可查看。如果需要手动查询 IP:
http://<服务器IP>:8090/。
防火墙(其他机器无法访问时):
排行榜 vs. 可视化工具
| 排行榜 | 可视化工具 | |
|---|---|---|
| 目的 | Agent 横向排名对比 | 任务级别详细分析 |
| 输出 | 单文件 HTML,可直接分享 | 本地动态 SPA,需启动服务器 |
| 粒度 | Run 级别聚合指标 | 每任务轨迹、日志、评测详情 |
| 共享方式 | 直接发送 HTML 文件 | 在共享主机上运行服务器 |