方法说明与基准测试

治理

编辑责任

主要作者

Kirill Isachenko (lirik)

技术审核

Kirill Isachenko, product owner

更新节奏

标准每月复审，重要变更记录在 changelog.

评分

评分标准

每次工作流都会按加权模型评估，平衡命名准确性、操作安全和日常可用性。

维度	权重	衡量内容
语义文件名准确性	35%	新名称是否描述文件含义，而不是通用模式。
批量一致性	20%	混合文件任务中命名风格是否稳定。
自动化深度	15%	批量流程、文件夹监控和可重复性。
安全控制	15%	历史记录、回滚和应用前预览。
运行适配度	15%	macOS 工作流质量、速度和设置阻力。

验证

Benchmark 协议

01
使用包含截图、照片、PDF 和 Office 文档的混合文件集。
02
用相同 prompt 和命名约束运行受控重命名任务。
03
按评分标准评估输出，并记录误判或含糊命名。
04
在标记为可生产使用前验证回滚和恢复行为。
05
发布后重复检查，并记录重要变化。

Evidence status

No unpublished scores presented as facts

This page publishes the evaluation protocol, not a completed benchmark leaderboard. Zush does not claim benchmark scores until the controlled run, tested versions, review date, and evidence can be published together.