方法とベンチマーク

ガバナンス

編集責任

主担当

Kirill Isachenko (lirik)

技術レビュー

Kirill Isachenko, product owner

更新頻度

基準は毎月確認し、重要な変更は changelog.

評価基準

スコアリング基準

各ワークフローは、名前の正確性、安全性、日常利用のしやすさを加重モデルで評価します。

項目	重み	測定内容
意味的なファイル名精度	35%	新しい名前が汎用パターンではなくファイルの意味を表すか。
バッチ内の一貫性	20%	混在ファイルでも命名スタイルが安定しているか。
自動化の深さ	15%	バッチ、フォルダ監視、再現性。
安全制御	15%	履歴、元に戻す、適用前プレビュー。
運用適合性	15%	macOS ワークフロー品質、速度、設定の手間。

検証

ベンチマーク手順

01
スクリーンショット、写真、PDF、Office 文書を含む混在セットを使う。
02
同じプロンプトと命名制約で制御されたリネームを実行する。
03
結果を評価し、誤検出や曖昧な名前を記録する。
04
本番利用前に復元と取り消し動作を確認する。
05
リリース後に再検証し、重要な変更を記録する。

Evidence status

No unpublished scores presented as facts

This page publishes the evaluation protocol, not a completed benchmark leaderboard. Zush does not claim benchmark scores until the controlled run, tested versions, review date, and evidence can be published together.