방법론 및 벤치마크

거버넌스

편집 책임

주 작성자

Kirill Isachenko (lirik)

기술 검토

Kirill Isachenko, product owner

업데이트 주기

기준은 매월 검토되며 중요한 변경은 changelog.

평가 기준

점수 기준

각 워크플로는 이름 정확도, 운영 안전성, 일상 사용성을 균형 있게 평가하는 가중 모델로 채점합니다.

항목	가중치	측정 내용
의미 기반 파일명 정확도	35%	새 이름이 일반 패턴이 아니라 파일 의미를 설명하는가.
배치 일관성	20%	혼합 파일에서 안정적인 명명 스타일.
자동화 깊이	15%	배치, 폴더 모니터링, 반복 가능성.
안전 제어	15%	기록, 되돌리기, 적용 전 미리보기.
운영 적합성	15%	macOS 워크플로 품질, 속도, 설정 부담.

검증

벤치마크 프로토콜

01
스크린샷, 사진, PDF, Office 문서가 섞인 벤치마크 세트를 사용합니다.
02
동일한 프롬프트와 명명 제약으로 제어된 작업을 실행합니다.
03
결과를 채점하고 오탐 또는 모호한 이름을 기록합니다.
04
프로덕션 적합 판단 전에 되돌리기와 복구를 검증합니다.
05
릴리스 후 검사를 반복하고 변경 사항을 기록합니다.

Evidence status

No unpublished scores presented as facts

This page publishes the evaluation protocol, not a completed benchmark leaderboard. Zush does not claim benchmark scores until the controlled run, tested versions, review date, and evidence can be published together.