Claw Bench Leaderboard

Dual-Track Scoring Model Tasks are divided into two tracks: Foundation (core agent capabilities, 60% weight) and Subject-Matter (domain-specific professional tasks, 40% weight). The overall score combines both tracks.

319

Total Tasks

257

Foundation Tasks

Subject Tasks

L1 Easy

130

L2 Medium

113

L3 Hard

L4 Expert

Foundation Track (60%)

257 tasks

Domain	Tasks	L1	L2	L3	L4
Calendar	15	5	5	3	2
Code Assistance	15	3	6	4	2
Communication	15	3	5	6	1
Cross-Domain	17	0	0	10	7
CS Engineering	5	0	1	4	0
Data Analysis	17	3	6	6	2
Database	5	1	2	1	1
Debugging	5	1	2	1	1
Document Editing	18	4	9	4	1
Education	1	0	1	0	0
Email	18	3	8	6	1
File Operations	15	6	5	3	1
Math Reasoning	5	1	2	1	1
Multi-Agent	4	0	1	2	1
Memory	15	1	6	7	1
Multimodal	15	1	6	7	1
Planning	5	1	2	1	1
Real Tools	5	1	2	1	1
Security	15	3	5	4	3
System Admin	15	3	6	5	1
Web Browsing	15	3	6	5	1
Workflow Automation	17	2	8	6	1
Total	257	45	94	87	31

Subject-Matter Track (40%)

62 tasks

Domain	Tasks	L2	L3
domains.academicResearch	5	4	1
domains.accounting	5	3	2
domains.bioinformatics	5	2	3
domains.clinicalData	5	3	2
domains.contentAnalysis	5	3	2
domains.contractReview	5	3	2
domains.dataScienceDomain	5	4	1
domains.educationalAssessment	5	3	2
domains.financialAnalysis	7	4	3
domains.marketResearch	5	3	2
domains.regulatoryCompliance	5	3	2
domains.scientificComputing	5	1	4
Total	62	36	26

Subject Categories

STEM

10 tasks

domains.dataScienceDomain5

domains.scientificComputing5

Business & Finance

17 tasks

domains.accounting5

domains.financialAnalysis7

domains.marketResearch5

Law & Compliance

10 tasks

domains.contractReview5

domains.regulatoryCompliance5

Healthcare

10 tasks

domains.bioinformatics5

domains.clinicalData5

Humanities & Education

15 tasks

domains.academicResearch5

domains.contentAnalysis5

domains.educationalAssessment5

Difficulty legend:L1 EasyL2 MediumL3 HardL4 Expert