Vals AI in Media

View All News →

The Winners (and Losers) of This New Vibe-Coding Benchmark Will Surprise You

OpenAI's Less-Flashy Rival Might Have a Better Business Model

Vals AI Report Shows Gen AI Tools Outperforming Lawyers on Legal Research Tasks

We tested which AI gave the best answers without making stuff up. One beat ChatGPT.

Industry Leaderboard

Select industry:

xAI

Updates

model

03/05/2026

GPT 5.4 evaluated on our full benchmark suite

View Details

Benchmarks

Accuracy

Rankings

Vals Index

0.0%

± 1.96

4/ 32

0.0%

± 1.96

4/ 32

Vals Multimodal Index

0.0%

± 1.53

4/ 22

0.0%

± 1.53

4/ 22

CaseLaw (v2)

0.0%

± 2.24

13/ 37

0.0%

± 2.24

13/ 37

CorpFin

0.0%

± 0.94

11/ 88

0.0%

± 0.94

11/ 88

Finance Agent (v1.1)

0.0%

± 2.85

6/ 36

0.0%

± 2.85

6/ 36

MedCode

0.0%

± 2.15

18/ 44

0.0%

± 2.15

18/ 44

MedScribe

0.0%

± 3.32

21/ 44

0.0%

± 3.32

21/ 44

MortgageTax

0.0%

± 0.91

7/ 63

0.0%

± 0.91

7/ 63

ProofBench

0.0%

± 4.99

1/ 18

0.0%

± 4.99

1/ 18

SAGE

0.0%

± 3.12

14/ 43

0.0%

± 3.12

14/ 43

TaxEval (v2)

0.0%

± 0.87

18/ 96

0.0%

± 0.87

18/ 96

Vibe Code Bench

0.0%

± 4.84

1/ 18

0.0%

± 4.84

1/ 18

AIME

0.0%

± 0.53

4/ 88

0.0%

± 0.53

4/ 88

GPQA

0.0%

± 1.91

4/ 91

0.0%

± 1.91

4/ 91

IOI

0.0%

± 9.87

1/ 46

0.0%

± 9.87

1/ 46

LiveCodeBench

0.0%

± 1.04

14/ 98

0.0%

± 1.04

14/ 98

LegalBench

0.0%

± 0.41

4/ 110

0.0%

± 0.41

4/ 110

MedQA

0.0%

± 0.18

5/ 94

0.0%

± 0.18

5/ 94

MMLU Pro

0.0%

± 0.42

6/ 89

0.0%

± 0.42

6/ 89

MMMU

0.0%

± 0.79

4/ 60

0.0%

± 0.79

4/ 60

SWE-bench

0.0%

± 1.88

2/ 58

0.0%

± 1.88

2/ 58

Terminal-Bench 2.0

0.0%

± 5.25

6/ 43

0.0%

± 5.25

6/ 43

Academic Benchmarks

Proprietary Benchmarks (contact us to get access)

Public Enterprise LLM Benchmarks

GPT 5.4 evaluated on our full benchmark suite

Best Performing Models

Best Open Weight Models

Pareto Efficient Models

Vals AI in Media

Industry Leaderboard

Updates

GPT 5.4 evaluated on our full benchmark suite

GPT 5.4 evaluated on our full benchmark suite

Join our mailing list to receive benchmark updates