Create T3 App

Top 5 Models

Multitask (MMLU-Pro)

Coding (Human Eval)

Mathematics (GSM8K)

Reasoning (IFEval)

Tool Utilization (T-Eval)

Inter-token Latency (seconds)

End-to-End Latency (seconds)

Time to First Token (seconds)

Output Throughput (tokens/s)

Models:vsConcurrent users:

Model	Average	MMLU-Pro	HumanEval	GSM8K	IFEval	T-Eval