prompt-prix

Audit LLM function calling reliability across multiple models.

Select Models to Compare

Models run via Together AI

moonshotai/Kimi-K2.5 openai/gpt-oss-120b Qwen/Qwen3-Coder-Next-FP8

Timeout (seconds)

Fixed at 120s for demo

30 600

Max Tokens

Fixed at 256 for demo

256 8192

Test Suite

Validation

System Prompt Override

Applies to all tests (overrides per-test prompts)

Drift Threshold

Cosine distance to expected_response (0 = disabled). Lower = stricter.

0 0.5

Status

Runs

Run each test N times with different seeds to detect inconsistent models

1 10

Display Mode

Toggle between pass/fail symbols and response times

Symbols (✓/❌) Latency (seconds)