Run of 2025-10-24 15:00:17 / task1_file_list

Models Tested

75.0%

Success Rate

59s

Avg Duration

17s - 2m 15s

Duration Range

Score	Model	Duration	Session (KB)	test_1_file_exists.sh	test_2_valid_json.sh	test_3_json_structure.sh	test_4_expected_content.sh
100.0%	openrouter/google/gemini-2.5-flash-preview-09-2025	35s	20.1	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-5	1m 47s	262.5	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-5-nano	1m 45s	310.3	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-3-haiku	39s	34.6	✅	✅	✅	✅
100.0%	openrouter/qwen/qwen3-coder	1m 7s	35.2	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-3.5-sonnet	36s	35.0	✅	✅	✅	✅
100.0%	openrouter/google/gemini-2.5-pro	1m 11s	18.4	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-4o-mini	35s	79.7	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-oss-20b	2m 15s	827.1	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-3.7-sonnet	1m 13s	94.2	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-haiku-4.5	35s	30.4	✅	✅	✅	✅
100.0%	openrouter/deepseek/deepseek-v3.1-terminus	36s	37.2	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-sonnet-4.5	44s	27.7	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-4.1-nano	38s	28.8	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-5-mini	1m 12s	153.1	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-3.5-haiku	35s	34.4	✅	✅	✅	✅
100.0%	openrouter/anthropic/claude-sonnet-4	55s	42.1	✅	✅	✅	✅
100.0%	openrouter/openai/gpt-4.1-mini	38s	72.6	✅	✅	✅	✅
75.0%	litellm/GLM-4.5-Air-FP8-dev	2m 9s	48.2	✅	✅	✅	❌
0.0%	openrouter/openai/gpt-oss-120b	57s	149.5	❌	❌	❌	❌
0.0%	openrouter/x-ai/grok-3-mini	1m 16s	753.4	❌	❌	❌	❌
0.0%	openrouter/google/gemini-2.5-flash-lite-preview-09-2025	31s	12.8	❌	❌	❌	❌
0.0%	openrouter/deepseek/deepseek-chat-v3-0324	40s	22.5	❌	❌	❌	❌
0.0%	openrouter/qwen/qwen3-14b	17s	54.2	❌	❌	❌	❌