Benchmark đẹp nhưng ablation study trong paper chưa convincing — cần independent test.
Multi-step reasoning thực sự khác biệt với chain-of-thought hiện tại — đáng test sâu.
Đã wire vào agent workflow — output stability tăng 30% vs GPT-4o.
Training data sources vẫn opaque. OpenAI cần transparency trước khi enterprise adopt.
Pricing $0.05/1M tokens cao gấp 3 GPT-4o-mini — ROI cho startup khó justify.
Đợi MLPerf official run mới đánh giá được — vendor benchmark luôn cherry-pick.
Tool calling nested 5 levels không bị lạc context — cải tiến rõ rệt từ GPT-4.
Cherry-picked benchmark trên MMLU, nhưng SWE-bench score không impressive như công bố.
EU AI Act compliance? Documentation chưa thấy public — đỏ flag cho deploy ở EU.
Latency p99 dưới 800ms cho 10k token — production-ready cho real-time use case.
Cần thấy fine-tuning API trước khi quyết định migrate workload từ Claude.






The heartbeat of the platform — refreshed live