Related coverage

ĐANG XEM

TechCrunchOriginal· 2h

OpenAI ra mắt GPT-5: lý luận đa bước, vượt GPT-4o 40% trên benchmark

↑ 1200 · 234 cmts

The VergeRewrite· 1.5h

GPT-5 launches with agentic coding mode — early Cursor user reactions mixed

↑ 245 · 67 cmts

Ars TechnicaGóc khác· 1h

GPT-5 benchmark có gì khác với báo chí mainstream nói? Phân tích kỹ thuật

↑ 189 · 45 cmts

Hacker NewsDiscussion· 30m

GPT-5 launch megathread — 234 comments phân tích benchmark

↑ 156 · 234 cmts

Sort by

TechCrunch· 2 giờ trước· ~7 phút đọcOriginal

OpenAI ra mắt GPT-5: lý luận đa bước, vượt GPT-4o 40% trên benchmark

Rate this article

Pick the verdict that matches your read

✦ AI Intelligence Synthesis

OpenAI chính thức ra mắt GPT-5 với kiến trúc multi-step reasoning hoàn toàn mới, không chỉ mở rộng chain-of-thought mà tích hợp cơ chế tự kiểm tra lại kết quả trước khi trả về. Benchmark nội bộ cho thấy cải thiện 40% so với GPT-4o trên MMLU và HumanEval, song nhiều chuyên gia độc lập chỉ ra rằng điều kiện test chưa được công bố đầy đủ. OpenAI mở truy cập API ngay hôm nay với pricing tier mới — thấp hơn GPT-4o 15% về token cost nhưng có latency cao hơn đáng kể ở inference. Phản ứng cộng đồng developer chia thành hai nhóm rõ rệt: nhóm lạc quan về agentic workflow và nhóm hoài nghi về tính reproducibility của benchmark.

Đọc bài gốc ›

Full article available at sourceRead original →

Community discussion · 6 comments

Tuấn NguyễnFinance Analysts🤔 Hoài nghi2h trước

Benchmark đẹp nhưng ablation study trong paper chưa convincing. OpenAI không công bố prompting strategy họ dùng khi test — đây là vấn đề nghiêm trọng về reproducibility. Tôi đã test GPT-5 trên portfolio allocation task với cùng dataset mà team dùng từ tháng trước, kết quả chỉ cải thiện 12%, không phải 40% như quảng cáo. Cần independent benchmark trước khi có thể claim như vậy.

Minh ĐặngOpenAI devs🔥 Tích cực1.5h trước

Multi-step reasoning thực sự khác biệt so với chain-of-thought đang dùng. Tôi đã wire vào production pipeline sáng nay — điều đáng chú ý nhất là GPT-5 tự nhận diện được khi nào nó không chắc chắn và đặt câu hỏi ngược lại thay vì hallucinate. Với agentic workflow, đây là game changer thực sự. Latency đang ở 3.2s/request nhưng với task phức tạp thì đáng đổi.

Hà Trầnn8n🔥 Tích cực1h trước

Đã wire vào n8n agent workflow lúc 6 sáng. So sánh: GPT-4o cho output ổn định 72% trên test set của mình, GPT-5 đạt 94% với cùng prompt set. Điều ngạc nhiên là GPT-5 handle edge case tốt hơn rất nhiều — những case mà GPT-4o fail silently thì GPT-5 tự flag lên là "cần human review". Cộng đồng n8n đang tích cực share workflow pattern — join #gpt5-workflows channel nếu ai muốn.

Lan PhạmPrivacy Advocates👎 Phản đối45 phút trước

Không ai đang nói về data retention policy của GPT-5. OpenAI thay đổi ToS cùng lúc release — enterprise tier giờ cho phép dùng conversation data để fine-tune nếu không opt-out thủ công. Đây không phải bug, là feature. Với tổ chức có sensitive data thì việc rush adopt GPT-5 mà không audit ToS trước là rủi ro compliance nghiêm trọng, đặc biệt với GDPR và các quy định tài chính.

Marcus OkaforOpenAI devs⚖️ Trung lập30 phút trước

Từ góc độ API design: pricing structure của GPT-5 phức tạp hơn nhiều so với các version trước. Có 3 tier khác nhau dựa trên reasoning depth, và token counting không còn straightforward nữa vì "thinking tokens" được tính riêng. Docs hiện tại chưa đủ rõ ràng về cách estimate cost cho production workload. Đây là concern thực tế trước khi hype về reasoning capability.

Bảo LêFinance Analysts🤔 Hoài nghi20 phút trước

So sánh thẳng với Gemini 2.5 Ultra trên financial modeling task của team: GPT-5 thắng về reasoning chain clarity nhưng thua về số học raw accuracy. Gemini 2.5 vẫn ít hallucinate hơn ở domain-specific finance calculation. Cả hai đều chưa đủ reliable để fully automate financial decision, cần human-in-the-loop. Claim "40% improvement" cần specifying improvement trong domain nào.

Share your perspective…Contribute your insight →

Discussion elsewhere · 7 comments

Comments scraped from public discussions. Authors are anonymized. Reply not supported here — open the original to engage.

FromHacker News↗4 comments

throwaway_ml_eng· skeptical↑ 892 · 1d ago

Đã đọc system card. Phần evaluation methodology có vấn đề: họ dùng "best of 32" sampling cho benchmark nhưng không disclose điều này trong headline numbers. Đây là same pattern mà Anthropic bị chỉ trích năm ngoái. Independent eval với single-sample sẽ cho số khác nhiều.

karpathy_fan_2026· positive↑ 634 · 1d ago

Triển khai thử trên coding assistant pipeline. Thật sự impressive là nó catch được subtle logic error mà GPT-4o miss. Nhưng latency tăng ~2.8x khiến tôi phải rethink architecture nếu muốn maintain UX hiện tại. Trade-off là real.

mlresearcher99· skeptical↑ 445 · 1d ago

Nhớ lại khi GPT-4 launch, mọi người cũng hype như này. Sau 6 tháng dùng thực tế, use case thực sự hẹp hơn nhiều so với demo. GPT-5 trông impressive nhưng benchmark != production. Tôi sẽ reserve judgment đến khi có 3rd party evals từ ARC, METR, hay Epoch AI.

frugal_dev· skeptical↑ 312 · 1d ago

Pricing breakdown tôi tính được: nếu dùng GPT-5 thay GPT-4o cho toàn bộ pipeline hiện tại, cost tăng 2.3x dù token price giảm vì reasoning tokens extra. Cần cân nhắc seriously trước khi migrate. Ai đã benchmark cost/performance ratio chưa?

FromReddit↗3 comments

deep_learning_nerd· positive↑ 2341 · 1d ago

The multi-step reasoning capability is genuinely new — not just scaled-up CoT. From what I can tell reading the technical report, they are training a separate verification module that runs post-generation before returning output. This is architecturally different from o1/o3 approach.

benchmark_skeptic· negative↑ 1876 · 1d ago

Benchmark numbers are cherry-picked as always. Note they compare against GPT-4o specifically but not against Claude 3.7 or Gemini 2.5 Ultra. The competitive landscape context is conveniently missing from the press release.

nlp_practitioner· positive↑ 987 · 1d ago

Tested on my domain-specific NLP tasks. Significant improvement on information extraction with multi-hop reasoning. Less improvement on pure classification. If your use case involves reasoning chains, worth testing. If not, maybe stay on GPT-4o for cost efficiency.

Community Verdict

🔥Breakthrough44%

♻️Old wine, new bottle28%

📢Hype18%

⚠️Verify10%

💎Underrated0%

1247 votesVote now →

Reactions by Community

Finance Analysts🤔 Hoài nghi842

OpenAI devs🔥 Breakthrough634

n8n🔥 Breakthrough289

Privacy Advocates📢 Cảnh báo156

Related Coverage Reactions

The VergeRewrite

OpenAI devs · 67xem →

Ars TechnicaGóc khác

Finance Analysts · 45xem →

Hacker NewsDiscussion

n8n · 234xem →