GPT-5.4 jest tutaj — co to oznacza dla tworcow agentow AI
Spis treści
OpenAI wlasnie wypuscilo GPT-5.4 — ich najzdolniejszy model do tej pory. Laczy mocne strony GPT-5.3-Codex w kodowaniu z istotnymi ulepszeniami w rozumowaniu, computer use i wywolywaniu narzedzi. Dostepny juz teraz w API jako gpt-5.4 oraz w ChatGPT jako GPT-5.4 Thinking.
Oto co ma znaczenie, jesli budujesz agenty AI.
Natywne Computer Use
GPT-5.4 to pierwszy model ogolnego przeznaczenia od OpenAI z natywnymi mozliwosciami computer use. Moze obslugiwac komputery za pomoca zrzutow ekranu i polecen klawiatury/myszy, lub przez biblioteki kodowe takie jak Playwright.
Wyniki sa imponujace:
- OSWorld-Verified: 75.0% (wzrost z 47.3% przy GPT-5.2, przewyzszajac ludzka wydajnosc na poziomie 72.4%)
- WebArena-Verified: 67.3% dla zadan opartych na przegladarce
Dla frameworkow agentowych takich jak Pydantic AI i LangChain, otwiera to nowa klase workflow — agenty, ktore nie tylko wywoluja API, ale wchodza w interakcje z rzeczywistymi interfejsami oprogramowania. W polaczeniu ze srodowiskami sandboxowymi (takimi jak Docker czy Daytona), agenty computer-use staja sie wykonalne w produkcji.
Okno kontekstowe 1M tokenow
GPT-5.4 obsluguje do 1 miliona tokenow kontekstu w API. Dla dlugo dzialajacych agentow to przelom — agent moze utrzymac cala baze kodu, pelny zestaw dokumentow lub godziny historii konwersacji bez przekraczania limitow kontekstu.
Mimo to zarzadzanie kontekstem nadal ma znaczenie. Nasze doswiadczenie z summarization-pydantic-ai pokazuje, ze nawet przy duzych oknach kontekstowych inteligentna kompresja (sumaryzacja LLM + sliding window) daje lepsze wyniki niz wrzucanie wszystkiego do kontekstu. Model skupia sie uwaznie na najnowszych, istotnych informacjach.
Tool Search — najwazniejsza zmiana w API
To jest ukryta perla. Wczesniej wszystkie definicje narzedzi byly dolaczane do kazdego zapytania API. Przy dziesieciach narzedzi to tysiace tokenow na wywolanie — drogie i wolne.
GPT-5.4 wprowadza tool search: model otrzymuje lekka liste dostepnych narzedzi i moze wyszukac pelne definicje na zadanie. OpenAI raportuje 47% mniej tokenow przy obciazeniach z duza liczba narzedzi, z identyczna dokladnoscia.
Dla frameworkow, ktore komponuja wiele zestawow narzedzi — takich jak pydantic-deepagents, gdzie pojedynczy agent moze miec 30+ narzedzi z systemu plikow, planowania, sub-agentow, middleware i wiecej — to bezposrednio przeksztalca sie w nizsze koszty i szybsze odpowiedzi.
Ulepszenia w kodowaniu
GPT-5.4 dorownuje lub przewyzsza GPT-5.3-Codex w benchmarkach kodowania:
- SWE-Bench Pro: 57.7% (vs 56.8%)
- Terminal-Bench 2.0: 75.1%
Co wazniejsze, jest znacznie bardziej wydajny tokenowo — rozwiazuje problemy z mniejsza liczba reasoning tokens niz GPT-5.2. Dla petli agentowych, w ktorych model iteruje nad kodem (edycja → uruchomienie → poprawka), mniej tokenow na iteracje oznacza nizsze koszty i szybsze cykle.
Lepsze wywolywanie narzedzi
Na Toolathlon, ktory testuje wieloetapowe uzycie narzedzi, GPT-5.4 zdobywa 54.6% (vs 45.7% dla GPT-5.2) — i robi to w mniejszej liczbie tur. Lepsza dokladnosc wywolywania narzedzi z mniejsza liczba wymian bezposrednio poprawia niezawodnosc agentow.
Dla deweloperow uzywajacych lifecycle hooks (takich jak te w pydantic-ai-middleware) do sledzenia kosztow i audytu wywolan narzedzi, mniej niepotrzebnych wywolan oznacza czystsze logi i nizsze budzety.
Cennik
GPT-5.4 kosztuje wiecej za token, ale zuzywa mniej tokenow:
| Model | Input | Cached Input | Output |
|---|---|---|---|
| gpt-5.2 | $1.75/M | $0.175/M | $14/M |
| gpt-5.4 | $2.50/M | $0.25/M | $15/M |
Dzieki tool search i bardziej wydajnemu rozumowaniu, calkowity koszt na zadanie moze faktycznie spasc dla agentow z duza liczba narzedzi.
Co to oznacza dla naszego stacku
Juz testujemy GPT-5.4 w naszych narzedziach:
- pydantic-deepagents: Okno kontekstowe 1M oznacza mniej wyzwalaczy sumaryzacji i dluzsze autonomiczne przebiegi. Tool search moze zmniejszyc narzut promptow o 40%+ dla naszego pelnego zestawu narzedzi.
- pydantic-ai-backend: Mozliwosci computer use otwieraja drzwi do testowania opartego na przegladarce w sandboxach.
- Full-Stack AI Agent Template: GPT-5.4 dziala jako drop-in replacement — wystarczy zmienic string modelu. Wyprobuj w web configuratorze.
Model jest juz dostepny. Jesli budujesz agenty z Pydantic AI, LangChain lub LangGraph, GPT-5.4 jest wart przetestowania juz dzisiaj — szczegolnie dla workflow z duza liczba narzedzi i dlugo dzialajacych.
Vstorm buduje produkcyjne systemy agentow AI. Utrzymujemy ponad 10 pakietow open-source dla ekosystemu Pydantic AI.
Powiązane artykuły
Od create-react-app do create-ai-app: Nowy standard dla aplikacji AI
W 2016 roku create-react-app ustandaryzował budowanie frontendów. W 2026 roku aplikacje AI potrzebują tego samego moment...
AGENTS.md: Jak przygotować repozytorium dla agentów AI (Copilot, Cursor, Codex, Claude Code)
Każde narzędzie AI do kodowania czyta Twoje repozytorium inaczej. Sprawdź, jak AGENTS.md — wschodzący standard — daje im...
Od zera do produkcyjnego agenta AI w 30 minut — szablon full-stack z 5 frameworkami AI
Krok po kroku: konfigurator webowy, wybierz preset, wybierz framework AI, skonfiguruj 75+ opcji, docker-compose up — dzi...