Skip to content
Wróć do bloga
Aktualności

GPT-5.4 jest tutaj — co to oznacza dla tworcow agentow AI

Vstorm · · 4 min czytania
Spis treści

OpenAI wlasnie wypuscilo GPT-5.4 — ich najzdolniejszy model do tej pory. Laczy mocne strony GPT-5.3-Codex w kodowaniu z istotnymi ulepszeniami w rozumowaniu, computer use i wywolywaniu narzedzi. Dostepny juz teraz w API jako gpt-5.4 oraz w ChatGPT jako GPT-5.4 Thinking.

Oto co ma znaczenie, jesli budujesz agenty AI.

Natywne Computer Use

GPT-5.4 to pierwszy model ogolnego przeznaczenia od OpenAI z natywnymi mozliwosciami computer use. Moze obslugiwac komputery za pomoca zrzutow ekranu i polecen klawiatury/myszy, lub przez biblioteki kodowe takie jak Playwright.

Wyniki sa imponujace:

  • OSWorld-Verified: 75.0% (wzrost z 47.3% przy GPT-5.2, przewyzszajac ludzka wydajnosc na poziomie 72.4%)
  • WebArena-Verified: 67.3% dla zadan opartych na przegladarce

Dla frameworkow agentowych takich jak Pydantic AI i LangChain, otwiera to nowa klase workflow — agenty, ktore nie tylko wywoluja API, ale wchodza w interakcje z rzeczywistymi interfejsami oprogramowania. W polaczeniu ze srodowiskami sandboxowymi (takimi jak Docker czy Daytona), agenty computer-use staja sie wykonalne w produkcji.

Okno kontekstowe 1M tokenow

GPT-5.4 obsluguje do 1 miliona tokenow kontekstu w API. Dla dlugo dzialajacych agentow to przelom — agent moze utrzymac cala baze kodu, pelny zestaw dokumentow lub godziny historii konwersacji bez przekraczania limitow kontekstu.

Mimo to zarzadzanie kontekstem nadal ma znaczenie. Nasze doswiadczenie z summarization-pydantic-ai pokazuje, ze nawet przy duzych oknach kontekstowych inteligentna kompresja (sumaryzacja LLM + sliding window) daje lepsze wyniki niz wrzucanie wszystkiego do kontekstu. Model skupia sie uwaznie na najnowszych, istotnych informacjach.

Tool Search — najwazniejsza zmiana w API

To jest ukryta perla. Wczesniej wszystkie definicje narzedzi byly dolaczane do kazdego zapytania API. Przy dziesieciach narzedzi to tysiace tokenow na wywolanie — drogie i wolne.

GPT-5.4 wprowadza tool search: model otrzymuje lekka liste dostepnych narzedzi i moze wyszukac pelne definicje na zadanie. OpenAI raportuje 47% mniej tokenow przy obciazeniach z duza liczba narzedzi, z identyczna dokladnoscia.

Dla frameworkow, ktore komponuja wiele zestawow narzedzi — takich jak pydantic-deepagents, gdzie pojedynczy agent moze miec 30+ narzedzi z systemu plikow, planowania, sub-agentow, middleware i wiecej — to bezposrednio przeksztalca sie w nizsze koszty i szybsze odpowiedzi.

Ulepszenia w kodowaniu

GPT-5.4 dorownuje lub przewyzsza GPT-5.3-Codex w benchmarkach kodowania:

  • SWE-Bench Pro: 57.7% (vs 56.8%)
  • Terminal-Bench 2.0: 75.1%

Co wazniejsze, jest znacznie bardziej wydajny tokenowo — rozwiazuje problemy z mniejsza liczba reasoning tokens niz GPT-5.2. Dla petli agentowych, w ktorych model iteruje nad kodem (edycja → uruchomienie → poprawka), mniej tokenow na iteracje oznacza nizsze koszty i szybsze cykle.

Lepsze wywolywanie narzedzi

Na Toolathlon, ktory testuje wieloetapowe uzycie narzedzi, GPT-5.4 zdobywa 54.6% (vs 45.7% dla GPT-5.2) — i robi to w mniejszej liczbie tur. Lepsza dokladnosc wywolywania narzedzi z mniejsza liczba wymian bezposrednio poprawia niezawodnosc agentow.

Dla deweloperow uzywajacych lifecycle hooks (takich jak te w pydantic-ai-middleware) do sledzenia kosztow i audytu wywolan narzedzi, mniej niepotrzebnych wywolan oznacza czystsze logi i nizsze budzety.

Cennik

GPT-5.4 kosztuje wiecej za token, ale zuzywa mniej tokenow:

ModelInputCached InputOutput
gpt-5.2$1.75/M$0.175/M$14/M
gpt-5.4$2.50/M$0.25/M$15/M

Dzieki tool search i bardziej wydajnemu rozumowaniu, calkowity koszt na zadanie moze faktycznie spasc dla agentow z duza liczba narzedzi.

Co to oznacza dla naszego stacku

Juz testujemy GPT-5.4 w naszych narzedziach:

  • pydantic-deepagents: Okno kontekstowe 1M oznacza mniej wyzwalaczy sumaryzacji i dluzsze autonomiczne przebiegi. Tool search moze zmniejszyc narzut promptow o 40%+ dla naszego pelnego zestawu narzedzi.
  • pydantic-ai-backend: Mozliwosci computer use otwieraja drzwi do testowania opartego na przegladarce w sandboxach.
  • Full-Stack AI Agent Template: GPT-5.4 dziala jako drop-in replacement — wystarczy zmienic string modelu. Wyprobuj w web configuratorze.

Model jest juz dostepny. Jesli budujesz agenty z Pydantic AI, LangChain lub LangGraph, GPT-5.4 jest wart przetestowania juz dzisiaj — szczegolnie dla workflow z duza liczba narzedzi i dlugo dzialajacych.


Vstorm buduje produkcyjne systemy agentow AI. Utrzymujemy ponad 10 pakietow open-source dla ekosystemu Pydantic AI.

Udostępnij artykuł

Powiązane artykuły

Gotowy, żeby wdrożyć swoją aplikację AI?

Wybierz frameworki, wygeneruj projekt gotowy do produkcji i wdróż. 75+ opcji, jedna komenda, zero długu konfiguracyjnego.

Potrzebujesz pomocy przy budowie agentów AI?