Kiedy OpenAI wypuszcza narzędzie do kodowania, warto sprawdzić, czy za marką stoi realna moc. Codex to agent, który działa dwutorowo: w terminalu na Twoim komputerze oraz w chmurze, gdzie wykonuje zadania asynchronicznie, jak zdalny współpracownik. Testowaliśmy go przez ponad dwa tygodnie na polskich projektach. Poniżej rozbiór z cenami w złotówkach i uczciwą listą wad.

Werdykt w jednym zdaniu

Codex to dojrzały agent OpenAI, który błyszczy w pracy w tle i naprawie bugów, choć starszy model z rodziny GPT-5, który go napędza, ustępuje dziś czołówce benchmarków kodowania.

Czym jest Codex

Metafora, którą sami twórcy lubią przywoływać, jest trafna: Codex to jak delegowanie zadania młodszemu programiście. Przydzielasz robotę, agent pracuje sam, a po chwili wraca z gotowymi zmianami, logami z terminala i wyjaśnieniem, co zrobił. To odróżnia go od zwykłego czatu z modelem: Codex nie tylko podpowiada, ale wykonuje zadania od początku do końca, czyli działa jak agent AI.

Codex jest wszędzie tam, gdzie pracujesz. Uruchomisz go jako narzędzie w terminalu (komenda codex, o której za chwilę), jako rozszerzenie do VS Code, przez aplikację webową, na iPhonie, a od czerwca 2026 także na Amazon Bedrock. Jeśli terminal jest dla Ciebie nowością, zajrzyj do naszego hasła o CLI. W teście korzystaliśmy z wersji CLI widocznej niżej.

Jak testowaliśmy

Daliśmy Codeksowi ten sam zestaw zadań co konkurencji: refaktor w projekcie TypeScript, dopisanie testów oraz naprawę buga. Dodatkowo sprawdziliśmy jego znak firmowy, czyli pracę w chmurze: odpaliliśmy kilka zadań naraz w izolowanych piaskownicach i zajmowaliśmy się czymś innym, a Codex wracał z gotowymi różnicami do przejrzenia. To inny rytm pracy niż jedna sesja w konsoli, i dla części osób bardziej wygodny.

Wyniki? Refaktor Codex domknął solidnie, choć przy jednym pliku zostawił drobną niespójność, którą trzeba było poprawić ręcznie. Testy dopisał sprawnie i od razu przechodziły. Najlepiej wypadł przy bugu: szybko zawęził problem i podał poprawkę z krótkim uzasadnieniem, co ułatwiło ocenę, czy ma rację. Praca w chmurze zdała egzamin przy trzech niezależnych, drobnych zadaniach odpalonych naraz. Wróciły gotowe mniej więcej w tym samym czasie, w którym jedno zajęłoby nam pełną uwagę.

Co działa świetnie

Praca w tle i delegowanie to najmocniejsza karta Codeksa. Odpalasz zadanie w chmurze, zamykasz laptopa, a po powrocie masz gotowy zestaw zmian z opisem i logami. Przy dobrze zdefiniowanych, powtarzalnych zadaniach (dopisz walidację, dodaj obsługę nowego pola, popraw literówki w komunikatach) to realnie oszczędza czas, bo kilka rzeczy dzieje się równolegle.

Namierzanie bugów wychodzi mu bardzo dobrze. W teście naprawy błędu Codex sprawnie zawęził problem i zaproponował poprawkę, którą wystarczyło zaakceptować. Twórcy chwalą się, że model z rodziny GPT-5 dedykowany kodowaniu osiąga wysoki wynik na benchmarku SWE-bench, wyraźnie wyżej niż starsze narzędzia. To liczba producenta, więc traktujemy ją z rezerwą, ale w praktyce naprawa bugów faktycznie była jego mocną stroną.

Doceniamy też tryb nieinteraktywny. Komenda uruchamiająca Codeksa jednym poleceniem, bez otwierania pełnej sesji, pozwala wpiąć agenta w skrypty i automatyzacje. Dla bardziej zaawansowanych to furtka do rzeczy w stylu „przy każdym nowym zgłoszeniu błędu spróbuj napisać poprawkę i pokaż propozycję”. Początkujący tego nie ruszą od razu, ale warto wiedzieć, że narzędzie rośnie razem z Twoimi umiejętnościami i nie kończy się na jednym oknie czatu.

Wszechobecność narzędzia to duży komfort. Zaczynasz zadanie na komputerze w CLI, sprawdzasz postęp z telefonu, kończysz w edytorze. Rozszerzenie do VS Code ma miliony instalacji, a wersja CLI należy do najpopularniejszych narzędzi tego typu na GitHubie, co przekłada się na sporą społeczność i szybkie odpowiedzi na problemy. Od czerwca 2026 Codex jest też dostępny na Amazon Bedrock, co ma znaczenie dla firm trzymających dane w chmurze AWS i niechętnych wyprowadzaniu ich na zewnątrz. To sygnał, że OpenAI celuje nie tylko w pojedynczych programistów, ale i w większe organizacje.

Code review i praca zespołowa

Codex ma wbudowaną funkcję przeglądu kodu. Zamiast prosić o napisanie czegoś nowego, każesz mu przejrzeć proponowane zmiany i wskazać potencjalne problemy, zanim trafią do projektu. W zespole to realna wartość: agent łapie literówki, brakujące przypadki brzegowe i drobne niespójności, których człowiek po godzinach nie zauważa. Nie zastąpi to doświadczonego recenzenta, ale odsiewa najgłupsze błędy, zanim ktokolwiek je zobaczy.

Podobnie jak konkurencja, Codex czyta plik z instrukcjami projektu, w którym opisujesz zasady i komendy. Im lepiej go wypełnisz, tym trafniejsze efekty. To drobna inwestycja na starcie, która zwraca się przy każdym kolejnym zadaniu. Dla osoby początkującej dobra wiadomość jest taka, że nawet bez konfiguracji Codex działa sensownie, a ustawienia można dokładać stopniowo, w miarę jak rośnie projekt.

Co potrafi wkurzyć

Model to najbardziej dyskusyjny punkt, choć obraz jest niejednoznaczny. W czołówce indeksu kodowania Artificial Analysis (dane z 2 lipca 2026) prowadzi Claude Fable 5 z wynikiem 76,5, tuż za nim jest GPT-5.5 (74,9), a dalej Claude Opus 4.8 (74,3). Problem w tym, że starszy GPT-5.1, który wciąż napędza część zadań Codeksa, notuje jedynie 49,4, wyraźnie poniżej frontu. W praktyce czuć to jako nieco większą liczbę poprawek przy najtrudniejszych zadaniach. Trzeba jednak uczciwie dodać, że Codex korzysta z wariantów modelu dostrojonych pod kodowanie, więc różnica w realnej pracy bywa mniejsza niż w suchych liczbach.

Rozliczenie kredytowe wymaga uwagi. W kwietniu 2026 Codex przeszedł na model kredytowy liczony od zużycia tokenów. Dla lekkich zadań bywa taniej niż wcześniej, ale intensywna praca w chmurze potrafi zjeść limit szybciej, niż się spodziewasz. Zanim ruszysz na poważnie, oszacuj koszt w naszym kalkulatorze kosztów API.

Praca w tle wymaga dyscypliny. Odpalanie kilku zadań naraz jest wygodne, ale trzeba potem uważnie przejrzeć każdy zestaw zmian. Łatwo wpaść w rutynę klikania „akceptuj”, a przy zmianach dotykających danych albo płatności to prosta droga do kłopotów. Codex świetnie przygotowuje robotę, ale odpowiedzialność za jej sprawdzenie zostaje po Twojej stronie.

Ile to kosztuje w złotówkach

Codex jest wliczony w plany ChatGPT. Kwoty w USD, w nawiasie orientacyjnie w PLN po kursie z lipca 2026:

Free: 0 USD, ograniczony dostęp na spróbowanie.
Plus: 20 USD miesięcznie (około 80 zł), od 10 do 60 zadań w chmurze w oknie pięciogodzinnym.
Pro 5x: 100 USD miesięcznie (około 400 zł), pięć razy więcej zużycia.
Pro 20x: 200 USD miesięcznie (około 800 zł), dwadzieścia razy więcej.

Dla większości osób próg wejścia to plan Plus za około 80 zł, ten sam, który daje dostęp do ChatGPT. To wygodne, jeśli i tak z niego korzystasz. Aktualne limity i stawki znajdziesz w oficjalnym cenniku Codeksa.

Codex kontra Claude Code

Bezpośredni rywal to Claude Code, agent Anthropic działający w terminalu. Oba domykają duże zadania, ale grają innym stylem. Codex mocniej stawia na pracę w tle i delegowanie wielu zadań naraz, Claude Code na jedną, głęboką sesję z mocniejszym modelem. Pełne starcie rozpisaliśmy w osobnym porównaniu Claude Code kontra Codex. W skrócie: gdy masz kilka dobrze opisanych zadań do zrównoleglenia, Codex bywa wygodniejszy, a gdy liczy się jeden trudny refaktor wymagający rozumienia całości, chętniej sięgamy po Claude Code.

Dla kogo

Codex ma sens dla osób, które już płacą za ChatGPT i chcą wycisnąć z tej subskrypcji więcej, oraz dla tych, którym pasuje rytm delegowania zadań i pracy w tle. Świetnie sprawdza się przy powtarzalnej robocie i naprawie bugów. Początkujący docenią, że mogą sprawdzać postęp z telefonu i że narzędzie jest częścią znanego już ekosystemu OpenAI. Jeśli natomiast zależy Ci na absolutnie najlepszym modelu do najtrudniejszych zadań, rozważ też konkurencję.

Werdykt

Codex dostaje od nas 8,5 na 10. To dojrzały, wygodny i wszechobecny agent, który błyszczy w pracy w tle i naprawie bugów, a próg wejścia przez plan ChatGPT Plus jest niski. Odejmujemy punkty za model, który w niezależnych benchmarkach ustępuje liderowi, oraz za rozliczenie kredytowe wymagające pilnowania. Jeśli lubisz styl delegowania zadań i jesteś już w świecie OpenAI, to bardzo dobry wybór.