오늘은 AI가 두 갈래로 갈라지는 느낌이 강하다. 하나는 ‘더 빨리’(실시간 코딩, 초저지연)이고, 다른 하나는 ‘더 깊게’(과학·연구용 reasoning)다. 그리고 이 둘을 돈(초대형 투자)과 안전(가드레일 품질)이 뒤에서 밀어준다.
OpenAI, GPT‑5.3‑Codex‑Spark로 ‘실시간 코딩’ 라인 깔기
OpenAI가 GPT‑5.3‑Codex‑Spark를 연구 프리뷰로 공개했다. 이름부터 “코덱스”가 박혀 있는 것처럼 방향성이 되게 명확한데, 목표가 그냥 코딩을 잘하는 모델이 아니라 “실시간으로 같이 코딩하는 느낌”을 만드는 쪽이다.
핵심 포인트는 속도다. OpenAI는 초저지연 하드웨어에서 1000 tokens/sec 이상을 언급했고, 이걸 Cerebras의 Wafer Scale Engine 3 기반 저지연 서빙 티어로 받친다고 했다. 즉, 모델 자체 지능만으로 승부 보는 게임에서, “이걸 어떻게 서빙하느냐”가 사용자 경험을 갈라먹는 구간으로 들어왔다는 얘기다. 실제로 글에서 request-response 파이프라인 최적화(웹소켓 기반, 라운드트립/토큰 오버헤드/TTFT 개선) 같은 인프라 얘기가 꽤 크게 나온다. 예전 같으면 블로그 글 한 구석에 들어갈 내용인데, 이제는 모델 발표의 본체가 돼버렸다.
제품적으로도 재미있다. Codex가 장시간 자율 실행(몇 시간~며칠) 같은 “긴 호흡” 모드에 강해지고 있다는 얘기를 하면서, Spark는 “지금 이 순간 편집하고 즉시 확인하는” 짧은 피드백 루프에 최적화됐다고 한다. 개발자 입장에서는 둘 다 필요하다. PR 하나 통째로 맡기기(장기)와, 컴파일 에러 한 줄 같이 잡기(실시간)는 완전히 다른 UX다.
다만 이 철학은 부작용도 낳는다. Spark는 기본 동작이 가볍고, 테스트를 자동으로 돌리지 않는다고 했다(원하면 시켜야 함). 이건 속도에 올인한 선택인데, 팀 개발에서는 “빠른데 틀리는” 순간이 더 비쌀 수 있다. 결국 중요한 건 모델이 아니라 “기본값을 무엇으로 두느냐”다. 초저지연이 주는 쾌감과, 안전장치(테스트/린트/검증)의 기본 탑재 사이에서 어느 쪽을 디폴트로 가져갈지가 앞으로의 경쟁 포인트가 될 가능성이 크다.
Google, Gemini 3 Deep Think 업그레이드: 과학·연구·공학용 ‘깊은 추론’ 밀어붙이기
Google은 Gemini 3 Deep Think를 크게 업그레이드했다고 발표했다. Deep Think는 “특화 reasoning 모드”로 포지셔닝되고, 이번 업데이트는 과학/연구/공학 문제를 더 잘 풀도록 튜닝했다고 한다.
여기서 흥미로운 건, 단순히 벤치마크 점수 자랑만 하는 게 아니라 “누가 어떻게 쓰고 있나”를 먼저 깔아준다는 점이다. 예시로 수학 논문에서 논리적 결함을 잡았다거나, 결정 성장 레시피를 설계했다거나, 물리 부품 설계를 가속했다 같은 케이스가 나온다. 메시지는 한 줄로 요약 가능하다.
- 범용 챗봇: 웬만한 건 다 한다
- Deep Think: “애초에 사람이 정답을 모르는 문제”에서 더 세게 간다
벤치마크도 꽤 공격적으로 적었다. Humanity’s Last Exam 48.4%(도구 없이), ARC-AGI-2 84.6%, Codeforces Elo 3455 같은 숫자를 전면에 내세운다. 이런 숫자 자체는 맥락을 모르고 보면 허세처럼 보일 수 있는데, 중요한 건 “Google이 이걸 제품 라인업으로 계속 밀겠다는 의지”다. 그리고 더 중요한 건 API 쪽이다. Gemini 앱에서는 Google AI Ultra 구독자에게 제공하고, Gemini API로는 연구자/기업 early access를 받는다.
이 흐름은 개발자 경험 측면에서 꽤 현실적이다. 연구/엔지니어링 문제는 데이터가 지저분하고, 제약조건이 문서화되어 있지 않고, ‘정답이 하나’가 아닌 경우가 많다. 그래서 모델이 잘하는 것보다, 실패했을 때 “어디서부터 틀렸는지 추적 가능한 형태로” 결과를 내는지가 더 중요해진다. Deep Think가 진짜로 시장을 먹으려면, 똑똑함뿐 아니라 설명 가능성, 실험 재현성, 그리고 팀 단위 협업(결과 공유/버전 관리)이 같이 따라와야 한다.
Anthropic, 300억 달러 Series G: 모델 경쟁이 아니라 ‘인프라+기업용’ 전쟁 선언
Anthropic이 Series G로 300억 달러를 조달했고, post-money valuation이 3800억 달러라고 발표했다. 숫자가 너무 커서 감이 안 오는데, 이 정도면 “좋은 모델 하나”로 설명할 수 있는 단계가 아니라, 시장이 아예 인프라 사업으로 보고 있다는 신호에 가깝다.
발표 내용은 되게 노골적으로 엔터프라이즈를 향한다. Claude가 기업 업무에 핵심이 되고 있고, Claude Code가 에이전틱 코딩의 새로운 시대라고 강조한다. 인프라 확장, frontier research, 제품 개발에 돈을 쓴다고도 한다.
여기서 내가 보는 포인트는 두 가지다.
- 코딩은 LLM의 ‘킬러앱’이 계속 맞다
코딩은 입력과 출력이 텍스트로 정규화돼 있고, 평가도 상대적으로 자동화가 쉽고, ROI가 측정 가능하다. 그래서 투자자 관점에서도 “돈이 되는 생성 AI”를 설명하기 좋다. OpenAI가 실시간 코딩용 저지연을 말하고, Anthropic이 Claude Code를 말하고, 이게 돈으로 증명되는 그림이 계속 강화되고 있다.
- 거대 투자는 결국 모델 성능보다 운영 능력을 요구한다
이 정도 규모로 돈을 끌어오면, 모델 하나 띄우고 끝이 아니다. 데이터센터/칩/서빙/보안/규정 준수/세일즈/고객지원까지 전부가 성능이다. 그래서 앞으로의 AI 경쟁은 “SOTA 한 번 찍고 끝”이 아니라, “대규모 운영을 얼마나 우아하게 굴리냐”가 진짜 실력인 국면으로 들어간다.
Mozilla.ai, 다국어 가드레일 평가: ‘안전’은 모델이 아니라 레이어 전체의 문제
Mozilla.ai는 any-guardrail 프레임워크를 통해 다국어(영어/페르시아어) 환경에서 guardrail(가드레일)이 얼마나 일관되게 판정하는지 평가한 글을 올렸다. 요지는 단순하다.
- LLM 출력이 언어에 따라 달라질 수 있다는 건 다들 안다
- 그런데 가드레일도 LLM 기반이면, 그 불일치를 그대로 먹거나 더 키울 수 있다
FlowJudge/Glider/AnyLLM 같은 가드레일을 비교하고, 정책 텍스트 언어(영어 vs 페르시아어)와 응답 언어가 다를 때 점수가 어떻게 흔들리는지, 그리고 그게 인도주의적(난민/망명) 같은 고위험 도메인에서 어떤 리스크로 이어지는지 논의한다.
이게 중요한 이유는, 이제 AI 제품은 “모델만 잘하면 끝”이 아니기 때문이다. 특히 에이전트가 실제 행동(메일 보내기, 계정 수정, 결제 등)을 하게 되면, 가드레일은 사실상 제품의 브레이크다. 그런데 브레이크가 언어에 따라 다르게 걸리면, 그건 제품 결함이다. 다국어 서비스하는 팀이라면 여기서 교훈이 하나 나온다.
- 다국어 품질은 번역 문제가 아니라, 정책/평가/운영까지 포함한 시스템 문제다
그래서 앞으로는 “모델 평가”와 “가드레일 평가”가 분리되지 않을 것 같다. 오히려 가드레일을 포함한 전체 스택 평가가 기본이 될 가능성이 높다.
예상되는 미래 (Expected Future)
오늘 뉴스 4개를 한 줄로 묶으면 이거다: AI는 이제 ‘지능’만으로 차별화하기 어렵고, 경험(속도), 특화(깊은 추론), 자본(인프라), 신뢰(안전 레이어)로 싸우는 단계로 넘어갔다.
내 예측은 꽤 단순하다.
- 실시간 코딩은 기본값이 된다. 텍스트 생성 속도 경쟁이 아니라, “개발자 IDE/CLI에서 끊김 없이 같이 작업하는 느낌”이 기준이 된다.
- 과학/연구용 reasoning은 구독 상품이 아니라, API 기반으로 산업에 흡수된다. 다만 “그럴듯한 답”보다 “재현 가능한 작업 흐름”을 제공하는 쪽이 이긴다.
- 초대형 투자는 더 많아진다. 그리고 그 돈은 모델 학습보다 서빙, 칩 조달, 컴플라이언스, 보안, 영업에 더 많이 빨려 들어갈 거다.
- 안전은 ‘체크리스트’가 아니라 제품 기능이 된다. 특히 다국어/다지역 제품에서는 가드레일 품질이 곧 브랜드 신뢰가 된다.
결국 남는 팀은 두 부류일 것 같다. 하나는 인프라를 굴릴 체력(돈+운영)을 가진 팀, 다른 하나는 특정 도메인에서 가드레일과 워크플로우까지 묶어서 “작지만 확실한 가치”를 내는 팀. 중간은 점점 살기 힘들어진다.
참고 자료 (References)
- Introducing GPT‑5.3‑Codex‑Spark (OpenAI)
- Gemini 3 Deep Think: Advancing science, research and engineering (Google)
- Anthropic raises $30 billion in Series G funding at $380 billion post-money valuation (Anthropic)
- Evaluating Multilingual, Context-Aware Guardrails: Evidence from a Humanitarian LLM Use Case (Mozilla.ai)