# VideoAgent V4 Speaker Notes

## 01. Executive answer

첫 문장은 이렇게 시작합니다. “저는 현장 AI를 운영해본 경험을 KRAFTON Agent Harness 연구로 가져갈 수 있습니다.” 핵심은 해커톤 참가자가 아니라, 모델·도구·검증·운영 루프를 실제 제약 안에서 설계해본 사람이라는 점입니다. 200개 이상 의료기관 배포, 15분 제한 VideoAgent, Hermes 운영 검증 로그를 한 번에 제시합니다.

## 02. Evaluator answer map

이 장은 예상 질문에 대한 답입니다. 박진배는 문제를 끝까지 제품·운영 상태로 보내는 AI 시스템 오너입니다. 커뮤니케이션은 의료진·규제·설치·모델·SW 사이를 연결한 경험으로 답하고, 문제해결은 시간·하드웨어·영상 품질·검증 제약을 설계로 푼 사례로 답합니다. 가치창출은 200+ 의료기관, 논문 8편, 특허 7+3건, 해커톤 성과로 말합니다.

## 03. KRAFTON role and culture fit

KRAFTON 공고는 Harness, benchmark, self-improvement loop, multi-agent orchestration, production AI를 요구합니다. 제 사례는 여기에 맞춰 읽힙니다. VideoAgent는 연구형 harness 사례이고, jiwonhae/Hermes는 운영형 agentic workflow입니다. 한화에어로스페이스-KRAFTON Physical AI 기사는 참여 사실이 아니라 공개 방향성으로만 사용합니다. 그 맥락에서 방산 전자, 실시간 6ch 영상 AI, edge inference 경험을 연결합니다.

## 04. Operational agent proof

jiwonhae.com은 단순 웹사이트가 아닙니다. 매일 바뀌는 공공 지원사업 데이터를 10개 이상 포털에서 수집하고, DB에 정규화하고, Vercel Cron으로 실행하고, Hermes Agent가 DB/API를 검증해 Discord로 보고하는 운영 루프입니다. 숫자는 2,900 public API total, 7,463 procurement total, 4,344 fetched/upserted, 28 sources checked입니다.

## 05. Mini benchmark

VideoAgent 문제는 final set이 마감 15분 전에 공개되는 mini agent benchmark입니다. 20개 영상과 질문이 있고, 긴 영상은 1200초까지 가능하므로 전체 영상을 보는 방식으로는 부족합니다. agent는 어떤 구간을 볼지, 어떤 도구를 쓸지, 증거가 충분한지 결정해야 합니다.

## 06. V3 working system

v3에서 실제로 한 일은 질문 분류, frame sampling, GPT/Gemini/Claude 호출, voting, 제출 자동화입니다. 여기서 강조할 점은 모델을 많이 불렀다는 것이 아니라, 제한시간 안에 end-to-end pipeline을 만든 것입니다. 다만 답만 남고 실패 원인이 구조화되지 않는 한계가 있었습니다.

## 07. V4 improvement thesis

v4의 개선점은 더 센 모델이 아니라 evidence contract입니다. v3가 answer selection이라면 v4는 question routing, tool output, timestamp evidence, memory, verifier decision을 함께 저장합니다. 그러면 틀렸을 때 missing evidence인지, wrong tool인지, weak solver인지, budget miss인지 구분할 수 있습니다.

## 08. Recursive improvement loop

재귀 개선은 무작정 많이 돌리는 것이 아닙니다. trace를 남기고, 실패 원인을 분류하고, router·tool order·prompt·solver·budget 중 하나만 고친 뒤, 동일 regression set에서 replay합니다. 좋아진 변경만 promote합니다. 정답이 없어도 개선 논리를 설명할 수 있는 이유가 여기에 있습니다.

## 09. Evaluation without hidden labels

공식 hidden answer key가 없으면 100점이 됐다고 말하지 않습니다. 대신 개선 주장을 proxy metric으로 좁힙니다. evidence coverage, verifier support, replay stability, ablation delta, time budget을 봅니다. 이 방식은 “그냥 해봤다”가 아니라 “근거가 더 잘 남고 재현 가능해졌다”는 증거를 만듭니다.

## 10. Closing packet

마지막 메시지는 “수상했다”가 아닙니다. 작동한 솔버를 만들었고, 한계를 분석했고, 그것을 KRAFTON AI Agent Research가 요구하는 harness, evaluation, recursive improvement 사례로 바꿔 설명할 수 있다는 점입니다. 문제 원문, v3 리포트, v4 설계, 발표 노트를 근거로 세부 질문에 답합니다.
