ICML 2025 후기

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

MJ's Blog

ICML 2025 후기 본문

ICML 2025 후기

minje_kim 2025. 7. 19. 07:01

모든게 블랙박스?

현재 산업계에서 99%+ 의 실무 AI 시스템이 블랙박스로 사용되며 OpenAI GPT, Google Gemini, Meta Llama 등 모두 내부 작동 원리 불명한 상황 (기업들도 자신들의 모델이 정확히 어떻게 작동하는지 모름)
그래서 Mechanistic Interpretability와 같이 모델 내부를 파악하려는 노력도 많이 생기고 있는것 같지만 아직 이분야는 비주류인 상황

블랙박스라서..

많은 icml의 주제들이 모델 내부 자체를 이해하지 못하기 때문에, input으로 이런걸 넣어봤더니 output으로 이런게 나오더라 와 같은 내용이 많았음
ex) Training a Generally Curious Agent : 좁은 파인튜닝이 광범위한 정렬 실패를 야기할 수 있다는 논문
ex) tutorial 중 agent를 잘못된 방향으로 사용하면 해커가 될수도 있음을 시사한 내용
사실 AI모델은 인간이 만들어낸것이기 때문에 완전히 통제가능할것으로 보이지만 그렇지 않다..마치 외계에서 떨어진 물질을 보고 이 물질은 무엇인가, 어떠한 성질을 가지고 있는가를 여러방향의 실험을 통해 한개씩 알아내고 있는듯한 느낌

똑똑한 에이전트 한개 vs 협력하는 에이전트 팀 ?

과거 2-3년간은 "개별 에이전트를 더 똑똑하게" 만드는 데 집중했었는데, 2025년 연구들은 "더 크고 강한 에이전트"보다는 "더 지능적으로 협력하는 에이전트"에 초점을 맞추고 있음을 알 수 있었음

이는 모델의 크기를 키워도 한계가 있기 때문이고, 단일 모델로는 다양한 전문 영역을 동시에 커버하기 어렵기 때문.
아무리 똑똑한 개별 에이전트도 복잡한 실무 워크플로우 처리에는 한계가 있음. 단일 에이전트로는 다단계 복잡 프로세스에서 실수나 누락 발생하더라 라는게 주요한 주장
▷ WARPP 논문에서 보면 "은행 계좌 개설" 같은 현실적 태스크는 전문화된 협력이 필요하다고 언급
비용 문제도 무시할 수 없음. GPT-4나 Claude같은 대형 모델은 비용이 매우 큰데, 이 모델 여러개를 조합한다고 생각하면 감당하기 어려움
▷ Cache Saver 논문을 보면 "똑똑한 모델" 하나보다 "협력하는 작은 모델들"이 더 효율적이라고 언급
실제로 성능을 테스트했을때 여러개의 작은 모델 조합이 최신의 모델 1개와 비교하면 더 우수함을 입증한 논문 다수
▷ Fleet of Agents 논문을 보면 Llama-3.3-11B 여러 개가 GPT-4 하나를 능가한다고 언급

모이니까 오히려 이상해져

multi-agent의 최신 논문을 보다 발견한것 중 무엇보다 놀라웠던건 안전성 이슈. 한개모델이 있을떄는 문제가 없이 잘 대답하던게, 여러개의 똑똑한 모델이 모여버리니까 동조압력(peer pressure)에 의해 완전히 다른 행동을 보이기도 하고.. 협업 상황이 오니까 인간처럼 할일을 미루기도 하더라 라는것.

모이니까 이상해져 : [MAEBE : Multi-Agent Emergent Behavior Framework]
Claude나 GPT 같은 모델들이 혼자 있을 때는 도덕적으로 답변하지만, 다른 에이전트들과 함께 있을 때는 동조압력(peer pressure)에 의해 완전히 다른 행동을 하더라. 이 행동을 'emergent behavior'라고 정의함. 특히 감독자(supervisor)가 있어도 그룹 다이내믹스가 여전히 강력하게 작용해서 개별 에이전트의 추론과 응답을 변화시켜버림.
할일 미루기 : [It's Rational for AI agents to Procrastinate 논문]
기존 멀티에이전트 시스템 연구들은 에이전트들이 항상 협력적이고 효율적으로 행동한다고 가정했는데, 이 논문은 게임 이론의 관점에서 AI 에이전트들도 인간처럼 합리적 계산에 따라 미루기나 무임승차 행동을 할 수 있으며, 이것이 시스템 전체의 실패로 이어질 수 있음을 수학적으로 증명

그럼 기술은 어떻게 발전시켜야하는가

multi agent 쪽은 3가지 정도의 핵심 기술발전 방향이 보였다. 아래는 3개의 기술발전 방향과 그를 뒷받침할 논문 몇편을 소개한다.

일회성 문제 해결 → 지속적 학습 시스템으로 패러다임 전환

Agent KB의 경험 축적 메커니즘

AI 에이전트가 복잡한 문제를 해결할 때 과거 경험을 체계적으로 축적하고 재사용할 수 있는 Agent KB(Knowledge Base) 시스템을 제안
핵심은 student-teacher 이중 에이전트 구조로, student 에이전트가 문제를 해결하려고 시도하면 teacher 에이전트가 이를 관찰하며 성공/실패 패턴을 추상화하여 지식 베이스에 저장
예를 들어 파일 처리 작업에서 student가 실패하면, teacher가 "이런 유형의 파일에서는 인코딩을 먼저 확인해야 한다"는 고수준 워크플로우 패턴을 학습하여 저장하고, 나중에 비슷한 문제가 나오면 이 경험을 재사용

QueryDiff의 도메인 경험 전이

기존 도메인 일반화 방법들은 확산 모델을 단순한 데이터 생성기로만 활용해 제한적인 일반화 성능을 보였는데, 이 논문은 확산 모델을 의미적 지식 추출기로 활용하여 학습 가능한 에이전트 쿼리를 생성하고 이를 분할 모델에 통합하는 새로운 접근을 제시

Cache Saver의 계산 패턴 재사용

LLM 추론 과정에서 발생하는 막대한 중복 계산을 해결하기 위한 Cache Saver 프레임워크를 제안
핵심 발견은 서로 다른 추론 전략(프롬프트)을 사용해도 내부적으로는 동일한 탐색 트리 구조를 공유한다는 것
Cache Saver는 이런 공통 부분을 캐싱하여 재사용함으로써 계산 비용을 크게 줄임

판은 우리가 짜줄게. 너네는 일만해^^

FoA system

복잡한 추론 문제를 해결하기 위해 여러 LLM 에이전트들이 협력하여 탐색 공간을 효율적으로 탐색하는 Fleet of Agents (FoA) 프레임워크를 제안
기존 단일 모델 접근법(CoT, ToT 등)은 한 번에 하나의 경로만 탐색하거나 순차적으로 반복해야 했지만, FoA는 마치 유전 알고리즘처럼 여러 에이전트가 병렬로 다양한 상태를 탐색
Mutation 단계에서 각 에이전트가 독립적으로 새로운 상태를 샘플링하고, Selection 단계에서 가장 유망한 에이전트들을 평가하여 선별하며, Backtracking을 통해 과거 유망했던 상태로 되돌아가 다른 경로를 탐색

WARPP system

복잡한 다단계 워크플로우를 수행할 때 LLM들이 중간에 실수하거나 단계를 놓치는 문제를 해결하기 위해, 런타임에서 병렬로 워크플로우를 개인화하는 WARPP 시스템을 제안
기존 방식은 하나의 LLM이 긴 워크플로우를 순차적으로 따라가다가 중간에 헷갈리거나 단계를 건너뛰는 경우가 많았는데, WARPP는 여러 전문화된 에이전트들이 협력하여 각자의 역할을 수행
예를 들어 "은행 계좌 개설" 같은 복잡한 과정에서 Orchestrator가 전체를 조율하고, Personalizer가 사용자 상황에 맞게 단계를 조정하며, Authenticator가 신원 확인을, Fulfillment가 실제 작업을 수행하는 방식으로 분업화

AgentNet Framework

분산 컴퓨팅의 고전적 문제들(리더 선출, 합의, 매칭, 그래프 컬러링, 버텍스 커버)을 멀티에이전트 LLM 시스템으로 해결하는 AgentsNet 프레임워크를 제안
각 LLM 에이전트가 네트워크의 노드 역할을 하며, 동기적 메시지 패싱을 통해 이웃과 소통하면서 분산 알고리즘을 실행
기존 중앙집중식 AI와 달리 완전히 분산된 방식으로 복잡한 조합 최적화 문제도 해결가능
기존 멀티에이전트 LLM 연구들은 주로 협업이나 역할 분담에 초점을 맞춰 중앙집중식 조정이 필요했는데, 이 논문은 분산 컴퓨팅 이론의 고전적 알고리즘들을 LLM 에이전트로 구현하여 완전히 탈중앙화된 문제 해결이 가능함을 보여주는 새로운 패러다임을 제시

인간-AI 협업의 새로운 모델

Cascaded LLM의 상황 인식 협업

사용자 피드백을 통해 지속적으로 상황을 판단하고 개선을 거치는 LLM
아래 논문에서 제시한 알고리즘 참조

결론

LLM Agent 분야는 단순한 성능 향상을 넘어서 안전성, 효율성, 협력성의 균형을 추구하는 성숙 단계에 진입하고 있는 것으로 보임. 2025년 연구들은 "더 크고 강한 에이전트"보다는 "더 지능적으로 협력하는 에이전트"에 초점을 맞추고 있으며, 이는 실제 배포 가능한 시스템을 향한 중요한 전환점을 시사함.

저작자표시 (새창열림)

'AI' 카테고리의 다른 글

25' AI Agents Live + Labs (1)	2025.07.08
[논문리뷰] UNDERSTANDING DEEP LEARNING REQUIRES RETHINKINGGENERALIZATION (0)	2025.05.22
[논문리뷰] Pix2NeRF (0)	2022.07.13
[논문리뷰] Image GANs meet differentiable rendering for inverse graphics and interpretable 3D neural rendering (0)	2022.06.06
Reproduction 을 위한 Seed 고정 (0)	2022.05.26

'AI' Related Articles

MJ's Blog

ICML 2025 후기 본문

ICML 2025 후기

모든게 블랙박스?

블랙박스라서..

똑똑한 에이전트 한개 vs 협력하는 에이전트 팀 ?

모이니까 오히려 이상해져

그럼 기술은 어떻게 발전시켜야하는가

결론

'AI' 카테고리의 다른 글

티스토리툴바