목차
I. 서론
II. 본론
1. SRT-H 프레임워크의 개요와 핵심 원리
2. 학습 데이터 수집 및 모방 학습 방법
3. 돼지 담낭 제거 수술 실험 설계 및 성과
4. 자율성 단계(Level of Autonomy)와 오류 수정
5. 임상 적용 관점의 과제 및 전망
III. 결론
<AI자율수술로봇>
I. 서론
자율 수술 로봇은 수술 결과 개선, 비용 절감, 의료 접근성 확대라는 잠재력을 지니고 있다. 그러나 환자 간 해부학적 변이, 출혈·연기로 인한 시야 제한, 예측 불가능한 조직 역학 등 현실 임상 환경의 복잡성은 자율 수술 시스템 개발의 주요 난제로 작용한다. 최근 존스홉킨스대 연구진은 언어 조건부 모방 학습을 통해 계층형 프레임워크인 SRT-H(Surgical Robot Transformer-Hierarchy)를 제안하였다. 이 프레임워크는 고수준 정책을 통한 단계별 지시와 저수준 정책을 통한 궤적 생성의 결합으로 다단계 수술 절차의 완전 자율 수행을 가능케 한다.
본 글은 2025년 7월 사이언스 로보틱스에 발표된 돼지 담낭 제거(담낭 절제술) 실험 결과를 중심으로 SRT-H의 기술적 구성, 실험 성과, 임상 적용 과제 및 전망을 심층 분석한다.
II. 본론
1. SRT-H 프레임워크의 개요와 핵심 원리
계층형 구조의 개념적 기반
SRT-H(Surgical Robot Transformer-Hierarchy)는 계층형 모방 학습 프레임워크로서, 복잡한 수술 절차를 자율적으로 수행할 수 있도록 설계된 혁신적인 시스템이다. 이 프레임워크는 고수준 정책(High-Level Policy)과 저수준 정책(Low-Level Policy)으로 구성된 계층적 아키텍처를 통해 장기간에 걸친 정교한 수술 작업을 가능하게 한다.
<SRT-H 프레임워크의 계층형 구조 다이어그램>
고수준 정책(High-Level Policy)의 구조와 기능
고수준 정책은 언어 공간에서의 작업 계획을 담당하는 핵심 구성요소로, 내시경 카메라 영상 시퀀스를 입력으로 받아 세 가지 주요 출력을 생성한다.
기술적 구현에서 고수준 정책은 Swin Transformer(Swin-T) 비전 인코더를 사용하여 영상 정보를 처리한다. 이 비전 인코더는 ImageNet에서 사전 훈련되어 768차원의 콤팩트한 토큰 임베딩을 생성한다. 이후 8개의 헤드와 6개의 레이어를 가진 Transformer 디코더에서 영상 임베딩을 처리하며, 시간적 정보를 보존하기 위해 사인파 위치 임베딩(Sinusoidal Position Embedding)을 추가한다.
세 가지 출력은 다음과 같다:
- 작업 지시(Task Instruction, p_t): "왼쪽 동맥을 자르시오"와 같은 다음 수술 단계 지시
- 교정 플래그(Correction Flag, c_t): 로봇이 오류 상태에 있어 교정 행동이 필요함을 나타내는 불린 값
- 교정 지시(Corrective Instruction, m_t): "오른쪽 팔을 더 높게 움직이시오"와 같은 오류 복구를 위한 방향 지침
저수준 정책(Low-Level Policy)의 궤적 생성
저수준 정책은 로봇 궤적 생성을 담당하며, 고수준 정책으로부터 받은 언어 지시를 실제 로봇 관절 움직임으로 변환한다. 이 정책은 작업 지시 또는 교정 지시 중 하나를 선택하여 실제 로봇 제어를 수행한다.
동작 방식에서 저수준 정책은 조건부 선택 메커니즘을 통해 교정 플래그의 상태에 따라 표준 작업 지시와 교정 지시 중 하나를 선택한다. 이를 통해 로봇은 정상 수술 절차를 수행하거나 오류 상황에서 복구 동작을 실행할 수 있다.
언어 조건부 모방 학습의 핵심 원리
SRT-H는 언어 조건부 모방 학습(Language-Conditioned Imitation Learning)을 기반으로 한다. 이 방법론은 ChatGPT와 동일한 기계 학습 아키텍처를 사용하지만, 텍스트 대신 키네마틱스(Kinematics)라는 로봇 언어를 처리한다.
학습 데이터 구성에서 연구진은 34개의 돼지 담낭에 대한 17시간 분량의 영상 데이터를 수집하였다. 이 데이터는 표준 시연 데이터와 교정 시연 데이터로 구분된다:
- 표준 시연: 숙련된 외과의가 수행한 정상 담낭 절제술 시연
- 교정 시연: 의도적 오류 상황에서의 회복 시연
계층형 구조의 장점과 혁신성
계층형 구조는 장기간 시퀀스 의존성 관리와 오류 복구 능력에서 핵심적인 장점을 제공한다. 기존의 단일 단계 자동화 시스템과 달리, SRT-H는 실시간 적응성과 자가 교정 능력을 보유하고 있다.
ChatGPT와 유사한 아키텍처를 활용하여 로봇은 음성 명령에 실시간으로 응답할 수 있다. 예를 들어, "담낭 머리를 잡으시오" 또는 "왼쪽 팔을 약간 왼쪽으로 이동하시오"와 같은 지시를 이해하고 수행할 수 있다.
기술적 혁신성과 임상적 의의
SRT-H는 절차 수준 자율성(Step-Level Autonomy)을 달성한 최초의 시스템으로, 이는 완전 자율 수술 시스템의 임상 배치를 위한 중요한 이정표이다.
100% 성공률을 달성한 이 시스템은 8개의 미지 돼지 담낭 샘플에서 완전 자율적으로 17단계의 복잡한 수술 절차를 수행했다. 이는 예측 불가능한 실제 환자 치료 환경에서 작동할 수 있는 임상적으로 실용적인 자율 수술 시스템에 상당히 가까워졌음을 의미한다.
기존 시스템과의 차별점에서 2022년 개발된 STAR 로봇이 사전 표시된 조직과 엄격하게 통제된 환경에서만 작동했던 것과 달리, SRT-H는 어떤 도로, 어떤 조건에서도 지능적으로 반응하며 탐색할 수 있는 로봇과 같다고 평가된다.
2. 학습 데이터 수집 및 모방 학습 방법
34개 돼지 담낭에 대한 17시간 분량(약 16,000개궤적)의 내시경 및 로봇 팔 영상과 언어 지시를 동시에 수집하였다.
– 표준 시연 데이터: 숙련 외과의가 수행한 정상 절제술 시연 영상 및 해당 단계에 대한 언어 지시
– 교정 시연 데이터: 의도적 오류 상태에서 회복 시연 영상 및 교정 지시
훈련 시 HL Policy는 교정 플래그에 따라 두 데이터셋을 구분하여 CE(Cross-Entropy) 손실을 학습하며, LL Policy는 각 지시에 대응하는 궤적 매핑을 모방 학습한다.
3. 돼지 담낭 제거 수술 실험 설계 및 성과
8개의 미검증 돼지 담낭 샘플에 대해 클리핑 및 절단 단계 17개 작업을 전 과정 자율 수행했다. 모든 실험에서 100% 성공률을 기록하였으며, 평균 수술 시간은 5분 17초로 인간 외과의에 비해 수십 초 차이 수준이었다.
– 성공률: 8/8 (100%)
– 평균 소요 시간: 5분 17초
– 오류 수정 횟수: 자체 판단에 따른 복구 행동 수 차례 관찰
세계 최초의 현실적 단일 절차 수준 자율 수술 수행이라는 점에서 의의가 크다.
4. 자율성 단계(Level of Autonomy)와 오류 수정
자율성 등급(LoA, Levels of Autonomy)은 I~V로 구분될 때, SRT-H는 현재 LoA IV(절차 수준 자율성)에 해당한다. 최종 LoA V(완전 자율) 달성을 위해선 다중 수술 단계 통합, 환자 안전 검증, 비정형 상황 학습 등이 보완되어야 한다.
– 오류 수정: HL Policy가 오류 플래그를 활성화하면 교정 지시를 통해 LL Policy가 궤적을 재설정한다.
– 일반화 능력: 영상·언어 학습을 통해 미지 해부학적 변이에도 적응하며 자체 수정 성공을 확인하였다.
5. 임상 적용 관점의 과제 및 전망
– 데이터 확보의 제약: 실제 환자 수술 영상은 개인정보 보호로 제한적 확보만 가능하여, 산업용 다지점 조작 데이터를 의료용으로 전환하는 방안이 제안된다.
– 안전성 검증: 의료 규제 승인, 윤리·법적 검토, 리스크 관리 체계 수립이 필수적이다.
– 확장성: 담낭 절제술 외 타 수술(장누공 봉합, 장절제술 등) 적용을 위한 추가 연구가 필요하다.
– 인간-로봇 협업: 완전 자율 이전 단계에서 의사-로봇의 상호작용 인터페이스와 오류 개입 기제 설계가 중요하다.
III. 결론
SRT-H는 언어 조건부 계층형 모방 학습을 통해 복잡한 담낭 절제 수술의 전 과정을 자율 수행한 최초의 시스템이다. 고수준 언어 정책과 저수준 궤적 정책의 결합은 절차 수준 자율성을 실현하며, 미지 해부학적 변이에도 100% 성공률을 나타냈다. 다만 실제 임상 적용을 위해선 데이터 확보, 안전성 검증, 확장 연구, 인간-로봇 협업 디자인과 같은 다각적 논의와 검증이 필요하다. 향후 다양한 수술 절차에 대한 확장 및 임상 시험을 통해 완전 자율(LoA V) 달성을 향해 나아가야 한다.