본문 바로가기
  • 일관성 있는 다양한 관점을 지향하며
  • 무지개 파도를 즐기며 간다
카테고리 없음

AI 로봇 프레임워크 ‘SRT-H’를 적용한 자율수술 분석

by rainbowwave 2025. 7. 15.

 

목차

I. 서론
II.
본론

      1.  SRT-H 프레임워크의 개요와 핵심 원리

      2.  학습 데이터 수집 모방 학습 방법

     3.  돼지 담낭 제거 수술 실험 설계 성과

     4.  자율성 단계(Level of Autonomy) 오류 수정

     5.  임상 적용 관점의 과제 전망

III. 결론

 


<AI자율수술로봇>

                                                                                  <AI자율수술로봇>

 

 

I. 서론

자율 수술 로봇은 수술 결과 개선, 비용 절감, 의료 접근성 확대라는 잠재력을 지니고 있다. 그러나 환자 해부학적 변이, 출혈·연기로 인한 시야 제한, 예측 불가능한 조직 역학 현실 임상 환경의 복잡성은 자율 수술 시스템 개발의 주요 난제로 작용한다. 최근 존스홉킨스대 연구진은 언어 조건부 모방 학습을 통해 계층형 프레임워크인 SRT-H(Surgical Robot Transformer-Hierarchy) 제안하였다. 프레임워크는 고수준 정책을 통한 단계별 지시와 저수준 정책을 통한 궤적 생성의 결합으로 다단계 수술 절차의 완전 자율 수행을 가능케 한다.

글은 2025 7 사이언스 로보틱스에 발표된 돼지 담낭 제거(담낭 절제술) 실험 결과를 중심으로 SRT-H 기술적 구성, 실험 성과, 임상 적용 과제 전망을 심층 분석한다.

 

II. 본론

1. SRT-H 프레임워크의 개요와 핵심 원리

 

계층형 구조의 개념적 기반

 

SRT-H(Surgical Robot Transformer-Hierarchy)는 계층형 모방 학습 프레임워크로서, 복잡한 수술 절차를 자율적으로 수행할 수 있도록 설계된 혁신적인 시스템이다. 이 프레임워크는 고수준 정책(High-Level Policy)과 저수준 정책(Low-Level Policy)으로 구성된 계층적 아키텍처를 통해 장기간에 걸친 정교한 수술 작업을 가능하게 한다.

 

&lt;SRT-H 프레임워크의 계층형 구조 다이어그램&gt;

                                                      <SRT-H 프레임워크의 계층형 구조 다이어그램>

 

고수준 정책(High-Level Policy)의 구조와 기능

 

고수준 정책은 언어 공간에서의 작업 계획을 담당하는 핵심 구성요소로, 내시경 카메라 영상 시퀀스를 입력으로 받아 세 가지 주요 출력을 생성한다.

기술적 구현에서 고수준 정책은 Swin Transformer(Swin-T) 비전 인코더를 사용하여 영상 정보를 처리한다이 비전 인코더는 ImageNet에서 사전 훈련되어 768차원의 콤팩트한 토큰 임베딩을 생성한다이후 8개의 헤드와 6개의 레이어를 가진 Transformer 디코더에서 영상 임베딩을 처리하며, 시간적 정보를 보존하기 위해 사인파 위치 임베딩(Sinusoidal Position Embedding)을 추가한다.

 

세 가지 출력은 다음과 같다:

  • 작업 지시(Task Instruction, p_t): "왼쪽 동맥을 자르시오"와 같은 다음 수술 단계 지시
  • 교정 플래그(Correction Flag, c_t): 로봇이 오류 상태에 있어 교정 행동이 필요함을 나타내는 불린 값
  • 교정 지시(Corrective Instruction, m_t): "오른쪽 팔을 더 높게 움직이시오"와 같은 오류 복구를 위한 방향 지침

 

저수준 정책(Low-Level Policy)의 궤적 생성

 

저수준 정책은 로봇 궤적 생성을 담당하며, 고수준 정책으로부터 받은 언어 지시를 실제 로봇 관절 움직임으로 변환한다이 정책은 작업 지시 또는 교정 지시 중 하나를 선택하여 실제 로봇 제어를 수행한다.

동작 방식에서 저수준 정책은 조건부 선택 메커니즘을 통해 교정 플래그의 상태에 따라 표준 작업 지시와 교정 지시 중 하나를 선택한다이를 통해 로봇은 정상 수술 절차를 수행하거나 오류 상황에서 복구 동작을 실행할 수 있다.

 

언어 조건부 모방 학습의 핵심 원리

 

SRT-H는 언어 조건부 모방 학습(Language-Conditioned Imitation Learning)을 기반으로 한다이 방법론은 ChatGPT와 동일한 기계 학습 아키텍처를 사용하지만, 텍스트 대신 키네마틱스(Kinematics)라는 로봇 언어를 처리한다.

학습 데이터 구성에서 연구진은 34개의 돼지 담낭에 대한 17시간 분량의 영상 데이터를 수집하였다이 데이터는 표준 시연 데이터와 교정 시연 데이터로 구분된다:

  • 표준 시연: 숙련된 외과의가 수행한 정상 담낭 절제술 시연
  • 교정 시연: 의도적 오류 상황에서의 회복 시연

 

계층형 구조의 장점과 혁신성

 

계층형 구조는 장기간 시퀀스 의존성 관리와 오류 복구 능력에서 핵심적인 장점을 제공한다기존의 단일 단계 자동화 시스템과 달리, SRT-H 실시간 적응성과 자가 교정 능력을 보유하고 있다.

 

ChatGPT와 유사한 아키텍처를 활용하여 로봇은 음성 명령에 실시간으로 응답할 수 있다예를 들어, "담낭 머리를 잡으시오" 또는 "왼쪽 팔을 약간 왼쪽으로 이동하시오"와 같은 지시를 이해하고 수행할 수 있다.

 

기술적 혁신성과 임상적 의의

 

SRT-H는 절차 수준 자율성(Step-Level Autonomy)을 달성한 최초의 시스템으로, 이는 완전 자율 수술 시스템의 임상 배치를 위한 중요한 이정표이다.

100% 성공률을 달성한 이 시스템은 8개의 미지 돼지 담낭 샘플에서 완전 자율적으로 17단계의 복잡한 수술 절차를 수행했다이는 예측 불가능한 실제 환자 치료 환경에서 작동할 수 있는 임상적으로 실용적인 자율 수술 시스템에 상당히 가까워졌음을 의미한다.

 

기존 시스템과의 차별점에서 2022년 개발된 STAR 로봇이 사전 표시된 조직과 엄격하게 통제된 환경에서만 작동했던 것과 달리, SRT-H 어떤 도로, 어떤 조건에서도 지능적으로 반응하며 탐색할 수 있는 로봇과 같다고 평가된다.

 

2. 학습 데이터 수집 모방 학습 방법

 

34 돼지 담낭에 대한 17시간 분량( 16,000개궤적) 내시경 로봇 영상과 언어 지시를 동시에 수집하였다.
표준 시연 데이터: 숙련 외과의가 수행한 정상 절제술 시연 영상 해당 단계에 대한 언어 지시­
교정 시연 데이터: 의도적 오류 상태에서 회복 시연 영상 교정 지시
훈련 HL Policy 교정 플래그에 따라 데이터셋을 구분하여 CE(Cross-Entropy) 손실을 학습하며, LL Policy 지시에 대응하는 궤적 매핑을 모방 학습한다.

 

3. 돼지 담낭 제거 수술 실험 설계 성과

 

8개의 미검증 돼지 담낭 샘플에 대해 클리핑 절단 단계 17 작업을 과정 자율 수행했다. 모든 실험에서 100% 성공률을 기록하였으며, 평균 수술 시간은 5 17초로 인간 외과의에 비해 수십 차이 수준이었다.
성공률: 8/8 (100%)
평균 소요 시간: 5 17
오류 수정 횟수: 자체 판단에 따른 복구 행동 차례 관찰
세계 최초의 현실적 단일 절차 수준 자율 수술 수행이라는 점에서 의의가 크다.

 

4. 자율성 단계(Level of Autonomy) 오류 수정

 

자율성 등급(LoA, Levels of Autonomy) I~V 구분될 , SRT-H 현재 LoA IV(절차 수준 자율성) 해당한다. 최종 LoA V(완전 자율) 달성을 위해선 다중 수술 단계 통합, 환자 안전 검증, 비정형 상황 학습 등이 보완되어야 한다.
오류 수정: HL Policy 오류 플래그를 활성화하면 교정 지시를 통해 LL Policy 궤적을 재설정한다.
일반화 능력: 영상·언어 학습을 통해 미지 해부학적 변이에도 적응하며 자체 수정 성공을 확인하였다.

 

5.  임상 적용 관점의 과제 전망


데이터 확보의 제약: 실제 환자 수술 영상은 개인정보 보호로 제한적 확보만 가능하여, 산업용 다지점 조작 데이터를 의료용으로 전환하는 방안이 제안된다.
안전성 검증: 의료 규제 승인, 윤리·법적 검토, 리스크 관리 체계 수립이 필수적이다.
확장성: 담낭 절제술 수술(장누공 봉합, 장절제술 ) 적용을 위한 추가 연구가 필요하다.
인간-로봇 협업: 완전 자율 이전 단계에서 의사-로봇의 상호작용 인터페이스와 오류 개입 기제 설계가 중요하다.

 

III.  결론

 

SRT-H 언어 조건부 계층형 모방 학습을 통해 복잡한 담낭 절제 수술의 과정을 자율 수행한 최초의 시스템이다. 고수준 언어 정책과 저수준 궤적 정책의 결합은 절차 수준 자율성을 실현하며, 미지 해부학적 변이에도 100% 성공률을 나타냈다. 다만 실제 임상 적용을 위해선 데이터 확보, 안전성 검증, 확장 연구, 인간-로봇 협업 디자인과 같은 다각적 논의와 검증이 필요하다. 향후 다양한 수술 절차에 대한 확장 임상 시험을 통해 완전 자율(LoA V) 달성을 향해 나아가야 한다.