top of page

[인터뷰] 주익찬 뉴로메카 경영혁신 디렉터 “휴머노이드 데이터 파이프라인 직접 구축”

ree

“데이더 확보를 위한 전용 기기를 개발하고 있다.”


지난 12일 포항 공장에서 만난 뉴로메카 주익찬 경영혁신담당 디렉터와 고동우 미래핵심연구부문 매니저는 이렇게 말했다.


이들은 데이터의 중요성에 대해 강조하면서 데이터 파이프라인을 위해 직접 ‘텔레오퍼레이션(원격 조정 장비)’과 같은 기기를 개발하고 있다고 밝혔다.


고 매니저는 “휴머노이드를 만드는 데 손과 비전(눈)이 중요한데, 이들도 결국 데이터가 핵심”이라며 “데이터 확보를 위한 기기를 따로 개발해 시각과 촉각 데이터 등을 얻고자 한다”고 말했다.


텔레이퍼레이션은 모방 학습을 위해 필요한 장치로, 사람이 직접 해당 기기를 입고 여러 동작을 수행행해 로봇을 학습시킨다.


고 매니저는 “접촉 환경에선 시뮬레이션과 실제 상황 간 간극이 심해 가상 데이터만으론 충분하지 않다”고 설명했다.


휴머노이드 개발을 위해선 사람의 모션(동작) 데이터와 촉각 데이터 등이 필요하나, 현재 절대적으로 데이터가 부족한 상황이다. 인터넷 상 존재하는 대부분의 데이터는 텍스트나 이미지 형식이며, 기업들의 보유한 제조 현장 데이터의 경우 외부 반출이 안 돼 로봇 개발을 더디게 만드는 주요 요인으로 지목된다.


이 때문에 올초 젠슨 황 엔비다아 CEO(최고경영자)는 월드 파운데이션 모델 ‘코스모스’를 공개했다. 이 플랫폼은 미리 학습한 대규모 데이터를 통해 가상 환경을 구현, 로봇이 시뮬레이션을 통해 학습할 수 있도록 도와준다.


그러나 이는 실제 상황과 간극이 크고, 특히 촉각에 대한 데이터가 없어 휴머노이드 개발에 충분한 데이터를 제공하지 못한다는 게 고 매니저의 설명이다.


뉴로메카의 데이터 확보용 기기는 UMI(Universal Manipulation Interface) 형식을 따를 것으로 보인다. UMI는 사람이 양손에 그리퍼를 착용한 다음 작업을 수행하면 로봇이 이를 따라하도록 만든 장치다. 그리퍼에 카메라가 장착돼 있어 그리퍼 개폐 상태를 추적한다.


주 디렉터는 미국의 경우 대규모 자본을 사용해 데이터를 확보하고 있어 한국은 제조업에 특화된 데이터 확보에 주력해야 한다고 조언했다.


현재 테슬라 같은 빅테크 기업들은 수십명의 사람을 고용해 사람으로부터 직접 데이터를 뽑아내고 있다. 인간에게 모션 캡처 슈트와 VR(가상현실) 기기를 착용시킨 다음 특정 작업을 주문해 데이터를 얻고 있다.


중국의 경우에는 시 정부 주도로 ‘로봇 훈련소’를 직접 열어 데이터 확보에 열을 올리고 있다. 지난 7월에 개소한 상하이 로봇 훈련소는 12개가 넘는 업체에서 100개 이상의 로봇을 가지고 와 보행, 나사 조이기, 용접 등 실제 업무에 배치시켜 데이터를 축적하고 있다. 상하이는 이렇게 쌓인 데이터를 향후 민간 기업에 공유한단 목표다.


미국과 중국이 자금력과 정부 힘을 앞세워 데이터 확보에 사활을 걸면서 사실상 일반 범용 휴머노이드 분야에선 한국이 경쟁력을 갖기 힘들 것으로 전망된다.


주 디렉터는 “데이터에서부터 차이가 나 일반 범용 휴머노이드에서 한국이 미국·중국과 경쟁하기는 힘들 것”이라며 “한국은 제조업 등 특화된 데이터를 갖고 있는 부분에 집중해야 한다”고 말했다.


다시 말해 세계 시장과 비교했을 때 노하우, 특화 비법 등을 갖고 있는 반도체, 조선, 배터리 등 제조현장에 전문화된 휴머노이드 개발을 노려야 한다는 설명이다.


고 매니저는 “휴머노이드 개발을 위해선 GPU(그래픽처리장치)와 데이터 인프라를 갖추는 게 중요하다”고 강조했다. 그러면서 “연구개발 인력의 대부분이 파운데이션 모델을 만드는 데 투입되고 있다”고 말했다.


뉴로메카는 현재 A100, H100 등 엔비디아의 GPU를 일부 보유하고 있으며, 향후 더욱 GPU 인프라를 확충한다는 계획이다.


또한 뉴로메카는 VLM(Vision-Language Model)은 오픈 모델을 사용하고 VLA(Vision-Language-Action Model)와 미들·로우 레벨 소프트웨어는 직접 개발해 완성도 높은 휴머노이드를 만든다는 방침이다.


VLM은 영상(이미지·비디오 등 시각정보)과 언어 두 가지 정보를 동시에 이해하고 처리할 수 있도록 설계된 멀티모달 인공지능 모델이며, VLA는 ‘시각’, ‘언어’, ‘행동’ 세 가지 정보를 통합해 로봇이나 차량 등이 실제 물리적 행동을 할 수 있게 하는 멀티모달 인공지능 프레임워크다. 미들·로우 레벨 소프트웨어는 충돌 회피 등에 사용되는 기본적인 소프트웨어다.



출처 : 이비엔(EBN)뉴스센터 (https://www.ebn.co.kr/news/articleView.html?idxno=1679473)

 
 
 

댓글


bottom of page