피지컬 AI의 눈과 뇌, 로봇 자동화의 미래
(w/ Nano Banana)
아래 글은 '26년 2월 4일 제 브런치에 업로드 된 글입니다.
전체 글 및 다른 글이 궁금하신 분은 옆의 링크에서 더 보실 수 있습니다. : [글 보러가기]
CES 2026으로 본 AI의 현재와 미래: '조언자'에서 '행위자'로
올해도 어김없이 라스베이거스에서 CES 2026이 개최되었습니다. 이전 직장에서 전사적으로 공을 들이던 행사라 그런지, 저에게는 매년 산업의 향방을 가늠하는 연례행사와 같습니다.
지난 아티클에서 AI가 접목된 산업들은 돈이 되는 주 사업 영역이 '추론과 개인화' 영역으로 이동할 것이라 말씀드렸는데, 이번 CES는 물리적 세계에서 직접 물체를 집어 들고, 조립하며, 스스로 길을 찾는 구체적인 형태인 '피지컬 AI(Physical AI)'의 서막을 보여주었습니다. 이제 AI는 공장 바닥과 창고로 내려와 직접 근육을 움직이기 시작했습니다.
피지컬 AI의 현재: 뇌(AI)와 근육(Robot)의 결합 (vs 로보틱스)
CES 2026: NVIDIA Rubin 플랫폼·오픈 모델·자율주행으로 그리는 미래
이 전환을 가장 공격적으로 밀어붙이는 곳 중 하나가 NVIDIA입니다. 엔비디아는 최근 GTC와 공식 발표를 통해 에이전트형 AI용 Nemotron, Physical AI를 위한 Cosmos, 로보틱스를 위한 Isaac GR00T 등 현실 세계에서 보고-판단하고-움직이게 만드는 모델·데이터·툴을 한 묶음으로 확장한다고 공식 발표했습니다.
그렇다면 우리가 흔히 알던 '로봇'과 '피지컬 AI'는 무엇이 다를까요?
- 지능의 유무: 기존 로봇이 사전에 프로그래밍된 경로만 따라가는 '로봇'이라면, 피지컬 AI는 물리 법칙을 이해하고 상황에 맞춰 행동을 결정하는 자율성을 가진 'AI'에 가깝습니다.
- 스스로의 판단: 이 과정에서 알고리즘 기반의 지시 사항만 수행하던 방식에서 벗어나, 피지컬 AI는 비정형 데이터(이미지, 영상 등)를 보고 스스로 판단하고 학습합니다.
- 물리적 상호작용: 화면 속 가상 세계가 아닌, 중력과 마찰력이 존재하는 현실 세계에서 인간과 안전하게 협력하며 작업을 수행하는 것이 핵심입니다.
핵심은 로봇이 아니라, 현실에서 작동하는 AI 시스템 전체(센서–연산–제어–검증)의 스택이 재편된다는 데 있습니다.
산업 현장에서 피지컬 AI는 이미 실험실을 나와 실전에 배치되고 있습니다. 이번 CES에서는 화려한 휴머노이드뿐만 아니라 실제 공정에서 활용되는 로봇들과 기반 기술들이 대거 등장했습니다.
NVIDIA의 풀스택 공세: 엔비디아는 누구나 피지컬 AI를 개발할 수 있도록 Cosmos(월드 파운데이션 모델)와 GR00T(휴머노이드 모델)를 공개하며 기술 스택을 제공하고 있습니다.
차세대 에지 컴퓨팅: 차세대 아키텍처인 '블랙웰(Blackwell)' 기반의 Jetson Thor는 이전 NVIDIA AGX Orin™ 대비 7.5배 향상된 연산 성능을 제공하며 로봇의 실시간 추론을 가능케 합니다.
휴머노이드의 진화:현대차(보스턴 다이나믹스)의 아틀라스와 그 밖의 유니트리, 에이로봇 등이 선보인 휴머노이드는 하드웨어 기술의 정점을 보여주며 산업 적용 가능성을 강하게 시사했습니다.
그럼 또 질문이 생깁니다. 행동하는 AI가 산업에서 실제로 돈이 되는 지점은 어디일까요?
피지컬 AI의 본진은 휴머노이드가 아니라 ‘제조’다
영상을 통해 확인한 각 나라와 기업들의 휴머노이드들은 아주 놀라웠습니다. 아주 훌륭한 쇼케이스였죠. 하지만 현대차(보스턴 다이나믹스)의 아틀라스에서도 보았듯이, 기업이 ROI를 따지게 되면 무게 추는 지금 가장 수요가 큰 제조·생산 현장, 특히 ‘사람이 남아 있는 공정’으로 이동하게 될 것입니다. 자동화가 많이 진행된 공장에서도 여전히 사람이 붙어 있는 작업이 있고, 그 작업이 대개 병목이 됩니다.
흥미로운 건, 그 병목이 힘(토크)이나 속도(스루풋) 이전에 ‘인식’에서 시작되는 경우가 많다는 점입니다. 로봇이 집거나 끼우거나 검사해야 하는 대상이 '매번 같은 위치에, 같은 각도로, 같은 조명에서' 등장한다면 자동화는 상대적으로 쉽겠지만 현실은 아주 다르죠.
부품은 불규칙하게 쌓여 있고(랜덤 빈 피킹), 표면은 검정·유광·반사체일 수 있으며, 조립은 각도와 위치 오차에 민감하고, 검사는 미세 단차(플러시/갭) 같은 3D 오차를 요구합니다.
결국 이 지점이 피지컬 AI의 현실적인 시작점일 것입니다. '로봇이 더 똑똑해져야 한다'가 아니라, 로봇이 세계를 ‘정확한 3D’로 보게 만들어야 한다는 것. 즉 피지컬 AI의 가장 기초 레이어는 ‘언어’가 아니라 ‘센싱·비전’ 일 것입니다.
왜 지금 로보틱스, AI 보다 3D 머신비전이 중요한가?
지금 산업 현장은 많은 부분이 자동화되어 있습니다. 병목이 되는 '휴먼터치'가 들어가는 부분도 인간이 처리할 수밖에 없는 노하우가 들어가거나, 기계보다 인간이 더 빠르거나 저렴하기 때문입니다. 따라서 자동화가 고도화될수록, 기업들은 인간 대신 기계가 더 빠르고 저렴하게 일을 처리할 수 있는 부분에 관심을 갖게 될 것입니다.
이를 처리하기 위해선 우선 로봇팔이나 시뮬레이션 모델보다 더 아래 레이어의 기술들로 내려가야 합니다.
로봇이 지금 무엇을, 어디에, 어떤 자세로 보고 있는가에 대한 센싱과 비전(눈) 문제를 해결할 수 없다면 로보틱스(근육)와 AI(두뇌)도 무용지물일 것입니다.
제조/생산 공정에서 물체 인식의 어려움은 생각보다 다양하고 복잡합니다.
현실의 ‘물체’는 단지 좌표(X, Y, Z)만으로 존재하지 않습니다. 자세(roll, pitch, yaw), 표면 특성, 반사, 가림(occlusion), 공정 속도 변화까지 포함한 복합 상태로 존재합니다. 이 상태를 안정적으로 복원하지 못하면 로봇 제어는 아무리 정교해도 실패합니다. 반대로 말하면, 3D 인식이 안정화되는 순간 조립·피킹·검사라는 고난도 공정이 연쇄적으로 열린다고 할 수 있습니다. 자동화가 덜 되어서가 아니라, 로봇이 ‘제대로 보지 못하기’ 때문입니다.
클레(CLE)의 솔루션: 로봇의 눈과 시각 피질
사람은 물체를 볼 때, 깊이와 각도와 표면을 동시에 인식합니다. 반사되든, 어둡든, 겹쳐 있든 상관없이 ‘입체적으로’ 파악합니다. 하지만 로봇은 그렇지 못합니다. 대부분의 비전 시스템은 여전히 2D 정보에 의존하거나, 불완전한 3D 정보를 기반으로 추정합니다.
CLE Robotics는 바로 이 ‘로봇의 시각 한계’를 해결하는 회사입니다. 이들은 고정밀 3D 스캔 하드웨어와 GPU 기반 병렬 처리 소프트웨어를 수직 통합하여 물리 세계의 난제를 정면 돌파합니다.
![]()
![]()
쉽게 말해, 구조광 방식으로 3D 형상을 만들고, GPU 기반 병렬 처리로 공정 속도를 맞추며, AI 보정으로 난반사·어두운 물체에서 데이터 품질을 유지하고, 그 결과를 로봇 가이던스로 바로 전달하는 구조를 가지고 있습니다.
여기서 중요한 건 '3D 카메라를 만든다'가 아니라, 3D 데이터 획득(구조광)–GPU 병렬 연산–AI 기반 보정–6 DoF 포즈 추정–로봇 가이던스 연동을 하나의 파이프라인으로 묶는다는 데 있습니다.
다시 말해, CLE는 단순히 ‘검사 장비 회사’가 아니라 로봇 자동화를 가능하게 하는 인식+제어 패키지에 가깝습니다. 공장 입장에서 이 차이는 큽니다. 장비를 하나 더 들여놓는 것이 아니라, 사람이 하던 공정을 로봇이 할 수 있는 상태로 바꾸는 투자이기 때문이죠.
Cognex, Keyence 등 기존 머신비전의 강자들은 2D 검사, 레이저 기반 측정에서 검증된 업력과 강점을 갖고 있지만, 반사체·검은색·복잡 형상·정밀 6DoF(위치&자세 고려)·실시간 처리에서 제약이 존재합니다. 반사체/검정 물체처럼 신호가 불안정한 대상은 센서 방식만 바꾼다고 해결되지 않고, 후처리(보정), 연산 성능(실시간), 데이터 품질(노이즈 제거)이 결합되어야 합니다. 즉, 피지컬 AI와 GPU의 발전으로 머신 비전과 산업용 피지컬 AI의 경쟁 포인트가 ‘카메라’에서 ‘스택’으로 새롭게 바뀌고 있습니다.
앞서 말씀드린 엔비디아가 굳이 Cosmos(Physical AI)·GR00T(로보틱스)·Nemotron(에이전트) 같은 묶음을 오픈 모델/데이터/툴 형태로 확장하는 것도 같은 맥락으로 보입니다. 현실 세계에서 학습·검증·배포를 빠르게 만들겠다는 의도입니다. 지금 피지컬 AI는 휴머노이드라는 슈퍼스타가 아니라, 센서→연산→모델→시뮬레이션/검증의 산업적 인프라가 동시에 성숙하면서 열리고 있는 새로운 산업인 셈입니다. 그리고 CLE는 이 흐름을 '제조 현장에서 바로 돈이 되는 문제'로 좁혀서 풀고 있는 회사로 보입니다.
미래의 CLE는 어떻게 될까?
CLE는 기술력 좋은 회사를 넘어 전략적 요충지를 잘 점유한 팀으로 보입니다. 글로벌 피지컬 AI 유니콘들과 비교해 보면 좀 더 명확히 살펴볼 수 있습니다.
![]()
클레는 이들이 집중한 범용성이나 지능과 차별화되는, 더 크고 난이도 높은 '정밀 제조' 시장을 타깃으로 버티컬 챔피언이 되는 전략을 사용하고 있습니다. 제조 생산 공정에 치명적인 문제임 '병목' 문제를 풀고 있고, 대체가 어려운 높은 정밀도를 보유하고 있으며, 카메라(하드웨어) + 비전 알고리즘(AI) + 로봇 제어(Control)를 수직 통합해 시너지를 내고 도입 장벽을 낮추고 있습니다. 또한 현대차/기아차와 일본 자동차 기업의 제조 공정에서 실제 성과 개선에 PoC로 사용되며 실제 현장에서의 개선 성과를 보여주고 있습니다.
또한 공장은 특정 로봇만 쓰지 않습니다. 라인마다 로봇 브랜드가 다르고, 협동 로봇과 산업용 로봇이 섞이고, 레거시 시스템이 남아 있습니다. 이때 가장 확장성이 높은 건 특정 로봇에 종속되지 않는 인식/좌표 레이어입니다. 그래서 3D 머신비전에 집중한 CLE 제조 분야에서 더 높은 확장성과 효율을 가져갈 수 있습니다.
다만 하드웨어가 들어가는 사업은 공급망, 설치, 유지보수, AS가 따라옵니다. 레퍼런스를 쉽게 쌓기 어렵고, PoC에서 양산 전환까지 시간이 걸릴 수 있습니다. 특정 대형 고객 의존도도 높아질 수 있습니다. 그래서 CLE가 장기적으로 더 커지기 위해서는, 판매 외 반복 매출 구조와 공정 패키지화가 중요해질 것입니다.
허나 기술과 성과 검증이 끝나고 실제 조립 라인에 많이 도입되기 시작한다면, 라인 가동률과 직결되는 3D 비전 알고리즘을 다른 기술로 교체하기 힘들고, 현장에서 수많은 비정 3D 데이터를 통해 기술을 고도화할 수 있기 때문에 해자를 잘 쌓을 수 있을 것으로 기대됩니다.
먼 미래가 아닌, 지금 당장의 피지컬 AI
![]()
피지컬 AI를 이야기할 때 우리는 종종 '아이로봇'을 떠올립니다. 인간보다 인간 같은 휴머노이드와, 그 휴머노이드가 가져올 혁신과 문제 모두를요. 허무맹랑한 것 같지만 저는 '아이로봇'이 현실화될 것이라 믿고 있습니다. 언젠간요. 그러나 지금 당장, 현실의 피지컬 AI는 움직임 이전에 인식에서부터 막힙니다. 인식이 해결되면 법이 허용하는 선 안에서 생각보다 더 빨리 로봇이 인간을 대체하고, 일상에 변화가 찾아올 겁니다. 제조/생산에서의 조립·피킹·검사 같은 고부가가치 공정도 연쇄적으로 열릴 것입니다.
그래서 지금 CLE 같은 회사가 흥미롭습니다. '아이로봇'같은 화려한 데모보다 현장에서 필요한 문제를 풀고 있죠. 피지컬 AI의 미래를 믿는다면, 결국 그 미래를 가장 먼저 현실로 만드는 곳은 ‘휴머노이드 무대’가 아니라 ‘공장 바닥’ 일 가능성이 큽니다. 그리고 그 바닥에서 지금 중요한 건, 로봇이 아니라 로봇의 눈입니다.