'K-이대남·녀' 개발자 12명이 설립한 AI 영상 검색 기술 스타트업 '트웰브랩스(이재성(28) 대표)'가 미국 실리콘밸리 기반 벤처투자사(VC)인 인덱스벤처스로부터 시드 라운드(초기자금) 500만달러(약 60억원)를 투자받았다.
트웰브랩스가 개발한 '영상 이해 AI'는 영상 데이터베이스에서 영상 제목 수준이 아니라 영상 내 특정 구간까지 구체화한 검색 결과를 제시해주는 AI다.
인덱스벤처스는 엘라스틱, 노션, 디스코드 등 유니콘 기업에 투자한 VC로, 창립 이후 투자한 스타트업 가운데 한국인 창업자가 세운 기업은 트웰브랩스가 처음이라고 회사는 설명했다.
이번 투자 라운드에는 인공지능 분야 석학인 페이페이 리 미국 스탠퍼드대 교수 등이 투자와 함께 사업 관련 조언을 하는 엔젤 투자자로 참여했을 정도로 높은 주목을 받고 있다.
스마트시티로의 전환에 있어 영상 데이터의 중요성은 갈수록 높아지고 있어 '트웰브랩스'의 'AI 영상이해' 솔루션은 큰 역할을 할 것으로 기대되고 있다.
이재성 대표는 자신의 SNS을 통해 투자 유치 소식과 함께 '영상 이해 AI'의 개발배경 등 세부 내용을 다음과 같이 공개했다.
"오늘날 전 세계 데이터의 80% 이상이 비디오에 있다. 실제로 시스코는 2020년에 매달 글로벌 IP 네트워크를 통과하는 비디오의 양을 시청하는 데 5백만 년 이상이 걸릴 것으로 추정했다. 닐슨에 따르면 미국 성인은 2021년에 5시간 21초 동안 동영상을 시청했다. 이는 전체 깨어 있는 시간의 1/3에 해당한다.
엄청나게 긴 시간 같지만, 매일 유튜브나 넷플릭스를 보거나, Zoom으로 전화를 걸거나, 휴대폰으로 아이들의 동영상을 녹화하는 데 보내는 모든 시간을 생각해보면 믿기 어려운 일이 아니다. 비디오는 계속 존재하며 우리 삶의 모든 부분에 점점 더 깊이 스며들고 있다.
그러나 여전히 비디어용 "CTRL + F"는 없다. 우리가 매일 소비하고 생성하는 엄청난 양의 비디오 데이터에도 불구하고 비디오 내의 콘텐츠는 여전히 검색할 수 없다. 텍스트 기반 문서의 300페이지 내에서 어떤 문구를 검색하는 경우 간단한 CTRL+F를 사용하면 1초도 안 되어 해당 문구를 찾을 수 있다. 비디오 전체에 걸쳐서도 가능할까? 불가능하다.
그러기 위해서 우리는 시간이 많이 걸리거나 비효율적인 부적절한 방법에 의존해야 했다. 확실한 해결 방법은 원하는 것을 찾을 때까지 모든 비디오를 수동으로 보는 것이다.
규모가 큰 조직과 기업은 사람들이 태그(메타데이터)를 작성하여 각 타임코드와 일치시켜 나중에 해당 태그에 대한 텍스트 기반 일치를 통해 장면을 찾을 수 있도록 해야 한다.
오늘날의 기술 지원 접근 방식은 기술 대기업의 객체 감지 API를 사용하여 이미지에서 감지된 객체를 기반으로 해당 태그를 자동 생성하는 것이다.
불행히도 한정된 수의 태그로는 장면을 완전히 설명하기에 충분하지 않을 수 있다. 장면에 태그가 제대로 지정되지 않은 경우 메타데이터 검색을 통해 찾을 수 없다. 그러나 가장 중요한 것은 태깅이 어떤 종류의 '맥락context'도 고려할 수 없다는 것이다.
맥락이 왜 중요한가? 인간은 장면 속 사물들 사이의 관계를 형성하고 과거와 현재를 연결함으로써 세상을 이해한다. 우리가 검색하는 방식은 세상을 인식하고 기억하는 방식이다. 태그가 맥락 이해를 포함할 만큼 복잡하지 않으면 검색에 도움이 되지 않는다.
그래서 우리는 비디오용 CTRL+F를 만들었다. 조직의 광범위한 Zoom 녹화에서 주목할만한 토론 지점부터 미디어 회사의 아카이브에서 긴급하게 필요한 장면에 이르기까지, 첫 아이와 함께하는 특별한 날까지, 원하는 정확한 순간을 찾기 위해 검색하기만 하면 된다.
우리가 개발한 '영상 이해 AI'의 장점은 생각나는 대로 입력하면 해당 영상에서 쿼리와 관련된 정확한 시간 코드와 파일이 표시된다는 것이다. 태그 일치가 아니라 실제 검색으로 말이다.
이것이 바로 AI가 하는 일이다. 액션, 움직임, 대화와 같은 시각 자료를 포함하여 비디오 콘텐츠를 보고 이해한다. (물론 상황적, 시간적 맥락이 포함된다!) 그런 다음 비디오에 대한 모든 것을 벡터라고 하는 강력한 중간 데이터 형식으로 변환한다. 벡터는 기본적으로 비디오의 내용을 통계적으로 나타내는 부동 숫자 목록이다. 사용자가 검색어를 입력하면 검색어와 가장 가까운 벡터를 찾아 가장 관련성이 높은 장면과 동영상 파일 이름을 자동으로 출력한다.
그리고 개발자가 이 AI에 액세스할 수 있는 직관적인 인터페이스를 제공한다. 간단한 색인 및 검색 API 호출을 통해 개발자는 강력한 의미 체계 비디오 검색을 비디오 애플리케이션에 통합할 수 있다.
이 분야에서 트웰브랩스는 공식적으로 세계 최고다. 작년 말에 우리는 마이크로소프트가 주최하는 '2021 ICCV VALUE Challenge for Video Retrieval(= Search)' 대회에 참가해 1위를 차지했다!
벤처 자금이 없었을 때 12명의 우리 팀(트웰브랩스)은 거대 기술기업을 압도하고 Microsoft의 이전 최첨단 기술을 능가한 것을 자랑스럽게 생각한다.
다음은 우리가 세계의 거물들을 이길 수 있었던 방법에 대한 이승준 트웰브랩스 CTO의 설명이다.
우리는 비디오의 기초 모델을 구축하고 있다. 우리는 비디오를 이해하는 것이 세상을 이해하는 것이라고 믿는다. 비디오를 벡터로 가장 정확하게 변환할 수 있는 강력한 비디오 이해 인프라는 차세대 비디오를 지원하는 더 나은 검색 및 기타 지능형 애플리케이션을 위한 기반을 마련할 것이다. 이러한 애플리케이션에는 비디오 대 비디오 검색, 요약 생성 및 콘텐츠 추천이 포함된다.
비디오를 이해하는 기반 모델을 구축함으로써 개발자들이 우리가 하는 것처럼 세상을 보고, 듣고, 이해할 수 있는 프로그램을 구축할 수 있도록 돕고 있다.

댓글 (0)
댓글 작성