AI 챗봇을 훈련시키기 위한 '텍스트'가 부족하다.
캘리포니아 주립대 버클리 캠퍼스(UC Berkeley)의 컴퓨터 과학 교수인 스튜어트 러셀은 AI 개발자들이 챗봇을 훈련시키기 위한 "텍스트가 부족하다"고 경고했다.
그는 대규모언어모델LLM)을 훈련시키는 AI의 전략이 "벽에 부딪히기 시작했다"고 설명했다.
OpenAI 및 기타 AI 개발자의 데이터 수집 관행과 관련하여 제기된 최근 우려다.
러셀 교수는 ChatGPT와 같은 AI 봇을 훈련시키기 위해 산더미 같은 텍스트를 소비하는 기술이 "한계에 도달했다"고 말했다.
다시 말해, 챗봇이 소비할 수 있는 디지털 텍스트가 고갈되고 있다고 그는 지난 주 유엔 통신기관인 국제전기통신연합(International Telecommunication Union)과의 인터뷰에서 주장했다.
이는 생성적 AI 개발자가 향후 데이터를 수집하고 기술을 훈련하는 방식에 영향을 미칠 수 있다.
러셀 교수의 예측은 OpenAI 및 기타 생성 AI 개발자가 LLM을 교육하기 위해 수행한 데이터 수집과 관련, 점점 더 많은 주목을 받고 있다.
ChatGPT 및 기타 챗봇에 통합된 데이터 수집 관행은 자신의 작업이 동의 없이 복제되는 것에 대해 우려하는 창작자, 그리고 플랫폼의 데이터가 자유롭게 사용되는 것에 불만을 품은 소셜 미디어 경영진 등으로부터 도전에 직면해 있다.
그러나 러셀 교수는 또 다른 잠재적인 취약점을 지적했다. 바로 이러한 데이터 세트를 구성할 텍스트가 부족하다는 것이다.
AI 연구원 그룹인 에폭(Epoch)에서 지난 11월 실시한 한 연구는 기계 학습 데이터 세트는 2026년 이전에 모든 '고품질 언어 데이터'를 고갈시킬 가능성이 있다고 추정했다.
'고품질' 세트의 언어 데이터는 "책, 뉴스 기사, 과학 논문, 위키피디아(Wikipedia) 및 필터링된 웹 콘텐츠"라고 연구원 그룹이 설명했다.
오늘날 가장 인기 있는 생성 AI 도구를 지원하는 LLM은 디지털 뉴스 소스 및 소셜 미디어 사이트를 포함, 공개 온라인 소스에서 수집한 방대한 양의 텍스트에 대해 교육을 받았다.
지난 몇 주 동안 OpenAI에 대해 제기된 여러 소송은 회사가 ChatGPT를 교육하기 위해 개인 데이터와 저작권이 있는 자료가 포함된 데이터 세트를 사용했다고 주장한다.
가장 큰 소송 중에는 OpenAI가 사적인 대화 및 의료 기록과 같은 민감한 데이터를 사용했다고 주장하는 익명의 원고 16명이 제기한 157페이지 분량의 소송이 있다.
OpenAI는 제기된 소송에 대해 공개적으로 언급하지 않았다.
샘 올트먼 CEO도 의혹에 대해 언급을 자제했지만, 과거 법적 문제를 피하고 싶다는 뜻을 밝힌 바 있다.

댓글 (0)
댓글 작성