OpenAI, '모든 사람으로부터 모든 것을 훔친 혐의'로 피소

산업 |입력
OpenAI가 광범위한 데이터 절도 혐의로 피소됐다.
OpenAI가 광범위한 데이터 절도 혐의로 피소됐다.

OpenAI가 인터넷의 '모든 사람으로부터 모든 것을 훔친' 혐의로 소송을 당했다.

OpenAI의 ChatGPT와 샘 올트먼(Sam Altman)이 LLM, 또는 대규모 언어 모델 교육을 위해 인터넷의 콘텐츠를 불법적으로 사용해 오다 미국에서 소송을 당한 것이다.

소송은 OpenAI의 AI 교육 방법이 온라인에서 콘텐츠를 공유한 거의 모든 사람의 개인 정보 및 저작권을 침해했다고 주장했다.

OpenAI는 고급 AI 언어 모델을 교육하기 위해 인터넷의 다양한 소스에서 엄청난 양의 데이터를 수집한다.

이러한 데이터 세트는 위키피디아(Wikipedia) 기사, 인기 서적, 소셜 미디어 게시물 및 틈새 장르의 노골적인 콘텐츠 등과 같이 광범위한 자료로 구성된다.

더 중요한 것은 OpenAI가 콘텐츠 제작자의 허가를 구하지 않고 이 모든 데이터를 획득했다는 것이다.

캘리포니아에서 제기된 집단 소송은 OpenAI가 콘텐츠 제작자의 동의를 얻는 것을 포함, 적절한 프로토콜을 준수하지 않는 것이 노골적인 데이터 절도에 해당한다고 주장했다.

소장은 “피고인들이 개인정보를 취득·이용할 때 정해진 절차를 따르지 않고 도용했다. 그들은 인터넷에서 '책, 기사, 웹사이트, 게시물' 등 3,000억 단어를 체계적으로 스크랩했으며, 여기에는 동의 없이 얻은 개인 정보도 포함됐다”고 주장했다.

최근 수십 년 동안 온라인에서 활동했다면 디지털 데이터가 OpenAI의 데이터 세트에 통합될 가능성이 높다는 주장은 타당하다.

결과적으로 수익을 위해 사용되는 OpenAI의 언어 모델에서 생성된 모든 출력에는 자동 스크래핑을 통해 얻은 데이터 부분이 포함될 수 있다.

OpenAI를 고소한 로펌의 관리 파트너인 라이언 클락슨(Ryan Clarkson)은 워싱턴 포스트에 "모든 정보가 대규모 언어 모델에 의해 원래 의도된 것이 아니라, 그냥 대규모로 수집되고 있다"고 설명했다.

그러나 법정에서 내려질 사건의 판단 결과는 여전히 불확실하다.

인터넷 인프라는 복잡하고 자유롭고 개방된 웹이라는 개념이 제대로 정착되지 않은 경우가 많다.

온라인 플랫폼은 사용자와 자체 약관 및 계약이 있으며, 사용자가 이러한 플랫폼에 콘텐츠를 제공하더라도 일반적으로 소유권은 사용자가 아닌 플랫폼 자체에 속한다.

지적 재산권 변호사인 캐서린 가드너(Katherine Gardner)는 사용자가 소셜 미디어나 다른 사이트에 콘텐츠를 업로드할 때 일반적으로 콘텐츠를 다양한 방식으로 사용할 수 있는 광범위한 라이선스를 플랫폼에 부여한다고 언급했다.

결과적으로 일반 사용자가 교육 모델에서 데이터 사용에 대한 지불, 또는 보상에 대한 권리를 주장하는 것은 어려울 것이다.

×

댓글 (0)

아직 댓글이 없습니다. 첫 댓글을 작성해보세요!

댓글 작성