생성형 AI 개발을 위해서는 대규모언어모델(LLM)을 학습해야 하는데, 이를 위해서는 수많은 콘텐츠가 필요하다. 최근 국내외 AI 관련 대기업들이 LLM 구축을 위한 학습 자료로 언론사의 뉴스 콘텐츠를 무단으로 도용해 소송·항의 등을 받고 있다.
미국에서는 오픈AI와 마이크로소프트가 뉴욕타임스의 기사를 무단 사용했다는 혐의로 소송에 걸렸다. 국내에서는 한국신문협회로가 네이버의 하이퍼클로바X에 뉴스 콘텐츠를 언론사 동의받지 않고 무단으로 사용했다며 공정거래위에 의견서를 제출했다.
◆한국 신문협회, "네이버 '하이퍼클로바X'에 뉴스 콘텐츠 무단 사용 부당해"
28일 한국신문협회는 네이버가 AI LLM '하이퍼클로바X' 학습에 뉴스 콘텐츠를 활용하는 것은 부당하다며 시정을 촉구하는 의견서를 공정거래위원회에 제출했다.
신문협회는 의견서에서 네이버가 하이퍼클로버X의 학습을 위해 뉴스 콘텐츠를 사용하는 것이 언론사의 사전 동의를 받지 않은 행위이며 저작권 침해에 해당한다고 밝혔다.
신문협회는 네이버와 언론사의 뉴스 콘텐츠 제휴 약관이 "뉴스를 이용자에게 제공하는 것에 대하여 적용되는 것"이며 하이퍼클로바X를 학습시키기 위해 뉴스를 데이터로 사용하는 행위는 약관이 정한 사용 범위를 벗어나는 것이라고 주장했다.
약관에 '네이버는 서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접, 공동으로 또는 제삼자에게 위탁하는 방식으로 정보를 이용할 수 있다'는 내용이 있지만 약관 자체가 뉴스 노출·제공을 위한 것인 점에 비춰볼 때 이와 별개의 행위인 하이퍼클로바X 학습에 약관을 적용해서는 안 된다는 이유다.
신문협회는 네이버가 이런 약관에 사용하기 시작한 2020년 3월 무렵 AI를 연구하고 있었던 것으로 보이지만 이를 언론사에 알리지 않았으므로 "신의성실의 원칙을 위반해 공정성을 잃은 조항"이라며 새 약관을 만들어야 한다고 밝혔다. AI 훈련 과정에서 뉴스 데이터 전송·복제가 이뤄지는데, 언론사의 허락을 받지 않고 이런 행위를 하는 것은 저작권 침해에도 해당한다고 신문협회는 주장했다.
◆뉴욕타임스, 오픈AI·마이크로소프트에 '저작권 침해' 혐의 소송
해외에서도 비슷한 사례가 실제 소송으로까지 번지고 있는 상황이다.
27일(현지시간) 해외 미디어들은 뉴욕타임스(NYT)가 오픈AI(OpenAI)와 마이크로소프트(MS)에 기사 수백만 개가 허가 없이 회사의 AI 모델을 훈련하는 데 사용되었다고 주장하며 저작권 침해 혐의로 소송을 제기했다고 보도했다.
매체들에 따르면 NYT는 이날 미국 뉴욕 남부지방 법원에 "자사가 발행한 수백만 개의 기사가 자동화된 챗봇을 훈련하는 데 활용됐다"며 "사용자들의 질문에 대한 답변을 제공하기 위해 자료들이 쓰였다"고 밝혔다.
NYT는 소장에 "NYT의 기사들은 우리가 연간 수억 달러의 비용을 들여 고용한 언론인들이 만들어낸 작품"이라며 양측은 사전 허가나 보상 없이 이를 무단으로 사용하는 방식으로 NYT에 수십억 달러에 이르는 손해를 입혔다고 주장했다.
NYT는 오픈AI와 마이크로소프트의 LLM이 "NYT 콘텐츠를 그대로 낭송하고, 자세히 요약하며, 표현 스타일을 모방하는 출력을 생성할 수 있다"고 설명했다.
이에 NYT는 향후 AI 모델을 훈련하기 위해 자사의 뉴스 콘텐츠 사용을 금지해야 할 뿐만 아니라 기존 데이터 세트에서 NYT 콘텐츠를 이용한 작업을 제거해야 한다고 요청했다. 다만 NYT는 이번 소송에 구체적인 손해배상액을 명시하지는 않았다.
NYT는 오픈AI, MS와 수개월간 콘텐츠 사용료 지불 계약 관련 협상을 벌였지만 결렬된 것으로 알려졌다. CNN, 로이터, BBC 등이 언론사들은 최근 몇 달 동안 오픈AI가 웹 사이트에서 콘텐츠를 스크랩하는 것을 차단했다.

댓글 (0)
댓글 작성