"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 일체 포함 > AI 도구에는 훈련 데이터가 부족하지만 6가지 솔루션이 있습니다.

AI 도구에는 훈련 데이터가 부족하지만 6가지 솔루션이 있습니다.

2024-07-29에 게시됨
검색:219

인공지능에는 훈련 데이터가 필요하지만 그 데이터는 제한되어 있습니다. 그렇다면 AI가 지속적으로 성장하고 우리에게 유용하도록 AI를 어떻게 훈련할 수 있을까요?

인터넷과 데이터는 무한한 자원이라고 생각할 수도 있지만, AI 도구로는 채굴할 데이터가 부족합니다. 이제 걱정하시기 전에 AI 개발이 중단되지는 않을 것입니다. AI 시스템을 교육할 준비가 된 많은 데이터가 아직 남아 있습니다.

1 온라인에는 항상 더 많은 데이터가 추가됩니다.

간단히 말해서, AI 연구 기관인 Epoch는 AI가 훈련되는 고품질 데이터가 2026년까지 고갈될 수 있다고 말합니다.

여기서 핵심 단어는 "할 수 있다"입니다. 매년 인터넷에 추가되는 데이터의 양이 증가하므로 2026년 이전에는 뭔가 급격한 변화가 있을 수 있습니다. 그럼에도 불구하고 이는 공정한 추정입니다. 어느 쪽이든 AI 시스템은 어느 시점에서 좋은 데이터가 고갈될 것입니다.

그러나 우리는 매년 약 147제타바이트의 데이터가 (폭발적인 주제에 따라) 온라인으로 추가된다는 점을 기억해야 합니다. 1제타바이트는 1,000,000,000,000,000,000,000비트의 데이터와 같습니다. 실제적으로(글쎄, 어느 정도 현실적으로) 이는 300억 개가 넘는 4K 영화(실제이지만 헤아릴 수 없음)에 해당합니다. AI가 선별할 수 있는 정보의 양은 놀라울 정도로 많습니다.

그럼에도 불구하고 AI는 인류가 생성할 수 있는 것보다 더 빠르게 데이터를 소비합니다…

2 AI는 저품질 데이터를 잊어버릴 수 있습니다.

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

147제타바이트의 데이터가 모두 좋은 것은 아닙니다. 물론 데이터. 눈에 보이는 것보다 더 많은 것이 있습니다. 하지만 2050년에는 AI가 저품질 언어 데이터도 소모할 것으로 추정됩니다.

로이터는 한때 세계 최대의 사진 저장소 중 하나였던 Photobucket이 광범위한 라이브러리를 AI 교육 회사에 라이센스하기 위해 협상 중이라고 보도했습니다. 이미지 데이터에는 DALL-E 및 Midjourney와 같은 훈련된 시스템이 있지만 이 시스템도 2060년에는 고갈될 수 있습니다. 여기에도 더 큰 문제가 있습니다. Photobucket에는 Myspace와 같은 2000년대 소셜 미디어 플랫폼의 이미지가 저장되어 있어 표준이 높지 않습니다. 현재 사진. 이로 인해 품질이 낮은 데이터가 발생합니다.

Photobucket은 혼자가 아닙니다. 2024년 2월 Google은 Reddit과 계약을 체결하여 검색 대기업이 AI 교육에 소셜 미디어 플랫폼의 사용자 데이터를 사용할 수 있도록 허용했습니다. 다른 소셜 미디어 플랫폼도 AI 훈련 목적으로 사용자 데이터를 제공하고 있습니다. 일부는 Meta의 Llama와 같은 사내 AI 모델을 교육하는 데 이를 사용하고 있습니다.

그러나 일부 정보는 품질이 낮은 데이터에서 수집할 수 있지만 Microsoft는 AI가 데이터를 선택적으로 "학습 해제"하는 방법을 개발하고 있는 것으로 알려졌습니다. 주로 IP 문제에 사용되지만 도구가 품질이 낮은 데이터 세트에서 배운 내용을 잊어버릴 수도 있습니다.

지나치게 선택하지 않고도 AI에 더 많은 데이터를 제공할 수 있습니다. 그런 다음 해당 AI 시스템은 학습에 가장 유익한 것을 선택하고 선택할 수 있습니다.

3 음성 인식을 통해 비디오 및 팟캐스트 데이터 공개

AI 도구에 공급되는 데이터는 지금까지 주로 텍스트로 구성되어 있으며, 그 정도는 어느 정도는 이미지로 구성되어 있습니다. 음성 인식 소프트웨어는 사용 가능한 풍부한 비디오와 팟캐스트가 AI를 훈련할 수도 있다는 것을 의미하므로 이는 의심할 여지 없이 바뀔 것이며 이미 그랬을 가능성이 높습니다.

특히 OpenAI는 680,000시간의 다중 언어 및 멀티태스킹 데이터를 사용하여 오픈 소스 자동 음성 인식(ASR) 신경망인 Whisper를 개발했습니다. 그런 다음 OpenAI는 YouTube 동영상의 백만 시간이 넘는 정보를 대규모 언어 모델인 GPT-4에 공급했습니다.

이는 음성 인식을 사용하여 다양한 소스의 비디오 및 오디오를 기록하고 AI 모델을 통해 해당 데이터를 실행하는 다른 AI 시스템에 이상적인 템플릿입니다.

Statista에 따르면 매분 500시간이 넘는 동영상이 YouTube에 업로드되며, 이는 2019년 이후 상당히 일정하게 유지되고 있습니다. Dailymotion 및 Podbean과 같은 다른 동영상 및 오디오 플랫폼은 말할 것도 없고요. AI가 이와 같은 새로운 데이터 세트에 관심을 돌릴 수 있다면 아직 채굴해야 할 정보가 엄청나게 많습니다.

4개의 AI는 대부분 영어에 갇혀 있습니다.

이것이 우리가 Whisper에서 배울 수 있는 전부는 아닙니다. OpenAI는 117,000시간의 영어가 아닌 오디오 데이터를 사용하여 모델을 훈련했습니다. 이는 많은 AI 시스템이 주로 영어를 사용하거나 서구의 관점을 통해 다른 문화를 보면서 훈련되었기 때문에 특히 흥미롭습니다.

본질적으로 대부분의 도구는 제작자의 문화에 의해 제한됩니다.

ChatGPT를 예로 들어 보겠습니다. 2022년 출시 직후 노르웨이 베르겐 대학의 디지털 문화 교수인 Jill Walker Rettberg는 ChatGPT를 사용해 본 후 다음과 같은 결론을 내렸습니다.

“ChatGPT는 노르웨이 문화에 대해 많이 알지 못합니다. 또는 오히려 노르웨이 문화에 대해 알고 있는 모든 것은 아마도 대부분 영어 소스에서 배운 것입니다. ChatGPT는 미국의 가치와 법률에 명시적으로 부합합니다. 대부분의 경우 이는 노르웨이와 유럽의 가치에 가깝지만 아마도 항상 그런 것은 아닐 것입니다.”

AI는 더 많은 다국적 사람들이 AI와 상호작용하거나 그러한 시스템을 훈련하는 데 더 다양한 언어와 문화를 사용할수록 발전할 수 있습니다. 현재 많은 인공지능이 단일 라이브러리에 국한되어 있습니다. 전 세계 도서관의 열쇠가 주어지면 성장할 수 있습니다.

5개의 출판사가 AI 개발을 도울 수 있습니다.

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

IP는 분명 큰 문제이지만 일부 출판사는 라이센스 계약을 체결하여 AI 개발을 도울 수 있습니다. 이는 도구에 온라인 소스에서 수집한 잠재적으로 품질이 낮은 정보보다는 책에서 가져온 고품질, 즉 신뢰할 수 있는 데이터를 제공하는 것을 의미합니다.

실제로 페이스북, 인스타그램, 왓츠앱의 소유주인 메타는 '빅 5' 출판사 중 하나인 사이먼 앤 슈스터 인수를 고려한 것으로 알려졌다. 아이디어는 회사가 출판한 문헌을 사용하여 Meta의 자체 AI를 훈련시키는 것이었습니다. 작가의 사전 동의 없이 IP를 처리하는 회사의 윤리적 회색 영역으로 인해 거래가 결국 실패했습니다.

고려된 또 다른 옵션은 새 타이틀에 대한 개별 라이센스 권한을 구매하는 것이었습니다. 이는 창작자들에게 큰 우려를 불러일으키겠지만, 사용 가능한 데이터가 고갈되면 AI 도구를 개발할 수 있는 흥미로운 방법이 될 것입니다.

6 합성 데이터가 미래입니다

다른 모든 솔루션은 여전히 ​​제한적이지만, AI가 먼 미래까지 번성할 수 있는 옵션은 바로 합성 데이터입니다. 그리고 그것은 이미 매우 현실적인 가능성으로 조사되고 있습니다.

그럼 합성데이터란 무엇일까요? 이런 의미에서 AI가 생성한 데이터입니다. 인간이 데이터를 생성하는 것처럼 이 방법을 사용하면 인공 지능이 훈련 목적으로 데이터를 생성하는 것을 볼 수 있습니다.

실제로 AI는 설득력 있는 딥페이크 동영상을 만들 수 있습니다. 해당 딥페이크 비디오는 AI에 다시 공급되어 본질적으로 상상의 시나리오로부터 학습할 수 있습니다. 이는 결국 인간이 배우는 주요 방법 중 하나입니다. 우리는 주변 세계를 이해하기 위해 무언가를 읽거나 시청합니다.

AI는 이미 합성 정보를 소비했을 가능성이 높습니다. 온라인에 유포된 딥페이크는 잘못된 정보와 허위 정보를 퍼뜨립니다. 따라서 AI 시스템이 인터넷을 검색하면 일부가 가짜 콘텐츠의 대상이 될 것이라는 것은 당연합니다.

예, 여기에는 교활한 측면이 있습니다. 또한 AI를 손상시키거나 제한하여 해당 도구로 인해 발생한 실수를 강화하고 퍼뜨릴 수도 있습니다. 기업들은 후자의 문제를 근절하기 위해 노력하고 있습니다. 그럼에도 불구하고 "AI가 서로 학습하고 오류를 범하는 것"은 많은 공상 과학 악몽 시나리오의 줄거리입니다.

7

AI는 논란의 여지가 있습니다. 많은 단점이 있지만 비방하는 사람들은 그 이점을 무시합니다. 예를 들어, 감사 및 자문 네트워크인 PwC[PDF]는 AI가 2030년까지 세계 경제에 최대 15조 7천억 달러에 기여할 수 있다고 제안합니다.

게다가 AI는 이미 전 세계에서 사용되고 있습니다. 당신은 아마도 그것을 깨닫지도 못한 채 오늘 어떤 형태로든 그것을 사용했을 것입니다. 이제 지니는 병에서 나왔습니다. 핵심은 신뢰할 수 있는 고품질 데이터로 지니를 훈련시켜 올바르게 사용할 수 있도록 하는 것입니다.

AI에는 장점과 단점이 있습니다. 균형을 찾아야 합니다.

릴리스 선언문 이 글은 https://www.makeuseof.com/ai-running-out-training-data-solutions/에 복제되어 있습니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제해 주시기 바랍니다.
최신 튜토리얼 더>
  • ChatGPT에 자신에 대해 재미있는 질문을 해보세요
    ChatGPT에 자신에 대해 재미있는 질문을 해보세요
    ChatGPT가 당신에 대해 무엇을 알고 있는지 궁금한 적이 있나요? 시간이 지남에 따라 제공한 정보를 어떻게 처리합니까? 나는 다양한 시나리오에서 ChatGPT 힙을 사용해 보았는데, 특정 상호 작용 후에 그것이 무엇을 말하는지 보는 것은 항상 흥미롭습니다.'...
    일체 포함 2024년 11월 22일에 게시됨
  • 신비한 GPT-2 챗봇을 사용해 볼 수 있는 방법은 다음과 같습니다.
    신비한 GPT-2 챗봇을 사용해 볼 수 있는 방법은 다음과 같습니다.
    AI 모델이나 챗봇에 관심이 있다면 신비한 GPT-2 챗봇과 그 효과에 대한 토론을 본 적이 있을 것입니다.여기서 GPT-2 챗봇이 무엇이고 어떻게 할 수 있는지 설명합니다. 액세스하세요. GPT-2 챗봇이란 무엇인가요? 2024년 4월 말, LLM 테스트 및 벤치마킹...
    일체 포함 2024-11-08에 게시됨
  • ChatGPT의 캔버스 모드는 훌륭합니다: 이를 사용하는 4가지 방법
    ChatGPT의 캔버스 모드는 훌륭합니다: 이를 사용하는 4가지 방법
    ChatGPT의 새로운 캔버스 모드는 세계 최고의 생성 AI 도구에서 쓰기 및 편집에 새로운 차원을 추가했습니다. 저는 ChatGPT Canvas가 출시된 이후부터 사용해 왔으며 이 새로운 AI 도구를 사용하는 몇 가지 다른 방법을 찾았습니다.✕ 광고 제거 ...
    일체 포함 2024-11-08에 게시됨
  • ChatGPT의 맞춤형 GPT가 데이터를 노출하는 방법과 이를 안전하게 유지하는 방법
    ChatGPT의 맞춤형 GPT가 데이터를 노출하는 방법과 이를 안전하게 유지하는 방법
    ChatGPT의 맞춤형 GPT 기능을 사용하면 누구나 생각할 수 있는 거의 모든 것에 대한 맞춤형 AI 도구를 만들 수 있습니다. 창의적, 기술적, 게임적, 맞춤형 GPT가 모든 것을 할 수 있습니다. 더 좋은 점은 맞춤 GPT 창작물을 누구와도 공유할 수 있다는 것...
    일체 포함 2024-11-08에 게시됨
  • ChatGPT가 LinkedIn에 취업하는 데 도움이 되는 10가지 방법
    ChatGPT가 LinkedIn에 취업하는 데 도움이 되는 10가지 방법
    2,600개의 문자를 사용할 수 있는 LinkedIn 프로필의 정보 섹션은 귀하의 배경, 기술, 열정 및 미래 목표를 자세히 설명할 수 있는 훌륭한 공간입니다. 귀하의 직업적 배경, 기술 및 포부를 간략하게 요약한 LinkedIn 약력을 확인하세요. ChatGPT에...
    일체 포함 2024-11-08에 게시됨
  • 독특한 경험을 제공하는 잘 알려지지 않은 6가지 AI 앱을 확인해 보세요
    독특한 경험을 제공하는 잘 알려지지 않은 6가지 AI 앱을 확인해 보세요
    현재 대부분의 사람들은 AI 붐을 이끈 두 가지 선구적인 생성 AI 앱인 ChatGPT와 Copilot에 대해 들어본 적이 있을 것입니다.하지만 잘 알려지지 않은 수많은 AI 도구가 놀라운 결과를 제공할 수 있다는 사실을 알고 계셨습니까? 독특한 경험? 다음은 최고 중...
    일체 포함 2024-11-08에 게시됨
  • 우리가 이미 AI 정점에 도달했음을 보여주는 7가지 징후
    우리가 이미 AI 정점에 도달했음을 보여주는 7가지 징후
    온라인 어디를 가든 AI 사용이 최선의 선택이라고 주장하는 사이트, 서비스, 앱이 있습니다. 여러분은 어떨지 모르겠지만, 지속적인 존재감 때문에 피곤해졌습니다. 따라서 AI가 확실히 우리 일상 생활에 머무르고 있지만, 몇 가지 징후는 우리가 이미 AI 과대 광고의 정점...
    일체 포함 2024-11-08에 게시됨
  • 교사, 강사, 상사를 위한 4가지 AI 검사 ChatGPT 감지 도구
    교사, 강사, 상사를 위한 4가지 AI 검사 ChatGPT 감지 도구
    ChatGPT의 성능이 향상됨에 따라 인간이 작성한 내용과 AI가 생성한 내용을 구분하는 것이 점점 더 어려워지고 있습니다. 이로 인해 교사와 상사는 사람이 쓴 내용과 ChatGPT를 통해 생성된 내용을 식별하기가 어렵습니다. 차이점을 구분하는 데 어려움을 겪고 계...
    일체 포함 2024-11-08에 게시됨
  • ChatGPT의 고급 음성 기능이 더 많은 사용자에게 출시됩니다
    ChatGPT의 고급 음성 기능이 더 많은 사용자에게 출시됩니다
    ChatGPT로 본격적인 대화를 나누고 싶었다면 이제 가능합니다. 즉, ChatGPT 사용 특권에 대한 비용을 지불하는 한입니다. 더 많은 유료 사용자가 ChatGPT와의 상호 작용을 더욱 자연스럽게 느끼도록 설계된 ChatGPT의 고급 음성 모드(AVM)에 액세스할 ...
    일체 포함 2024-11-08에 게시됨
  • AI Slop이란 무엇이며 이에 대해 무엇을 할 수 있습니까?
    AI Slop이란 무엇이며 이에 대해 무엇을 할 수 있습니까?
    소셜 미디어에 떠도는 기괴한 AI 생성 이미지와 관련하여 'AI 슬롭'이라는 용어를 들어보셨을 것입니다. 여러분도 이러한 이미지를 직접 본 적이 있을 것입니다. 그런데 AI 슬롭이 뭔가요? 이를 어떻게 인식하고 이에 대해 무엇을 할 수 있습니까? A...
    일체 포함 2024-11-08에 게시됨
  • 내가 암호화폐 붐보다 AI 폭발을 더 좋아하는 6가지 이유
    내가 암호화폐 붐보다 AI 폭발을 더 좋아하는 6가지 이유
    AI 폭발은 암호화폐 붐 동안 우리가 보았던 광란을 반영하는 것 같습니다. 모두가 그것에 대해 이야기하고 그것이 세상을 어떻게 바꿀지 예측하고 있습니다. 하지만 그 소문은 익숙하게 느껴지지만, 이 순간에는 뭔가 다른 점이 있습니다. AI는 단순한 기술 트렌드가 아닙니다...
    일체 포함 2024-11-08에 게시됨
  • AI 체커는 쓸모가 없으며, 이 5가지 예가 그 이유를 증명합니다.
    AI 체커는 쓸모가 없으며, 이 5가지 예가 그 이유를 증명합니다.
    당신이 전문 작가이든, 에세이를 자주 쓰는 학생이든, 단지 100% AI로 생성된 것으로 표시되기 위해 AI 탐지기를 통해 작품을 실행하는 데 지쳤을 것입니다. 다행스럽게도 AI 체커가 항상 신뢰할 수 있는 것은 아니며 다음 5가지 예가 그 이유를 보여줍니다. 1 방금...
    일체 포함 2024-11-08에 게시됨
  • ChatGPT를 사용하여 비디오를 번역하고 시간을 절약하는 방법
    ChatGPT를 사용하여 비디오를 번역하고 시간을 절약하는 방법
    비디오를 다른 언어로 번역해 본 적이 있다면 그것이 얼마나 빨리 시간이 많이 걸리는 작업으로 바뀔 수 있는지 아실 것입니다. 특히 Video Insights라는 플러그인을 사용하는 ChatGPT가 프로세스를 더욱 원활하고 빠르게 만들기 위해 등장합니다. Video I...
    일체 포함 2024-11-08에 게시됨
  • 무료로 시도해 볼 수 있는 6가지 OpenAI Sora 대안
    무료로 시도해 볼 수 있는 6가지 OpenAI Sora 대안
    Runway의 Gen-2는 다중 모달 AI 시스템을 사용하여 텍스트 프롬프트를 사용하여 비디오 클립을 생성하는 Open AI의 Sora를 사용하여 얻을 수 있는 것을 가장 잘 반영합니다. Runway의 Gen-2 기능에는 생성하려는 비디오 클립에 대한 참조로 사용할...
    일체 포함 2024-11-08에 게시됨
  • ChatGPT 자체보다 틈새 AI 챗봇을 선호하는 이유
    ChatGPT 자체보다 틈새 AI 챗봇을 선호하는 이유
    온라인에서 사용 가능한 대부분의 틈새 AI 챗봇은 ChatGPT(또는 OpenAI의 GPT3 또는 GPT4)를 기반으로 합니다. 그럼에도 불구하고 나는 다음과 같은 네 가지 이유로 ChatGPT 자체보다 이러한 특수 챗봇을 선호합니다.1 프롬프트 기술이 많이 필요하지 ...
    일체 포함 2024-11-07에 게시됨

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3