«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > ИИ > Инструментам искусственного интеллекта не хватает обучающих данных, но есть 6 решений

Инструментам искусственного интеллекта не хватает обучающих данных, но есть 6 решений

Опубликовано 29 июля 2024 г.
Просматривать:678

Искусственному интеллекту нужны данные для обучения, но эти данные ограничены. Итак, как еще мы можем обучить ИИ, чтобы он продолжал расти и приносить нам пользу?

Вы можете подумать, что Интернет и его данные — это неисчерпаемые ресурсы, но у инструментов искусственного интеллекта заканчиваются данные для их добычи. Теперь, прежде чем вы начнете беспокоиться, это не остановит развитие ИИ — еще есть много данных, готовых для обучения систем ИИ.

1 В Интернете всегда добавляется больше данных

Короче говоря, исследовательский институт ИИ Epoch утверждает, что высококачественные данные, на которых обучается ИИ, могут закончиться к 2026 году.

Ключевое слово здесь «может». Объем данных, добавляемых в Интернет каждый год, увеличивается, поэтому до 2026 года что-то радикально может измениться. Тем не менее, это справедливая оценка — в любом случае в какой-то момент у систем ИИ закончатся хорошие данные.

Однако мы должны помнить, что каждый год в сети добавляется около 147 зеттабайт данных (согласно Exploding Topics). Всего один зеттабайт равен 1 000 000 000 000 000 000 000 бит данных. В реальном выражении (ну, в некоторой степени реальном) это более 30 миллиардов фильмов в формате 4K (реальных, но непостижимых). Это поразительное количество информации, которую ИИ приходится анализировать.

Тем не менее, ИИ потребляет данные быстрее, чем человечество может их создать…

2 ИИ может забыть данные низкого качества

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

Не все эти 147 зеттабайт данных — это хорошо данные, конечно. В этом есть нечто большее, чем кажется на первый взгляд. Но, по оценкам, к 2050 году ИИ также будет использовать некачественные языковые данные.

Агентство Reuters сообщило, что Photobucket, когда-то одно из крупнейших в мире хранилищ изображений, ведет переговоры о лицензировании своей обширной библиотеки для фирм, обучающих искусственному интеллекту. Данные изображений прошли обучение таких систем, как DALL-E и Midjourney, но даже они могут иссякнуть к 2060 году. Здесь есть и более серьезная проблема: в Photobucket размещались изображения из социальных сетей 2000-х годов, таких как Myspace, а это означает, что они не так высоки, как текущая фотография. Это приводит к получению данных низкого качества.

Photobucket не одинок. В феврале 2024 года Google заключила соглашение с Reddit, позволяющее поисковому гиганту использовать пользовательские данные платформы социальных сетей в обучении искусственному интеллекту. Другие платформы социальных сетей также предоставляют пользовательские данные для целей обучения ИИ; некоторые используют его для обучения собственных моделей искусственного интеллекта, таких как Llama от Meta.

Однако, хотя некоторую информацию можно почерпнуть из данных низкого качества, Microsoft, как сообщается, разрабатывает способ, позволяющий ИИ выборочно «отучиться» от данных. В первую очередь это будет использоваться для решения проблем IP, но это также может означать, что инструменты могут забыть то, что они узнали из наборов данных низкого качества.

Мы могли бы передавать ИИ больше данных, не будучи слишком избирательными; затем эти системы искусственного интеллекта смогут выбирать, чему наиболее полезно учиться.

3 Распознавание речи открывает доступ к данным видео и подкастов.

Данные, передаваемые в инструменты искусственного интеллекта, до сих пор состояли в основном из текста и, в меньшей степени, изображений. Это, несомненно, изменится и, вероятно, уже изменилось, поскольку программное обеспечение для распознавания речи будет означать, что множество доступных видео и подкастов также могут обучать ИИ.

Примечательно, что OpenAI разработала нейронную сеть автоматического распознавания речи (ASR) с открытым исходным кодом Whisper, используя 680 000 часов многоязычных и многозадачных данных. Затем OpenAI загрузила более миллиона часов информации из видеороликов YouTube в свою большую языковую модель GPT-4.

Это идеальный шаблон для других систем искусственного интеллекта, которые используют распознавание речи для расшифровки видео и аудио из многочисленных источников и пропускают эти данные через свои модели искусственного интеллекта.

По данным Statista, каждую минуту на YouTube загружается более 500 часов видео, и эта цифра остается довольно стабильной с 2019 года. Это не говоря уже о других видео- и аудиоплатформах, таких как Dailymotion и Podbean. Если ИИ сможет обратить свое внимание на новые наборы данных, подобные этому, нам еще предстоит изучить огромный объем информации.

4 ИИ в значительной степени придерживаются английского языка

Это еще не все, чему мы можем научиться у Whisper. OpenAI обучила модель, используя 117 000 часов аудиоданных не на английском языке. Это особенно интересно, поскольку многие системы искусственного интеллекта обучались в основном с использованием английского языка или рассмотрения других культур через призму Запада.

По сути, большинство инструментов ограничены культурой их создателей.

В качестве примера возьмем ChatGPT. Вскоре после его выпуска в 2022 году Джилл Уокер Реттберг, профессор цифровой культуры Бергенского университета, Норвегия, опробовала ChatGPT и пришла к выводу:

«ChatGPT мало что знает о норвежской культуре. Или, скорее, все, что он знает о норвежской культуре, по-видимому, в основном почерпнуто из англоязычных источников… ChatGPT явно соответствует ценностям и законам США. Во многих случаях они близки норвежским и европейским ценностям, но, по-видимому, так будет не всегда».

Таким образом, искусственный интеллект может развиваться по мере того, как с ним взаимодействуют более многонациональные люди или чем больше разнообразных языков и культур используются для обучения таких систем. Сейчас многие искусственные интеллекты ограничены одной библиотекой; они могут вырасти, если им дать ключи от библиотек по всему миру.

5 издательств могут помочь в разработке ИИ

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

Очевидно, что интеллектуальная собственность — это серьезная проблема, но некоторые издатели могут помочь в разработке ИИ, заключив лицензионные соглашения. Это означало бы предоставление инструментам высококачественных, то есть надежных данных из книг, а не потенциально низкокачественной информации, почерпнутой из онлайн-источников.

Фактически, Meta, владельцы Facebook, Instagram и WhatsApp, как сообщается, рассматривали возможность покупки Simon & Schuster, одного из издательских домов «большой пятерки». Идея заключалась в том, чтобы использовать литературу, изданную фирмой, для обучения собственного ИИ Меты. В конечном итоге сделка сорвалась, возможно, из-за этической «серой зоны», связанной с тем, что компания обрабатывала интеллектуальную собственность без предварительного согласия авторов.

Еще одним вариантом, очевидно, рассматривалась покупка индивидуальных лицензионных прав на новые игры. Это должно вызвать серьезную обеспокоенность у креативщиков, но это все равно будет интересным способом развития инструментов искусственного интеллекта, даже если полезные данные исчерпаны.

6 Будущее за синтетическими данными

Любое другое решение по-прежнему ограничено, но один вариант может привести к процветанию ИИ в далеком будущем: синтетические данные. И это уже исследуется как вполне реальная возможность.

Итак, что такое синтетические данные? В этом смысле это данные, созданные ИИ; Точно так же, как люди создают данные, этот метод позволит искусственному интеллекту генерировать данные для учебных целей.

По сути, ИИ может создать убедительное дипфейковое видео. Это дипфейковое видео можно было бы передать обратно в ИИ, чтобы он мог учиться на основе воображаемого сценария. В конце концов, это один из основных способов обучения людей: мы читаем или смотрим что-то, чтобы понять мир вокруг нас.

ИИ, вероятно, уже потребляют синтетическую информацию. Дипфейки распространяли в Интернете дезинформацию и дезинформацию, поэтому, поскольку системы искусственного интеллекта сканируют Интернет, вполне логично, что некоторые из них подверглись фальшивому контенту.

Да, в этом есть и коварная сторона. Это также может повредить или ограничить работу ИИ, усиливая и распространяя ошибки, допущенные этими инструментами. Компании работают над искоренением последней проблемы; тем не менее, «ИИ учатся друг у друга и совершают ошибки» — это сюжетная линия многих кошмарных сценариев научной фантастики.

7

Искусственный интеллект вызывает споры. У него много недостатков, но недоброжелатели игнорируют его преимущества. Например, аудиторско-консультационная сеть PwC [PDF] предполагает, что к 2030 году ИИ может внести в мировую экономику до 15,7 триллионов долларов.

Более того, ИИ уже используется во всем мире. Вероятно, вы использовали его сегодня в той или иной форме, возможно, даже не осознавая этого. Теперь, когда джинн выпущен из бутылки, ключевой момент, несомненно, заключается в том, чтобы обучить его на надежных и качественных данных, чтобы мы могли правильно их использовать.

ИИ имеет свои положительные и отрицательные стороны. Баланс нужно найти.

Заявление о выпуске Эта статья воспроизведена по адресу: https://www.makeuseof.com/ai-running-out-training-data-solutions/. В случае каких-либо нарушений, пожалуйста, свяжитесь с [email protected], чтобы удалить ее.
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3