banner
Центр новостей
Действующая у нас система качества гарантирует нашим клиентам только самое лучшее.

Больше данных, больше проблем? 10 советов по управлению генеративными данными ИИ

Jun 17, 2023

Содержание данных и рекомендации по продуктам не зависят от редакции. Мы можем зарабатывать деньги, когда вы переходите по ссылкам наших партнеров. Узнать больше.

Большинство ИТ-руководителей и многие руководители высшего звена задумываются об инициативах, основанных на искусственном интеллекте, если не планируют, то уже реализуют их. Только у трех крупнейших поставщиков общедоступных облаков существуют десятки инструментов для искусственного интеллекта и машинного обучения, помимо множества технологий с открытым исходным кодом, которые появились после запуска ChatGPT осенью 2022 года.

Потенциал огромен: согласно новому отчету Bloomberg Intelligence, рынок генеративного искусственного интеллекта вырастет до 1,3 триллиона долларов в течение следующих 10 лет с размера рынка всего в 40 миллиардов долларов в 2022 году.

Правильная работа ИИ зависит от качественных данных, особенно неструктурированных. Успех ИИ зависит от надлежащего хранения и управления этими файлами и объектными данными, которые составляют не менее 80 процентов всех данных в мире. В этой статье определяются проблемы этих усилий и предлагаются 10 советов по их решению.

Неструктурированными данными, учитывая их объем и множество различных типов файлов и форматов, которые они содержат — от документов и изображений до данных датчиков и приборов, видео и многого другого — сложно управлять. Часто распределенные по нескольким системам хранения данных во все более гибридном многооблачном предприятии, их сложно искать, сегментировать и перемещать по мере необходимости.

Из-за роста неструктурированных данных их хранение и резервное копирование обходятся дорого. Фактически, большинство (68 процентов) корпоративных организаций, опрошенных в 2022 году, тратят 30 или более процентов своего ИТ-бюджета на системы хранения данных. Эти проблемы усугубляются в отраслях с интенсивным использованием данных, поскольку копии избыточных, устаревших и тривиальных данных (ROT) редко удаляются исследователями и другими командами после завершения проектов.

Управление неструктурированными данными для ИИ требует новых решений и тактик, включая ориентированный на данные подход для принятия экономически эффективных решений по хранению и мобильности данных между поставщиками и облаками.

Также растет потребность в обеспечении использования правильных наборов данных. Новое исследование из Стэнфорда показало, что производительность больших языковых моделей (LLM) «существенно снижается по мере увеличения длины входного контекста, даже для моделей с явно длинным контекстом». Другими словами, в зависимости от проекта подбор правильных наборов данных может оказаться более важным, чем подбор больших наборов данных.

Решения, рекомендации и практики генеративного искусственного интеллекта меняются ежедневно. Но создание основы для интеллектуального управления неструктурированными данными может помочь организациям адаптироваться и двигаться в эпоху преобразований. Вот некоторые тактики, которые следует учитывать.

Индексирование данных — это мощный способ классифицировать все неструктурированные данные на предприятии и сделать их доступными для поиска по ключевым метаданным (данным о ваших данных), таким как размер файла, расширение файла, дата создания файла и дата последнего доступа. Видимость является основой правильного размещения данных для удовлетворения меняющихся потребностей бизнеса в архивировании, аналитике, соблюдении требований и т. д.

Закладывая основу для ИИ, лучше иметь больше информации. Чем больше информации о ваших данных у вас есть, тем лучше вы будете подготовлены к ее доставке в инструменты искусственного интеллекта и машинного обучения в нужное время — и тем лучше вы будете подготовлены к тому, чтобы убедиться, что у вас есть подходящая инфраструктура хранения для этих новых вариантов использования. . Как минимум, вам необходимо понимать объемы данных и темпы их роста, стоимость хранения, основные типы и размеры данных, статистику использования данных подразделений, а также «горячие» или активные данные в сравнении с «холодными» или редко доступными данными.

Получив базовый уровень понимания своих активов данных, вы можете обогатить их метаданными для дополнительных возможностей поиска. Например, вам может потребоваться поиск файлов, содержащих личную информацию (PII) или данные о клиентах, данные об интеллектуальной собственности (IP), название эксперимента или идентификатор инструмента. Эти файлы можно сегментировать для соответствующего хранения или передать в аналитическую платформу.

Сегодня, когда в организациях так много вариантов использования искусственного интеллекта и других исследований, центральным ИТ-специалистам и ИТ-отделам необходимо работать вместе для разработки стратегий управления данными. Это гарантирует, что пользователи имеют быстрый доступ к наиболее важным данным, а также могут получить доступ к более старым данным, заархивированным в недорогом хранилище, когда им это необходимо.