Для обучения машин требуется много энергии — вот почему ИИ так требователен к мощности.

Mendel third-party content placeholder. Categories: Geography & Travel, Health & Medicine, Technology, and Science

14 декабря 2020 года.

В этом месяце Google уволила известного исследователя этики ИИ после того, как она выразила недовольство тем, что компания заставила ее отозвать научную работу. В работе указывалось на риски, связанные с искусственным интеллектом, обрабатывающим язык, который используется в Google Search и других продуктах для анализа текста.

Среди этих рисков — большой углеродный след от разработки такого рода технологий ИИ. По некоторым оценкам, обучение модели искусственного интеллекта приводит к выбросам углекислого газа, равным объему выбросов, необходимому для создания и эксплуатации пяти автомобилей в течение всего срока их службы.

Я — исследователь, изучающий и разрабатывающий модели ИИ, и мне слишком хорошо знакомы стремительно растущие энергетические и финансовые затраты на исследования в области ИИ. Почему модели ИИ стали такими энергозатратными и чем они отличаются от традиционных вычислений в центрах обработки данных?

Сегодняшнее обучение неэффективно

Традиционные задачи обработки данных, выполняемые в центрах обработки данных, включают потоковое видео, электронную почту и социальные сети. ИИ требует больших вычислительных затрат, поскольку ему необходимо считывать большое количество данных, пока он не научится их понимать, то есть пройдет обучение.

Такое обучение очень неэффективно по сравнению с тем, как учатся люди. Современный ИИ использует искусственные нейронные сети, которые представляют собой математические вычисления, имитирующие нейроны в человеческом мозге. Сила связи каждого нейрона с его соседом — это параметр сети, называемый весом. Чтобы научиться понимать язык, сеть начинает работу со случайными весами и регулирует их до тех пор, пока выходной сигнал не совпадет с правильным ответом.

Распространенный способ обучения языковой сети заключается в подаче ей большого количества текста с таких сайтов, как Википедия и новостные издания, в котором некоторые слова замаскированы, и просьбе угадать замаскированные слова. Например, «моя собака милая» с замаскированным словом «милая». Сначала модель угадывает все слова неправильно, но после многих раундов настройки весовые коэффициенты связей начинают меняться и улавливать закономерности в данных. В итоге сеть становится точной.

Одна из недавних моделей под названием Bidirectional Encoder Representations from Transformers (BERT) использовала 3,3 миллиарда слов из английских книг и статей Википедии. Более того, в процессе обучения BERT прочитала этот набор данных не один, а 40 раз. Для сравнения: средний ребенок, который учится говорить, к пяти годам может услышать 45 миллионов слов, что в 3 000 раз меньше, чем у BERT.

В поисках нужной структуры

Что делает создание языковых моделей еще более дорогостоящим, так это то, что процесс обучения происходит многократно в ходе развития. Это связано с тем, что исследователи хотят найти оптимальную структуру сети — сколько нейронов, сколько связей между нейронами, как быстро должны меняться параметры в процессе обучения и так далее. Чем больше комбинаций они перепробуют, тем выше шанс, что сеть достигнет высокой точности. Человеческому мозгу, напротив, не нужно искать оптимальную структуру — он имеет уже готовую структуру, отточенную эволюцией.

Поскольку компании и ученые соревнуются в области ИИ, необходимо постоянно совершенствовать существующие технологии. Даже повышение точности на 1 % в таких сложных задачах, как машинный перевод, считается значительным и ведет к хорошей рекламе и улучшению продуктов. Но чтобы получить этот 1 % улучшения, один исследователь может обучать модель тысячи раз, каждый раз с разной структурой, пока не будет найдена лучшая.

Исследователи из Массачусетского университета в Амхерсте оценили энергозатраты на разработку языковых моделей ИИ, измерив энергопотребление обычного оборудования, используемого во время обучения. Они обнаружили, что однократное обучение BERT приводит к выбросам углекислого газа, как у пассажира, совершающего перелет в обе стороны между Нью-Йорком и Сан-Франциско. Однако при использовании различных структур — то есть при многократном обучении алгоритма на данных с разным количеством нейронов, связей и других параметров — затраты стали эквивалентны 315 пассажирам или целому самолету 747.

Больше и горячее

Модели ИИ также намного больше, чем нужно, и с каждым годом становятся все больше. Более новая языковая модель, похожая на BERT, под названием GPT-2, имеет 1,5 миллиарда весов в своей сети. Модель GPT-3, вызвавшая ажиотаж в этом году благодаря своей высокой точности, имеет 175 миллиардов весов.

Исследователи обнаружили, что наличие больших сетей приводит к повышению точности, даже если в итоге полезной оказывается лишь крошечная часть сети. Нечто подобное происходит в детском мозге, когда связи между нейронами сначала добавляются, а затем уменьшаются, но биологический мозг гораздо более энергоэффективен, чем компьютеры.

Модели ИИ обучаются на специализированном оборудовании, таком как графические процессоры, которые потребляют больше энергии, чем традиционные CPU. Если у вас есть игровой ноутбук, то в нем наверняка есть один из таких графических процессоров для создания передовой графики, например, для игры в Minecraft RTX. Вы также можете заметить, что они выделяют гораздо больше тепла, чем обычные ноутбуки.

Все это означает, что разработка передовых моделей ИИ приводит к большому выбросу углекислого газа. Если мы не перейдем на 100 % возобновляемые источники энергии, прогресс ИИ может войти в противоречие с целями сокращения парниковых выбросов и замедления изменения климата. Кроме того, финансовые затраты на разработку становятся настолько высокими, что только несколько избранных лабораторий могут себе это позволить, и именно они будут определять, какие модели ИИ будут разрабатываться.

Делать больше, используя меньше

Что это означает для будущего исследований в области ИИ? Возможно, все не так мрачно, как кажется. Стоимость обучения может снизиться, поскольку будут изобретены более эффективные методы обучения. Аналогично, хотя в последние годы прогнозировался взрывной рост энергопотребления в центрах обработки данных, этого не произошло благодаря повышению эффективности центров обработки данных, более эффективному оборудованию и охлаждению.

Существует также компромисс между стоимостью обучения моделей и стоимостью их использования, поэтому затраты энергии во время обучения на создание более компактной модели могут в действительности сделать ее использование дешевле. Поскольку модель будет использоваться много раз за время своего существования, это может привести к значительной экономии энергии.

В моей лаборатории мы изучаем способы уменьшения размеров моделей ИИ за счет совместного использования весов или использования одних и тех же весов в нескольких частях сети. Мы называем такие сети «перевертышами», поскольку небольшой набор весов может быть преобразован в большую сеть любой формы или структуры. Другие исследователи показали, что совместное использование весов дает более высокую производительность при том же времени обучения.

В перспективе сообщество ИИ должно вкладывать больше средств в разработку энергоэффективных схем обучения. В противном случае есть риск, что в ИИ будут доминировать избранные, которые могут позволить себе определять повестку дня, включая то, какие модели разрабатываются, какие данные используются для их обучения и для чего эти модели применяются.

Автор Кейт Саенко, доцент кафедры информатики Бостонского университета.

Ссылка на основную публикацию