Аннотация: По мере того, как мир все более и более включает механизмы поддержки и концепцию машинного обучения как фундаментального инструмента для коммуникационных наук, мы должны решать проблему вычислительной справедливости в более широком аспекте этого термина. Он и включает ежедневное использование интеллектуальных устройств, которые чаще всего поддерживаются более чем одним программным обеспечением, использующего модели машинного обучения. Поэтому крайне важно, чтобы мы размышляли о предвзятостях, которые могут существовать в этих устройствах, и как их исправить, не жертвуя эффективностью.

Ключевые слова: машинное обучение; справедливость; функция полезности; предвзятость

Справедливость в рамках машинного обучения и искусственного интеллекта – это довольно современная проблематика, которая распространяется из-за усилий компаний силиконовой долины США, в частности Google.

Суть такой проблематики относится к возникновению нежелательных предвзятостей в действии искусственного интеллекта, напри- мер: неустойчивая приоритезация прибыли в ущерб здравому отношению к клиентам [2]; выше степень неспособности распознавать лиц чернокожих женщин [7]; интерпретация женских имен более искаженная, чем мужских [3], и т.д. Несмотря на этическую сторону, такие случаи являются не просто примером несправедливости, но существенным образом могут противостоять самим поставленным целям, для выполнения которых алгоритм был создан.

Допустим, что у нас есть модель машинного обучения, над которой построена искусственная нейронная сеть, способная к считыванию слов и выражению их в виде векторов, и, таким образом, она может находить семантически похоже слова. Также допустим, что эта модель математическим образом считает, что африканские имена хуже европейских. В исследовании о предвзятостях в моделях векторного представления слов [1] именно такое было обнаружено в пяти разных открытых моделях.

Таблица 1: Word Embedding Association Test.

Если предвзятость модели противостоит обычной человеческой предвзятости, то желтый, если нет, то синий. Диапазон значений = [-2; 2]. Для подробной информации о списке слов и оформлении таблицы смотреть: 1. Паркера etal. 2018

Такая ситуация неизбежно приведет нас к вопросу – как такое могло быть? И хотя существует целый диапазон возможных причин, мы разделим их на два класса:

1.         Натуральные человеческие предвзятости (humanbias) местной культуры создателей какой-либо выборки.

2.         Несправедливое оформление параметров модели обучения.

В первом случае проблема скрывается внутри набора данных, создание другого, более демократического набора данных, является простым решением этой проблемы. Во втором случае проблема относится к пониманию математической справедливости в рамках машинного обучения и искусственного интеллекта.

Первым делом, прежде чем углубляться в тему самой справедливости, необходимо понять математические афоризмы, на которые мы полагаемся. Машинное обучение – это, простыми словами, процесс создания алгоритма, умеющего находить паттерн в выборке, и из этого делать статистический вывод и получать функции свойств генеральной совокупности этой выборки. Это может быть распознавание объектов в картине или предсказание тенденций рынка. Этот процесс начинается в статистическом методе линейной регрессии, где мы из выборки переменных y и x обозначим следующее выражение:

где  и  – это векторные матрицы, соответственно коэффициенты рег- рессии (parametervector) и случайные ошибки (noisevector).

Цель регрессии – это нахождение функции y=a+bx, у которой минимальная ошибка, т.е. минимальное различие между настоящим параметром y и ‸y ( ‸y  X T b , b это возможное const значение ). Есть разные функции для нахождения этого различия, но простыми терминами мы можем её представить как меньших квадратов.

Очевидно, что модель, у которой меньше всего ошибок, лучше остальных выполняет свои цели, но в других отношениях это утверждение может не всегда быть истинным – в тех, где нам необходимо считать справедливость статистического вывода. Пример такой ситуации – это проблема распределения ограниченных ресурсов для каких-либо индивидов с различными потребностями и бюджетом. В таком случае, компанией, имеющей эти ресурсы необходимо не только вывести функцию для получения наибольшей прибыли, но сделать так, чтобы наибольшее количество индивидов осталось довольным с распределением, итак увеличить пользу системы.

Измерение уровня удовлетворения, исходя из слов Джона Нэша, является измерением ожиданий индивида. Если Смит ожидает выиграть новую машину, то можем сказать, что его потребность в системе – это и есть выполнение ожидания, и он станем довольным после получении машины. Функция, которая описывает и оценивает этот процесс – это U, функция потребностей индивида, или формальными терминами – функция полезность предмета к индивиду (utilityfunction).

Эта проблема основывается на концептах задачи о сделках Нэша (bargainingproblem), где два соперника играют в игре переговоров, т.е. необходимо учитывать стоимость каждого предмета обмена и его пользу для каждого соперника. Таким образом возможно найти такое значение, в котором есть наибольшая выгода для всех сторон [5]. Тогда нашей задачей является всего лишь нахождение эквилибриума между потребностями и полезностями в системе n соперников. Важно тогда определить, какие соперники у определенной задачи – в этической проблематике, которую предложил Google [1] соперникам являются эффективность модели против её предвзятостям.

Понимая то, что описано выше мы сможем тогда обратится к пониманию справедливости. В самом простом подходе используются понимание maxmin справедливость, у которой основная задача – сделать так, чтобы все индивиды, у которых разные функции полезности, получили максимальную возможную пользу без уменьшения пользы другого инди-вида. Другими словами, вектор индивидов и полезностей x= (xu, uU) справедливый, если для любого uU, xu не может быть увеличен без уменьшения xu`: u` такое, что xu` ≤ xu [4. Кэлли 1997]. Но, конечно, это решение является слишком простым, безнадежно ограниченным своими минимальными элементами вектора, которые уменьшают эффективность алгоритма.

К решению этой проблемы прилагается следующее неравенство:

где U’ функция полезности одного индивида, а U – другого. Соответственно, такая функция считает справедливым уменьшение удовлетворения одного U j  индивида если в ответ настолько же или более увеличится польза другого [6]. С помощью такого оформления возможно переобучать машинный интеллект моделью, которая сбалансированно справедливая (balancedfairness), т.е. способна избавиться от предвзятости, не жертвуя своею эффективностью.

Возьмем в качестве примера работы избавление от предвзятости в модели векторного представления слов [3]. Исследователи успешно переучили свою модель, уменьшив встречаемости нахождения предвзятых предложений в 31%, они пожертвовали 0,74% эффективности алгоритма. Естественно, что результат переобучения кажется справедливым, но в эксперименте не учитывались функции полезности «соперников» (эффективность и избавление от предвзятости), итак невозможно достичь наибольшую полезность системы. Очевидно, что каждое решение является специфическим, поэтому инженеры должны разумно подходить к вопросу. Каждый инженер по моделям машинного обучения и искусственного интеллекта обязан делать то, что лучше удовлетворяет полезности задачи. Соответственно ситуации, обозначенные выше, являются примерами алгоритмов, которые нуждаются в исправлении при помощи уравнения справедливости.

Литература и источники:

1.         Ben Packer, Yoni Halpern, Mario Guajardo-Céspedes& Margaret Mitchell. Text Embedding Models Contain Bias. Here’s Why That Matters. 2018.

2.         Bertsimas, Dimitris, Vivek F Farias, Nikolaos Trichakis. The price of fair- ness. 2011.

3.         Bolukbasi, T., Chang, K., Zou, J., Saligrama, V. and Kalai, A. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. 2016

4.         Frank Kelly. 1997. Charging and rate control for elastic traffic.

5.         John F. Nash, Jr. The Bargaining Problem. [Econometrica, 1950, стр. 155–162].

6.         Mohammad H. Bateni, Yiwei Chen, Dragos F. Ciocan, VahabMirrokni. Fair Resource Allocation in a Volatile Marketplace. 2018

7.         Tatman, R. and Kasten, C. 2017 – Effects of Talker Dialect, Gender & Race on Accuracy of Bing Speech and YouTube Automatic Captions.

8.         Формы, методы и технологии профилактики и противодействия проникновению идеологии экстремизма и терроризма в образовательную среду / Ремарчук В.Н., Бочарников И.В., Семикин Г.И., Белозёров В.К., Овсянникова О.А., Смульский С.В., Зеленков М.Ю., Гейреханов Г.П., Галаганова С.Г. и др. М.: Экон-Информ, 2019.

Флеури Х.Т.К., студент группы СГН3‐11 Московский государственный технический университет им. Н.Э. Баумана

Научный руководитель: Седякин В.П., докт. филос. наук, профессор кафедры «Информационная аналитика и политические технологии».

Поделиться в социальных сетях

Добавить комментарий

Авторизация
*
*
Регистрация
*
*
*
Генерация пароля