Аннотация: Научно‐технический прогресс не стоит на месте. С каждым годом растут вычислительные мощности общедоступных компьютеров. Вместе с этим открывается простор для такой отрасли, как анализ данных. Область применения анализа данных ограничена исключительно фантазией человека, что дает возможность применять ее в самых изощренных и неожиданных местах. И данная отрасль является одним из главных претендентов на звание приема воздействия на сознание индивидов.

Ключевые слова: Анализ данных, манипуляция, регрессия, классификация.

Личность – это носитель индивидуального начала. Что примечательно, данное свойство легко поддается контролю со стороны посредством манипуляций. Время идет, история не стоит на месте, а вместе с ней доводятся до совершенства существующие технологии манипуляций и возникают новые. Одной из недавно появившихся, но уже зарекомендовавших себя, как удивительно эффективный способ воздействия на сознание человека, является применение технологии анализа больших данных в процессе манипуляции.

Барак Обама, 2007 год. В следующем году выборы, кандидат первый раз избирается в президенты. Перед создателями сайта предвыборного штаба были поставлены задачи:

  1. Склонить пользователя к регистрации на сайте с целью рассылки рекламных материалов;
  2. Собрать как можно большее количество добровольных денежных взносов;
  3. Склонить пользователя к волонтерской работе.

После недолгого промежутка работы сайта возникает вопрос – можно ли улучшить стартовую страницу так, чтобы увеличилась доля пришедших людей, которые сделали бы желаемое действие?

После ребрендинга, частота подписок увеличилась на 40 процентов. Это привело к:

увеличению e-mail подписчиков на 2.8 миллиона; увеличению числа добровольцев на 288000 человек;

увеличению добровольных пожертвований на 57 миллионов долларов.

Той ценной информацией, нужной для оптимизации количества подписок, является реакция подавляющего большинства пользователей на те или иные особенности дизайна сайта. Здесь и начинается работа с большими данными.

Нужно сказать, что данные методы не пользовались популярностью в прошлом из-за недостаточного уровня технологий и малого количества вычислительных мощностей. Как пример, для того чтобы распознать определенный объект на фотографии, 10 лет назад компьютеру необходимо было 3 минуты, сейчас это занимает секунду. Но даже текущий уровень технологий не позволяет каждому человеку в полной мере с ощутимой быстротой проводить анализ данных, что говорит об определенном пороге вхождения в данный вид деятельности. Поэтому, как правило, такими вещами занимаются большие компании. [1]

Задачи DataMining (анализ информации) можно классифицировать, самыми главными и интересными, Таковыми на данный момент являются задачи классификации и задачи регрессии. В дальнейших примерах будет подразумеваться, что вся информация у аналитика уже есть, и нет необходимости заниматься ее сбором.

  1. Задачи регрессии

Задачи такого типа позволяют определить по известным характеристикам объекта значение нужного параметра. Например, хотелось бы знать количество голов в завтрашнем матче, где известны результаты последних матчей каждого клуба, положения в турнирной сетке, физические характеристики каждого футболиста по отдельности, стили игры, финансовые обороты клубов и иные данные. Или хотелось бы точно оценить стоимость нашей квартиры, которую мы хотим продавать, имея на руках данные о площади, инфраструктуре, количестве комнат, положении внутри города, этаже и т.д.

  • Задачи классификации

Прежде всего, они сводятся к определению класса объекта по его характеристикам. Как пример, возьмем классическую для анализа данных задачу о Титанике. У нас есть набор данных, где каждым объектом является человек на борту корабля, а его характеристики – это пол, возраст, класс каюты, номер билета, количество братьев и сестер на борту, количество родителей и детей на борту, номер кабины и т. д. По характеристикам объекта необходимо определить, сумел ли человек выжить после крушения или нет. Разумеется, существует перечень характеристик, которые не могут влиять на спасение человека, и удаление ненужных данных – задача предобработки данных. В этой задаче, необходимо «научить компьютер» выявлять степень корреляции выживаемости и каждой характеристики по отдельности. Данные задачи отличаются тем, что ответ задач регрессии будет представлен в количественной шкале, а задач классификации – в номинальной.

Что примечательно, в ходе анализа данных можно выявить неоднозначные зависимости, которые не являлись искомыми. Например, зависимость роста человека от длины волос. Здесь в игру вступает третья характеристика – пол человека. [2] Как правило, особи мужского пола выше девушек, поэтому можно с уверенностью говорить о том, что чем выше человек, тем короче волосы, потому что количество девушек с длинными волосами преобладает в данном классе.

Это нельзя назвать проблемой, в отличие от сбора этих больших данных.

Возвращаясь к нашей теме, не всегда удастся найти необходимые данные о людях в открытом доступе с целью манипуляции. Главными методами сбора первичных данных являются:

  1. Опрос;
  2. Обследование;
  3. Наблюдение;
  4. Анкета.

Каждый метод позволит узнать о манипулируемой аудитории поподробнее. Необходимо понимать, что всех «нужных нам людей» мы опросить не сможем, поэтому необходимо будет составить выборку, состоящую из какого-то процента аудитории. Важным моментом является репрезентативность выборки: опросив только жителей города Грозный, нельзя делать выводы о том, какова будет реакция людей в других частях страны или мира на то или иное действие. Также важен размер выборки, он будет зависеть от масштабов манипулируемого общества.

После сбора данных и ее структурирования (предобработки), мы готовы к анализу. Выявление наименее доверчивой возрастной категории, и как следствие усиление влияния на эту категорию. Определение наименее популярных профессий среди молодежи с целью их популяризации, благодаря оказанному вниманию в социальных сетях, на ТВ или радио. Анализ настроения людей как фактор ввода нового закона. И таких примеров несчетное количество, так как области применения анализа данных не ограничены и в таких ситуациях все будет зависеть только от качества вопросов.

Живя в XXI веке, невозможно утверждать о полной изоляции от внешнего воздействия, так или иначе наши действия являются плодом сильно проработанных манипуляций. И с течением времени всё чаще эти манипуляции будут основываться на тех данных, которые сами люди предоставляют о себе в открытом доступе в социальных сетях. В любом случае, в этом веке информации не скрыться, и любой здравомыслящий аналитик понимает, насколько это опасное оружие в «умных» руках. [3]

Литература и источники:

  1. Дегтярева Н.Е. Регрессионная модель, как инструмент анализа выборочных данных // Вологдинские чтения. 2002. № 22.
    1. Калягина Л.В., Разумов П.Е. Категория «Данные»: понятие, сущность, подходы к анализу // Вестник Красноярского государственного аграрного университета. 2014. № 4.
    1. Кузнецов И.А. Предобработка данных, выбор и формирование признаков при анализе данных. XIX международная телекоммуникационная конференция молодых ученых и студентов «Молодежь и наука». 2015.
    1. Ремарчук В.Н. Информационная аналитика как инструмент стратегического управления. В сборнике: Контуры будущего: технологии и инновации в культурном контексте коллективная монография по результатам конференции. СПб: Центр научно-информационных технологий «Астерион», 2017. С. 121–126.

Петров П.В., студент группы СГН3‐81 Московский государственный технический университет им. Н.Э. Баумана

Научный руководитель: Ламинина О.Г., к.ф.н., канд. философ. наук, доцент кафедры «Информационная аналитика и политические технологии»

Поделиться в социальных сетях

Добавить комментарий

Авторизация
*
*
Регистрация
*
*
*
Генерация пароля