1.3. От модели к измерению и анализу
(Автоматизированный и ручной сбор данных – Проблема доступности данных – Проблема квантификации качественных признаков – Статистический анализ данных. Построение пилотного прогноза)
Для валидизации полученной эмпирической модели с точки зрения ее применимости в работе с большими данными был проведен количественный сбор данных. Поскольку в исходную эмпирическую модель факторов интеграционной динамики были включены не все факторы, вошедшие в исходный перечень признаков (в частности, в нее не вошли признаки, которые были включены в исходный перечень дедуктивным путем, такие, например, как сетевые метрики, а также множественные модификации одного признака), было принято решение собирать данные по всему перечню признаков (более 80-ти), с тем, чтобы в ходе количественного анализа проверить соответствие этих признаков следующим критериям:
– доступность для измерения
– формализуемость
– регулярность появления
– наличие статистической значимости в отношении наиболее существенных проявлений интеграции.
Изначально по признаку потенциальной доступности для разных видов измерения все признаки были поделены на две группы: собираемые автоматически (1), собираемые в ручном режиме (2). Отбор признаков, по которым данные могут быть собраны автоматически, происходил в ходе консультаций с внешними специалистами. В результате довольно много признаков оказалось на данном этапе недоступно для автоматизированного сбора данных – см.Табл.1
Таблица 1. Показатели для ручного и автоматизированного сбора данных
Сортировка показателей по критерию способа сбора данных обнаружила две существенных особенности сбора количественной информации об онлайн-сообществах в формате групп в социальных сетях, которые, на наш взгляд, выступают серьезными ограничениями для использования предложенной модели.
Первое ограничение – возможности сбора персональных данных в социальных сетях. Эти возможности ограничиваются, с одной стороны, политикой социальных сетей, которая постоянно сужает возможности парсинга персональных данных. С другой стороны, таким ограничением выступают неполные данные об участниках, большая доля закрытых для просмотра страниц, рост так называемых «фейковых» страниц. Поэтому группа факторов под общим обозначением «особенности участников» оказалась практически вне зоны наблюдения и измерения, как в ручном, так и автоматизированном режиме. Единственный фактор из этой группы, который в какой=то мере отражает особенности членов сообщества – это фактор степени социальной близости (гендерной, возрастной, географической) в дружеских связях участников группы. Этот показатель широко используется в сетевом анализе, и, с поправками на отмеченные ограничения, он частично может измерять такой фактор интеграции, как социальную однородность/разнородность участников онлайн-сообщества.
Второе ограничение связано со сложностями квантификации качественных данных. Большинство признаков, значимых с точки зрения наблюдателей, относилось к категории качественных и субъективных характеристик поведения сообщества.
Для операционализации наиболее сложных качественных показателей в исследовании механизмов конструирования внутригрупповой контекстуальной идентичности и связанности участников сообществ была разработана процедура анализа массивов текстовых данных (text mining) для оценки дискурсивной когерентности контента в общей интегративной динамике анализируемых групп и включения разработанных семантических индикаторов интегративной динамики в автоматизированную систему измерения.
По квантифицируемым качественным признакам в ходе наблюдений сформированы тестовые глоссарии, содержащие базовый тематический корпус слов для будущего автоматизированного сбора (категории анализа: собственный язык общения группы, внутригрупповая враждебность, аутгрупповая враждебность, доля инструктирующих постов, доля эмоционально воздействующего контента). Данные мониторинга по этой группе показателей собирались вручную, с минимальной формализацией, соответственно, фактор наблюдателя мог влиять на результат.
Применяемые методы: контент-анализ, фрейм-анализ.
В результате использования разработанного глоссария и единообразных шкал ручной сбор на втором этапе значительно упростился и гарантированно давал сопоставимые результаты.
Так как не по всем качественным показателям оказалось возможна достаточная степень формализации и ретроспективный парсинг, автоматизированный сбор велся по 28 индикаторам из разработанной эмпирической модели.
При формализации отдельных качественных признаков для автоматизированного сбора, исследователи столкнулись с отсутствием достаточно объективных и доступных для фиксации в онлайн-взаимодействиях индикаторов оффлайн-событий. В результате пришлось частично скорректировать модель и отказаться показателей по доле оффлайн-взаимодействий в деятельности групп (предполагался поиск бенчмарков по графикам групповой активности с выделением пиковых значений, которые затем должны были использоваться при вычислении степеней оффлайн-активности групп) и по количеству дружественных групп (с извлечением содержания списка рекомендуемых страниц в группах), поскольку на этапе ручного сбора при кодификации неоднократно выявлялась проблема объективности в интерпретации фактов.
Вместо количественного показателя оффлайн-взаимодействий был использован компромиссный показатель субъективной оценки наблюдателями частотности оффлайновых действий групп (среднее количество в месяц) и более релевантный показатель количества результативных групповых внешних действий (доля действий из общего количества, которые были оценены участниками групп положительно за период времени). От показателя по дружественным группам было решено отказаться, поскольку фиксировался более надежный и доступный показатель внешних онлайн-коммуникаций групп – доля репостов.
Некоторые сложные показатели не удалось формализовать на этапе теоретической интерпретации, например, показатель тематической моды в контенте групп. Первоначально показатель предназначался для измерения соответствия тематики групп общественным трендам, однако, применение на практике показало, что для характеристики тематики групп достаточно показателей доли собственного/привлеченного материала и доли материалов со ссылками на зарубежный и российский контент. Уточненный показатель «моды» по тематике был преобразован в показатель «стратегии эксклюзивности» – степень востребованности тематики групп, измеряемую как постоянное значение по количеству групп аналогичной тематике в поисковике (в абсолютных значениях).
Тестовое применение автоматизированного инструментария при апробации модели показала, что по некоторым показателям интеграции требует уровня формализации, на котором при имеющихся технологических возможностях значимо снижается качество получаемых данных.
Взвешенные оценки экспертов и субъективные оценка наблюдателей (по шкале от 0 до 1) показала достаточную значимость фактора наличия «собственного языка» в общении группы: данный показатель, по мнению исследователей, конституирует ценностную и групповую идентичность сообществ (вес фактора в общей модели интегративной динамики – 0,008613; в дневниках наблюдений зафиксированы признаки встречаемости специализированной семантики в 2-х из 12-ти первоначально анализируемых групп). Однако по причине ограничений доступа к API социальной сети Facebook, синхронизировать ручной и автоматизированный сбор данных по данному показателю на третьем году проведения исследования не удалось. Апробация комплексного семантического анализа с исследованием нарративов групп и автоматизированного извлечения содержания текстовых элементов публикаций изучаемых групп за весь период деятельности была завершена на этапе разработки алгоритма для извлечения семантики по сформированным глоссариям.
Переход к намеченной кластеризации извлеченной семантики и построению тематических моделей типа LDA/ BigARTM на статистически значимых массивах данных (по ежемесячным срезам состояний 8 групп за время существования сообществ) не был реализован в силу проектных ограничений по серверной мощности. В качестве компромиссного варианта был проведен ручной сбор с фиксацией субъективно оцениваемой доли уникализированных терминов в общем количестве постов.
Автоматизированным способом на первом этапе работы с большими данными собирались данные по 28 показателям. Автоматизация измерений была достигнута благодаря возможностям высокоуровневого языка программирования Python[1]. Для социальной сети «ВКонтакте» была разработана программа, которая, используя официальное API (application programming interface), позволила получать публичную информацию о материалах сообществ из базы данных vk.com с помощью http-запросов к специальному серверу сайта[2].
Для проведения необходимых количественных измерений сообществ социальной сети «Facеbook» также был разработан Python-скрипт, в основе которого использовались инструменты для автоматизации действий веб-браузера – Selenium WebDriver.
Обработка и первичный анализ данных производился с помощью языка программирования структурированных запросов SQL и библиотеки языка Python для обработки и анализа данных Pandas. Для визуализации и построения сетевых графов использовались библиотеки Matplotlib и NetworkX.
В алгоритмах также использовались такие библиотеки как: requests, urllib3, selenium, beautifulsoup4, pandas, sklearn, sqlalchemy, dask, dask[dataframe], dask[distributed], bokeh, matplotlib. Данные собираются и хранятся на сервере с операционной системой Linix Ubuntu. Система СУБД – PostgreSQL.
Всего автоматически были собраны данные о поведении 8 групп (ВКонтакте, Facеbook), в возрасте от 3 до 8,5 лет, которые отражали состояния групп по различным показателям коммуникаций, структуры контента, структуры авторства, проявлениям лояльности и т.д. на начало каждого месяца. Не по всем заданным показателям оказался возможен ретроспективный сбор (невозможно, например, извлечь ретроспективно данные о количестве участников на начало месяца, а также данные о сетевых характеристиках сообществ). Но, начиная с ноября 2020 года пропущенные данные входят в систему актуальных измерений.
[1] The official home of the Python Programming Language. [Электронный ресурс] URL: https://www.python.org
[2] Знакомство с API ВКонтакте. [Электронный ресурс] URL: https://vk.com/dev/first_guide
Ручной сбор предполагал на данном этапе наблюдение за значениями 37 показателей. Проведено формализованное выборочное наблюдение за поведением 12 онлайн сообществ (ВКонтакте и Facebook). Периодичность наблюдения – 1 раз в неделю. Длительность этого пилотного наблюдения – 4 недели. На основе полученных данных произведен анализ системы индикаторов и пробный сравнительный анализ динамики 12 сообществ. Для дополнительной валидизации процедур сбора данных по 5 показателям ручной и автоматизированный сбор дублировались. Все данные были собраны из открытых и публичных источников.
В результате пилотного сбора данных было сформировано несколько массивов данных, в зависимости от периода измерения и способов сбора. Основные базы данных:
- Данные, полученные автоматизировано, за весь период существования групп
- Данные, полученные автоматизировано, за период в 1 месяц (сетевые метрики и данные по показателям лидерства)
- Данные, полученные в результате ручного сбора (наблюдения), за период в 1 месяц
Соответственно располагаемым базам данных, обработка и анализ осуществлялась в нескольких направлениях.
Статистический анализ данных. Проведен по базе данных (1), в силу достаточного объема данных для осуществления статистических процедур.
Основные задачи статистического анализа данных состояли в проверке гипотез об уровне значимости наиболее существенных факторов интеграции (валидизации взвешивания факторов в исходной модели) и в группировке факторов (оптимизации эмпирической модели.
Для решения этих задач был проведен регрессионный и факторный анализ данных.
В социально-экономических науках получило известность определение Н.Ш. Кремер статистической зависимости «… в естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой … В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а м н о ж е с т в о возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической.»[1]
Основой корреляционного анализа является определение зависимостей между двумя выборками случайных величин: «Если зависимость между двумя переменными такова, что каждому значению одной переменной соответствует определенное условное математическое ожидание (среднее значение) другой, то такая статистическая зависимость называется корреляционной. Иначе, корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.»[2]
Регрессионный анализ ставит своей задачей определение односторонней зависимости выходного параметра от вектора входных параметров: «В регрессионном анализе рассматриваются односторонняя зависимость случайной переменной У от одной (или нескольких) неслучайной независимой переменной X. Такая зависимость может возникнуть, например, в случае, когда при каждом фиксированном значении X соответствующие значения Y подвержены случайному разбросу за счет действия ряда неконтролируемых факторов. Такая зависимость Y от X (иногда ее называют регрессионной) может быть также представлена в виде модельного уравнения регрессии F по X. При этом зависимую переменную Y называют также функцией отклика, объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком, а независимую переменную X — объясняющей, входной, предсказывающей у предикторной, экзогенной переменной, фактором, регрессором, факторным признаком»[3]
Рассмотрим применение корреляционно-регрессионного анализа на примере
формирования линейных уравнений регрессии для двух переменных: количества лайков на одного участника группы и количества репостов в ответ на просьбу о репосте. Эти переменные выбраны в качестве индикаторов минимальной (из числа доступных для сбора в двух сетях – ВК и FB) и максимальной коммуникационной вовлеченности участников.
Результат корреляционно-регрессионного анализа для индикатора «Количество лайков на одного участника группы» приведен в таблице 11. Анализ проводился с применением статистического пакета IBM SPSS.
[1] Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – 311 с.)
[2] Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – 311 с.
[3] Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – 311 с.
Таблица 11. Результат корреляционно-регрессионного анализа массива данных по выходному индикатору «Количество лайков на одного участника»
Рис. 7 – Влияние индикаторов на поведение зависимой переменной «Количество лайков на одного участника»
Уравнение регрессии для зависимой переменной «количество лайков на одного участника группы»:
Таблица 12. Результат корреляционно-регрессионного анализа массива данных по выходному индикатору «Количество репостов по отношению к просьбам о репосте»
Рис. 8 – Влияние индикаторов на поведение зависимой переменной «Количество репостов по отношению к просьбам о репосте»
Уравнение регрессии для зависимой переменной «Количество репостов в ответ на просьбу о репосте»:
Факторный анализ методом главных компонент был проведен для снижения размерности модели динамики интеграции. Было выделено 6 укрупненных факторов, которым были присвоены следующие семантические определения:
– фактор объема внутренних коммуникаций,
– фактор структуры контента, т.е. разнообразия способов коммуникации, в т.ч. – предоставляемых интерфейсом платформы,
– фактор количества акторов,
– фактор информационной насыщенности,
– фактор индивидуального самовыражения участников,
– фактор групповой солидарности
Таблица. Макрофакторы динамики интеграции. Повернутая матрица компонентов
Выделенные группы факторов отчасти подтверждают валидность иерархической модели, сформированной на первом этапе исследования. Но, поскольку показатели по ряду факторов (сетевые метрики, качественные показатели тематической и языковой специфики групп, показатели воздействия внешних факторов) измерялись на актуальном материале, а не в динамике, они не были включены в анализ. Соответственно, это проявилось и в различиях между предварительной моделью и моделью, полученной в ходе факторного анализа.
Результаты факторного анализа, хотя и не были использованы напрямую в последующем развитии эмпирической модели, но позволили на последующих этапах принимать решения об учете или игнорировании какого-либо факторы в корреляционном анализе, а также, наряду с результатами корреляционно-регрессионного анализа позволило сформулировать некоторые теоретические предположения, касающиеся функционирования изучаемых сообществ, которые более подробно рассмотрены в Разделе 2 монографии.
Эта же база данных, собранная автоматически по функционированию групп с начала основания, стала основанием для формирования диахронического анализа интеграции в изучаемых группах.
Согласно предложенной модели динамика интеграции групп представлена на рис. 5 – 6.
На рис. 5 -6 буквами обозначены: а – «Лыжи мечты», б – «Альянс ЛГБТ», в – «Библиотеки – пространства развития», г – «Все вместе», д – «Жители Тимирязевского района», е – «Поборы в детских садах», ж – «Пражский клуб», з – «Университетская солидарность».
Уровень интеграции на текущий момент была оценен по полной эмпирической модели за 1 месяц, объединяющий показатели, собранные в ручном режиме и автоматизировано (включая сетевые метрики). Такой анализ позволил сравнить изучаемые группы по уровню интеграции. В результате выделено три группы сообществ по уровню интеграции:
Различия между этими тремя группами обусловлено, в первую очередь, объемом сообществ. Несмотря на то, что количественная разница в объемах групп и в нашей модели интеграции, и в работах других исследователей, и в оценках экспертов (см.далее) не рассматривается в качестве самого значимого фактора интеграции, необходимо признать, что объем сообщества прямо связан с объемом коммуникаций, структурой контента, ролями основных акторов в коммуникациях (см. результаты факторного анализа). Соответственно, эта пилотная модель интеграции по полному списку факторов показала, что размерность шкал при измерении должна быть унифицирована (как минимум, переведена в формат относительных величин), если перед исследователями стоит задача сравнения уровня интеграции в разных группах.
Таким образом, первичная эмпирическая модель динамики интеграции в процессе тестирования на реальных данных, показала направления и возможности для оптимизации при переходе к окончательной прогнозной модели.