
Часть III Сбор и обработка данных. Статистика и методы моделирования в системно-аналитических исследованиях
Глава 7 Методы измерений социальных явлений как инструмент системно-аналитических исследований необходимые для аналитических исследований
7.3. Основные понятия теории вероятностей, необходимые для аналитических исследований
Аргументация выводов математической и, соответственно, социальной статистики основывается на законах теории вероятностей. События взаимосвязаны. Одни из них являются исходом или следствием других. Первичное действие назовем «испытанием». Испытание приводит к появлению того или иного события. «Случайное событие» – такое событие, исход которого нельзя предугадать. Случайному событию противопоставляется «событие детерминированное» с гарантированным исходом.
Принято говорить, что случайное событие состоит из тех или иных элементарных исходов испытания. Мы не можем предсказать, произойдет это событие или нет не потому, что вообще ничего не знаем о его природе, а именно потому, что имеем дело со множеством возможных исходов, пусть даже каждый из них в отдельности мы можем описать. Подбрасывание монетки (игра в орлянку) влечет за собой 2 возможных элементарных исхода – орел или решка. Подбрасывание игрального кубика (игра в кости) влечет за собой 6 элементарных исходов.
Будем называть исходы «благоприятными», если они приводят к интересующему нас результату. Например, если нас интересует выпадение четного числа на грани
кубика, то благоприятными оказываются 3 из 6 исходов. Исходы, имеющие одинаковые шансы, называют «равновозможными». Ситуация, при которой элементарные исходы имеют различные шансы к реализации, является крайне нежелательной и встречается в шулерской игре или связана с какими-то ошибками исследователя. Исходы, появление одного из которых в единичном испытании исключает появление другого в том же испытании, называют «несовместными». «Вероятность случайного события» – количественная характеристика появления случайного события.
РА – вероятность случайного события А – является отношением числа благоприятных исходов п к общему числу несовместных равновозможных событий N.
РА= n/N
Очевидно, что имеют место следующие важные соотношения:
РА=1 достоверное событие.
РА=0 невозможное событие.
Если события А и Б несовместны, то вероятность того, что произойдет или то или другое, равна сумме вероятностей наступления каждого события:
р = р + р
А иди Б А Б
Нас устроит событие, состоящее в выпадении грани 2 или грани 3 при единичном подбрасывании кубика. При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события -1/6+1/6=1/3.
Если имеется сложное событие, состоящее в одновременном выполнении двух независимых событий, то вероятность того, что оно произойдет, равна произведению вероятностей каждого события.
р = Р*Р
Нас устроит событие, состоящее в том, что при двукратном подбрасывании кубика выпадут грани 2 и 3 (не важно, в какой последовательности). При вероятности каждого из элементарных исходов 1/6 вероятность интересующего нас события – 1/6*1/6=1/36.
С развитием теории вероятности, когда обнаружился ее мощный потенциал для решения разного рода прикладных задач, появилось понятие «случайной величины» или «случайного числа». Если случайные события состоят в появлении тех или иных чисел, то эти числа называют случайными. Случайная величина ставится в соответствие случайным событиям. Де-факто мы уже ввели ее, обсуждая игру в кости. Очень важно не путать случайную величину и случайное событие. Так, факт падения кубика той или иной гранью вверх – случайное событие, а число на этой грани – случайная величина. Случайные величины бывают как дискретными, так и непрерывными. Количество бракованных изделий, изменяющееся от партии к партии, представляет дискретную случайную величину. Рост и вес новорожденных представляет непрерывные случайные величины. Эти величины изменяются случайно от одного ребенка к другому, принимая любые значения в некотором интервале. Принципиально невозможно перечислить все значения такой величины хотя бы потому, что нельзя указать два соседних значения (подобно тому, как нельзя указать на числовой оси две соседние точки). Кроме того, вероятность каждого конкретного значения непрерывной случайной величины равна нулю. В следующих разделах рассматриваются приемы анализа дискретных и непрерывных случайных величин.
Случайные числа возникают не только в результате эмпирических опытов. Искусственно полученный ряд случайных чисел используется для решения различных задач – при проведении лотерей, отбора и кастинга, при моделировании по методу Монте-Карло и другим методам, находящим применение в банковском деле, финансах и различных видах управленческой и аналитической деятельности. Приходится встречать следующие понятия: генераторы случайных чисел, генераторы случайных событий, генераторы случайных символов и текстов. В качестве генераторов случайных чисел используется широкий ряд приспособлений: игральные кости, урны с шарами, «лототрон», таблица случайных чисел, и, конечно, специальные компьютерные программы. Системному аналитику сегодня часто приходится решать задачи в финансово-экономической области (например, задачи оптимизации взаимозачетов) с применением метода Монте-Карло, который в основе своей предполагает применение генератора случайных чисел. Генераторы случайных чисел незаменимы также и для построения случайных выборок при обследовании электората.
7.4. Искусство группировки дискретных данных
Для наглядного представления данных обследования (рассматриваем их как дискретную случайную величину) используются различные приемы, облегчающие, прежде всего, визуальный анализ полученной в эксперименте информации. К таким приемам относят таблицы, ряды распределений, графики и гистограммы. Их применяют с той целью, чтобы полученные данные представить наглядным образом. При этом можно в явной форме увидеть характерные особенности и результаты обследования.
Первичный материал, полученный исследователем, нуждается в соответствующей обработке. Обработка начинается с упорядочения и систематизации собранных данных. Процесс систематизации результатов, объединение их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка — это не просто технический прием, представляющий первичные данные в ином виде, но, прежде всего, операция, которая позволяет глубже выявить связи между изучаемыми явлениями. От того, как группируется исходный материал, во многих случаях зависят выводы о природе изучаемого явления. Поэтому группировка должна быть обдуманной, отвечать требованию поставленной задачи и соответствовать содержанию изучаемого явления.
Наиболее распространенной формой группировки экспериментальных данных являются статистические таблицы. Таблицы бывают простыми и сложными. К простым относятся таблицы, применяемые при альтернативной группировке, когда одна группа испытуемых противопоставляется другой; например, здоровые – больным, высокие люди – низким и т.п. Простые таблицы рекомендуется использовать, когда измерение изучаемых признаков производится в номинативной или ранговой шкале. При анализе финансовых и торговых операций, оценке электората также применяются таблицы.
Умение составлять таблицы из первичного «сырого» статистического материала пришло к людям не сразу. Еще в XVIII в. таких умельцев уважительно называли «табуляристами». К первым российским табуляристам относился знаменитый сподвижник ПЕТРА I ИВАН КИРИЛЛОВ.
Усложнение таблиц происходит за счет возрастания объема и степени дифференцированности представленной в них информации. К сложным таблицам относят так называемые многопольные таблицы, которые могут использоваться при выяснении причинно-следственных отношений между варьирующими признаками. Такие таблицы, как правило, имеют сложное строение, позволяющее одновременно осуществлять разные варианты группировки данных (см, например, примеры заполнения компьютерных баз данных в части 4 настоящей книги).
Примером сложной таблицы служит следующая таблица 4, в которой представлены классические данные Ф. ГАЛЬТОНА (цит. по книге ЕРМОЛАЕВ О Ю. Математическая статистика для психологов – М. Флинта, 2006), иллюстрирующие наличие положительной зависимости между ростом родителей и их детей.
Таблица 4

Таблица организована таким образом, что позволяет оценить частоту встречаемости в популяции однозначно фиксируемых соотношений роста родителей и роста ребенка. Например, при низком росте родителей в 66 дюймов (1 дюйм равен 2,54 см) только один из 144 обследованных детей имел рост в 60,7 дюймов, а 56 детей имели рост 66,7 дюйма. В то же время высокий рост детей (74,7 дюйма) был зафиксирован только в тех семьях, где родители имели рост не ниже 70 дюймов.
Эта таблица позволяет выявить следующую тенденцию: у высоких родителей, как правило, дети имеют высокий рост, а у низкорослых родителей чаще бывают дети невысокого роста. Пример показывает, что таблицы имеют не только иллюстративное, но и аналитическое значение, позволяя обнаруживать разные аспекты связей между варьирующими признаками. Следует запомнить, что правильно составленные таблицы – это большое подспорье в аналитической работе, позволяющее одновременно осуществлять разные варианты группировки полученных данных.
Особую форму группировки данных представляют так называемые статистические ряды, или числовые значения признака, расположенного в определенном порядке.
В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики, регрессии, ряды ранжированных значений признаков и ряды накопленных частот. Построение ряда распределения или вариационного ряда является основным способом обобщения и сжатия несистематизированной статистической информации. Для такого построения проводится упорядоченное распределение единиц совокупности на группы по какому-либо варьирующему признаку. Каждой группе соответствует частота, т.е. количество единиц совокупности с необходимым признаком. Иногда в качестве частот рассматриваются относительные частоты, или частости, которые характеризуют доли или проценты от общего количества данных, попавших в соответствующие группы. Ряд распределения является простой и компактной структурой, которая позволяет провести первичный анализ частотного распределения данных.
В статистике под рядом распределения понимают распределение частот по вариантам. Измеренные величины признака в выборке варьируют в пределах от минимального до максимального значения. Этот предел разбивают на так называемые классовые интервалы, которые, в зависимости от конкретных данных, могут быть как равными по величине, так и неравными.
Вариационным рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной выборке. Например, работник кадровой службы провел тестирование интеллекта по определенному тесту (Векслера) у 25 менеджеров, и «сырые» данные оказались следующими: 6,9,5,7,10,8,9,10,8,11,9,12,9,8,10,11,9,10,8,10,7,9,10,9,11
Как видим, некоторые цифры попадаются в данном ряду по несколько раз. Следовательно, учитывая число повторений, данный ряд можно представить в более удобной, компактной форме:
Таблица 5

Это и есть вариационный ряд. Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами. Они обозначаются строчной буквой латинского алфавитами имеют индекс «i», соответствующий номеру переменной в вариационном ряду.
Общая сумма частот вариационного ряда равна объему выборки, т.е. =1+7+1+2+6+4+3+1+25.
Частоты можно выражать и в процентах. При этом общая сумма частот или объем выборки принимается за 100%. Процент каждой отдельной частоты или веса подсчитывается по формуле:
п,% = —• 100%. ‘ п.
Процентное представление частот полезно в тех случаях, когда приходится сравнивать вариационные ряды, сильно различающиеся по объемам. Например, при тестировании электоральных предпочтений населения города, поселка городского типа и села были обследованы выборки численностью 1000, 300 и 100 человек соответственно. Различие в объемах выборок очевидно. Поэтому сравнение результатов тестирования лучше проводить, используя проценты частот.
Приведенный выше ряд можно представить по-другому. Если элементы ряда расположить в возрастающем порядке, то получится так называемый ранжированный вариационный ряд:
Таблица 6

Подобная форма представления более предпочтительна, чем в таблице 5, поскольку лучше иллюстрирует закономерность варьирования признака.
Частоты, характеризующие ранжированный вариационный ряд, можно складывать, или накапливать. Накопленные частоты получаются последовательным суммированием значений частот от первой частоты до последней.
Поскольку аналитическим исследователям часто приходится иметь дело с изучением поведения сложных систем (множество игроков финансовых рынков, производители средств мобильной связи и т.д.), то данные, которыми приходится оперировать при подготовке принимаемых решений, желательно представлять в наглядной, достаточно простой и удобной для практического использования форме. Одной из наиболее распространенных форм такого рода являются гистограммы.
Гистограмма является разновидностью специального типа статистических графиков, которые называются диаграммами. Диаграммы удобно использовать для сравнительного анализа значений различных статистических показателей, наглядного представления их динамики и структуры. Гистограмма изображается в виде фигуры, состоящей из примыкающих друг к другу вертикальных прямоугольных полос – столбиков, где высота каждого столбика пропорциональна частоте соответствующей группы, а ширина равна ее размеру. Реже употребляют диаграмму под названием «полигон». Полигон молено получить, если на координатной плоскости отметить точки, абсциссами которых будут средние точки групп, а ординатами – значения их частот, и соединить соседние точки отрезками прямых. Графическое представление ряда распределения в виде гистограммы и полигона позволяет провести быстрый визуальный анализ основных характеристик распределения: наибольшего и наименьшего значений, зон концентрации данных и т.п.
Для практического освоения приемов построения гистограмм рассмотрим известный пример из классического учебника X. БЛЭЛОКА (BLALOCKH. Social statistics. -N.Y.. McGraw-Hill, 1979).
Отчеты, поступившие из 93 избирательных участков города, напрямую не позволяют выявить «репрезентативный» процент голосов, поданных за кандидата N, поскольку представляют так называемый «сырой массив» (таб.7).
Процент голосов, поданных за кандидата N (от участка к участку)
Таблица 7

Как видим, картина голосования получилась пестрая. Разброс голосов, поданных за кандидата N на участках города, варьирует от 4,8% до 83,6%. Требуется представить эти данные в более наглядном виде. При работе с этим «сырым массивом», прежде всего, производится группировка данных по интервалам. Очень важно правильно выбрать ширину интервала (и, соответственно, их количество). Если интервал группировки выбран чересчур узким, интервалов получится слишком много и некоторые интервалы могут остаться незаполненными. Наоборот, если интервал выбран слишком большим, интервалов будет недостаточно, и гистограмма получится неинформативной. Для выбора оптимальной ширины интервала специалисты уже давно используют формулу Стерджеса:
с – с . max mm 3,22-lgff
где в числителе – разность максимального и минимального вариантов (в нашем примере 4,8% и 83,6%), а в знаменателе – некая константа, умноженная на логарифм числа случаев (в нашем примере 93). Из формулы Стерджеса следует, что для нашего случая оптимальное значение ширины интервала Ас=
10%. После группировки строится вариационный ряд в виде таблицы или гистограммы. По оси абсцисс откладывается значение признака, а по оси ординат – соответствующая этому значению частота.
На рис. 11 приведены две гистограммы, построенные по данным нашего примера.
20 ‘ 40 &> 80 100
Процент голосов за кандидата N
Рис. 11. Гистограммы, построенные по данным обработки «сырого» массива из 93 случаев
(слева – гистограмма для близкой к оптимальной ширине интервала в 10% голосов, справа – гистограмма для слишком грубого разбиения вариационного ряда на 5 интервалов по 20% голосов в каждом)

Первая из них – с оптимальным размером интервала группировки, вторая (для сравнения) – с неоправданно большим размером интервала. При оптимальном выборе характеристик гистограммы легко определить т. н. «модальный» интервал, соответствующий наиболее часто встречающемуся варианту. Так, в нашем примере, наибольшее число участков зафиксировало 20-30% голосов за кандидата N.
С помощью графиков аналитику приходится искать также ответы на вопросы следующего типа. Сколько единиц совокупности (или какой процент) имеют значения, превышающие (или не превышающие) заданную величину? Для ответа на подобный вопрос вычисляются кумулятивные (накопленные) частоты ряда распределения и строится кумулятивная гистограмма, или кумулята. Различают два типа кумулятивных гистограмм: «меньше, чем …» и «более, чем …». Кумулятивные частоты для первого типа получаются последовательным суммированием (абсолютных или относительных) частот групп от низшей группы к высшей, а для второго типа, наоборот, от высшей к низшей. Для построения кумуляты на координатной плоскости отмечаются точки, абсциссы которых являются точными верхними границами групп для полигона типа «меньше, чем…» или точными нижними границами для полигона типа «более, чем…», а ординаты – значениями соответствующих кумулятивных частот.
Следует различать гистограммы и столбиковые диаграммы. В общем случае столбиковые диаграммы представляются в виде набора отдельных столбиков, изображающих значения или уровни исследуемого показателя. Столбики чертятся в системе прямоугольных координат: по горизонтальной оси откладываются основания столбиков (размер произвольный, но, как правило, одинаковый для всех), а по вертикальной оси – высота столбика, характеризующая величину показателя в определенном масштабе. Располагаться столбики на горизонтальной оси могут по-разному: на одинаковом расстоянии друг от друга, вплотную друг к другу, отдельными группами и т.п. Возможно изображение на одном графике нескольких показателей отдельными столбиками, например, с разной штриховкой или разного цвета. Столбиковые диаграммы могут строиться с использованием различных шкал, в том числе шкал наименований и порядковых шкал. Пример столбиковой диаграммы, построенной по данным вариационного ряда из таблицы 6, приведен на рис. 12. Столбиковая диаграмма, соответствующая ряду распределения таб. б

–
Ас-20 40 60 80 100
Процент голосов за кандидата N д 8 9 1 0 ‘ 1 1 ” Т~2~
Варианты х
Если поменять местами вертикальную и горизонтальную оси графика столбиковой диаграммы, то она трансформируется в полосовую диаграмму. Столбики в этом случае становятся полосами, а масштабная шкала, по которой измеряются их длины, откладывается по горизонтальной оси. Наряду со столбиковыми и полосовыми диаграммами для изображения временных рядов показателей используются линейные диаграммы или просто линейные графики. Они чертятся на координатной плоскости, где по оси х откладываются временные интервалы, а по оси у — значения показателей. Для графического отображения структурных показателей различных совокупностей, характеризующих соотношение их различных частей, применяются секторные диаграммы, где в качестве графического образа используется круг, разбитый на секторы. Площадь каждого сектора пропорциональна удельному весу каждой отдельной структурной части.
Рассмотренные типы диаграмм являются примерами графических методов описательной статистики. Следует отметить, что если предварительная группировка «сырых» данных и построение гистограмм и кумулят производятся на основе значений только одного варьирующего признака, то столбиковые, полосовые, линейные и секторные диаграммы позволяют анализировать статистическую информацию, классифицированную одновременно по нескольким признакам. Все указанные выше виды диаграмм могут быть представлены с помощью соответствующих современных компьютерных программ.