
Часть III Сбор и обработка данных. Статистика и методы моделирования в системно-аналитических исследованиях
Глава 7 Методы измерений социальных явлений как инструмент системно-аналитических исследований
7.1. Измерения социальных явлений. Данные и их анализ
Роль эмпирических данных в изучении общественных явлений огромна. Глубокое изучение интересующих аналитика закономерностей невозможно без опоры на анализ конкретных фактов, в которых эти закономерности, собственно говоря, и проявляются. Именно реальные эмпирические факты, как правило, служат средством проверки теорий, наводят на мысль о необходимости их корректировки, являются почвой для формирования новых теоретических гипотез. Специалист в области системного анализа должен владеть техникой простейшей математической обработки эмпирических данных.
Что же это такое – эмпирические данные, т.е. данные, характеризующие конкретные факты в социологии, экономике, психологии? Следуя работе Ю.Н. Толстовой (ТОЛСТОВА Ю.Н. Анализ социологических данных. – М.: Научный мир, 2000), выделим следующие основные группы данных:
• совокупности чисел, характеризующих те или иные объекты (в качестве таких совокупностей могут выступать, например, производственные характеристики предприятий, возраст респондентов, оценки выпускниками школ престижности некоторых профессий и т.д.);
• множества индикаторов определенных отношений между рассматриваемыми объектами, такие данные часто используются при изучении малых групп;
• результаты попарных сопоставлений респондента ми (то есть лицами, отвечающими на вопросы исследователей) каких-либо объектов;
• совокупности определенных высказываний (на пример, ответов респондентов на вопрос об их профессии, о том, что им нравится в политике правительства; письма читателей газеты в редакцию; фрагменты из журнальных статей и т.д.);
• тексты документов;
• так или иначе зафиксированные результаты наблюдения за невербальным поведением людей и т.п.
Наиболее часто в экономических, социологических, психологических исследованиях данные представляют собой совокупность значений каких-либо признаков (характеристик, переменных, величин; будем считать эти термины синонимами), измеренных для каждого из изучаемых объектов. Результаты обработки данных используются для построения моделей (Модель в социологии и экономике – (а) образ предмета или явления; (б) упрощенная теория процесса; (в) образец для подражания) и прогнозов социально-экономических процессов и ситуаций.
Основная цель анализа данных – выявление (подтверждение, корректировка) каких-то интересующих исследователя закономерностей. Принято выделять две основные формы закономерной связи явлений, отличающиеся по характеру вытекающих из них предсказаний: динамические и статистические закономерности (Философский энциклопедический словарь. – 1983. – С. 653).
В законах динамического типа предсказание имеет точный, определенный однозначный вид; в статистических же законах предсказание носит не достоверный, а лишь вероятностный характер, то есть оно более или менее правдоподобно. В данном разделе рассматриваются, в основном, статистические закономерности. Это закономерности «в среднем». Статистический подход состоит в мысленном разделении наблюдаемой изменчивости на две части (обусловленные, соответственно, закономерными и случайными причинами) и выявлении закономерной изменчивости на фоне случайной (ТЮРИН Ю., МАКАРОВ А. Анализ данных на компьютере – М.: Инфра-М, 2003).
Вероятностный характер предсказаний в статистических закономерностях обычно бывает обусловлен действием множества случайных факторов, которые имеют место в статистических совокупностях. Статистическая закономерность возникает как результат взаимодействия большого числа элементов, составляющих совокупность, и характеризует не столько поведение отдельного элемента совокупности, сколько всю совокупность в целом. Проявляющаяся в статистических закономерностях «необходимость» возникает вследствие взаимной компенсации и уравновешивания множества случайных факторов, «пробивает» себе дорогу через массу случайностей.
Другими словами, современный подход к анализу и обработке данных позволяет «за деревьями увидеть лес» – например, за специфичностью, неповторимостью каждого человека усмотреть тенденции, имеющие место «в среднем» для всех респондентов изучаемой совокупности. Статистическими являются часто употребляемые утверждения типа: «средний возраст ткачих равен 38 годам», «выбор профессии выпускниками вузов не связан с их полом», «такая-то радиопередача имеет самый высокий рейтинг среди слушателей» и т.д.
Роль изучения статистических закономерностей для аналитической работы вряд ли можно переоценить. Они вполне адекватно описывают массовые явления случайного характера, а именно такого рода явления и изучают обычно аналитики различного профиля деятельности. О громадной роли изучения статистических закономерностей в эмпирических науках, в том числе в эмпирической аналитике, можно прочитать, например, в работе А.И. РАКИТОВА (Ракитов А.И. Статистическая интерпретация факта и роль статистических методов в построении эмпирического знания. – М.: Наука, 1981).
Причины, побуждающие исследователя искать ту или иную закономерность, могут быть разными, а задачу поиска закономерности иногда отождествляют с задачей объяснения интересующего нас явления. Так, выяснив, что коэффициент корреляции между числом рейдерских захватов бизнеса в данном регионе и числом самоубийств бизнесменов в том же регионе близок к единице, мы считаем, что самоубийство объясняется потерей бизнеса (Понятия «корреляционный анализ», «статистическая связь» подробно обсуждаются в разделе 8.2).
Однако этот же пример показывает сложность процесса объяснения. Поясним это.
Величина найденного коэффициента говорит о наличии статистической связи между двумя явлениями, что как бы объясняет, почему в наблюдаемых данных большим значениям числа рейдерских захватов отвечают большие частоты суицидов (между соответствующими признаками имеется сильная статистическая связь). Здесь представляется уместным вспомнить, что статистическая связь, вообще говоря, не доказывает наличие причинно-следственной. Выявление статистической закономерности — это как бы формальное объяснение того, что в действительности интересует аналитика. Хотя такое объяснение зачастую играет огромную роль в исследовании, аналитик, как правило, стремится им не ограничиваться. Нужно идти дальше, пытаясь выявить причинно-следственные отношения. А это чаще всего возможно сделать только на основе применения качественных методов.
С помощью качественных методов желательно выйти на содержательные представления о том, что невозможность восстановить бизнес подталкивает бывшего руководителя компании к самоубийству. В таком случае расчет упомянутого выше коэффициента корреляции можно рассматривать как формальную закономерность, отвечающую этой содержательной закономерности и подтверждающую ее. Тогда «закон», под который мы подводим объясняемое явление, можно отождествлять с теми самыми причинно-следственными отношениями, о которых шла речь выше. В качестве иллюстрации причинно-следственных отношений можно упомянуть зависимость количества депозитных вкладов в банках от величины ставки рефинансирования.
Наряду с объяснением изучаемого явления, представляется целесообразным всегда иметь в виду, по крайней мере, еще две цели: описание исходных данных и осуществляемое на основе выявленной закономерности предсказание (и прогнозирование) того или иного явления. Описание – цель, достичь которую часто бывает необходимо прежде, чем непосредственно приступать к поиску основной интересующей исследователя закономерности. Предсказание тоже зачастую считается основной целью аналитического исследования. Известен афоризм О. Конта: «Знать, чтобы предвидеть».
Описание требуется, для того чтобы финансовый или политический аналитик мог хотя бы самым приблизительным образом сориентироваться в том «море» самых разнообразных данных. А потребность в этом обычно имеется. Ведь далеко не всегда аналитику бывает с самого начала полностью ясно, каков вид закономерностей, «скрывающихся» за интересующими его данными, не всегда понятно, например, какими признаками эти закономерности должны описываться, возможно ли в принципе подобрать соответствующие признаки и т.д. Например, анализируя падение стоимости определенных видов ценных бумаг на бирже, аналитик должен уметь правильно группировать, классифицировать и обрабатывать многочисленные данные, для того чтобы понять, происходит ли падение стоимости так называемых «голубых фишек» в результате объективного спада производства или как следствие финансовых махинаций, интриг биржевых спекулянтов.
Описание может помочь дать ответы на подобные вопросы, с тем чтобы потом уже можно было более направленно искать интересующие аналитика соотношения. Описание данных обычно достигается с помощью самых простых способов сжатия исходных данных. Примеры: доля женщин в изучаемой совокупности; средний возраст респондентов; величина разброса респондентов по возрасту; наиболее часто встречающаяся среди респондентов профессия; нижний уровень дохода 10% самых богатых респондентов и т.д. Заметим, что совокупность наиболее употребительных приемов выявления закономерностей, описывающих изучаемое множество объектов, называется описательной, или дескриптивной, статистикой. Это – одна из областей анализа данных.
Имеется два вида описаний: качественное, в обычной словесной формулировке, и количественное, где описанием служит численное значение. Между этими видами описания есть определенная связь. Чтобы от описания перейти к точной формулировке закономерностей или устойчивых правил, необходимо уметь обрабатывать количественные описания так, чтобы из них можно было делать качественные выводы. В этом состоит задача статистики. Например, качественным описанием является электоральная поддержка той или иной партии. Количественным – статистическая оценка предпочтений представительной выборки избирателей.
Прогноз тех или иных характеристик жизни общества, по существу, служит целью выявления любой закономерности: изучать ту или иную сторону жизни общества чаще всего надо для того, чтобы научиться управлять какими-либо процессами. Прогноз осуществляется обычно с помощью довольно сложных процедур построения экспертных сценариев.
Подчеркнем, что выше мы везде неявно предполагали, что для описания какого-либо явления, выявления определяющих его причин, предсказания последствий и т.д. необходимо использование математики. Мы считали очевидным, само собой разумеющимся, что анализировать данные, изучать на этой основе окружающую нас реальность можно только с помощью математических методов. А так ли это? Этот вопрос тем более актуален, что любому аналитику не раз приходилось слышать о том, что использование математики в гуманитарных науках связано с определенными проблемами. Теперь попытаемся пояснить, почему процесс анализа данных должен опираться на применение математического аппарата, и какого рода сложности возникают при использовании математики в науке вообще и в аналитических исследованиях, в частности. Все дело в том, что аналитическим процедурам, как правило, предшествуют процедуры измерительные.
Под измерениями в системно-аналитических исследованиях понимают процедуры, при помощи которых объекты исследования отображаются в некоторую математическую систему с соответствующими отношениями между ее элементами (ЯНОВСКАЯ С.А. КОЛИЧЕСТВО (В математике) // Филос. энциклопедия. – М., 1962. -Т. 2. ТЮРИН Н.Н., МАЛИКОВ М.Ф. Введение в метрологию – М., 1965. СУППЕС П., ЗИНЕС Дж. Основы теории измерений // Психологические измерения. – М., 1967).
Существует множество других определений термина «измерение», несколько отличающихся друг от друга в зависимости от точки зрения исследователя. Общим во всех определениях является, по-видимому, следующее: измерение есть приписывание (иногда с помощью специальных приборов и инструментов) чисел вещам в соответствии с определенными правилами. Измерить рост человека — значит приписать число расстоянию между макушкой человека и подошвой его ступней, найденному с помощью линейки. Измерение коэффициента интеллектуальности кандидата на занятие той или иной вакансии в коммерческой структуре — это присвоение числа характеру ответной реакции, возникающей у него на группу типовых задач. Измерение преобразует определенные свойства наших восприятий в известные, легко поддающиеся обработке вещи, называемые «числами».
В качестве объектов измерений могут выступать любые интересующие аналитика объекты и процессы – индивиды, производственные коллективы, условия труда, быта, финансовые потоки, колебания цен, изменение общественного мнения и т.д. При измерениях каждому объекту приписывается определенный элемент используемой математической системы. В практике чаще всего используются числовые математические системы, элементами которых являются действительные числа. Однако возможно использование и нечисловых систем.
Поэтому вместо термина «измерение объектов» часто используется термин «измерение свойств объектов». В процессе проведения анализа измерение – есть связующее звено между социальным объектом и его математическим представлением. Теория, методология и практика измерений – неотъемлемая составная часть аналитического исследования.
Основные проблемы теории измерений в математике были разрешены в рамках созданной А. ЛЕБЕГОМ (конец XIX в.) аксиоматической теории меры (ЛЕБЕГ А. Об измерении величин. – М.: Фиэматгиз, 1960.), используемой во многих науках. Его представление об измерениях, сложившееся в рамках естественных наук, можно назвать классическим.
Современный подход к пониманию измерений, находящий наиболее широкое практическое применение в системно-аналитических исследованиях, начал формироваться на рубеже XIX-XX вв. Его возникновение было обусловлено потребностями общественных наук, дальнейшее развитие которых к концу XIX в. стало немыслимым без использования формальных моделей изучаемых процессов или явлений (ПФАНЦАГЛЬ И. Теория измерений. – М., 1976. Осипов Г.В., АНДРЕЕВ Э П. Методы измерения в социологии. – М., 1977. ЧЕСНОКОВ СВ. Детерминационный анализ социально-экономических данных. – М., 1982. БЕРКА К. Измерения: Понятия,
теории, проблемы. – М., 1987).
Непригодность классического подхода для измерений в общественных науках обусловила расширение этого понятия. Под измерениями стали понимать способ приписывания чисел объектам, независимо от наличия единицы измерения.
Очевидно, классическое понимание измерений не противоречит такому подходу и может рассматриваться как частный случай последнего. Одним из основоположников нового подхода к пониманию измерений стал американский психолог С.С. СТИВЕНС, автор общеизвестной классификации шкал по уровню измерений. Развитие идей С.С. СТИВЕНСА его последователями привело к рождению новой теории измерений, для которой основными являются понятия шкалы и ее допустимого преобразования. Знание шкал и теории измерений чрезвычайно нужно системному аналитику, который имеет дело с банковскими и биржевыми операциями, котировкой ценных бумаг, рейтингами политических деятелей и т.д. Выявление тенденций стоимости акций, прогноз в отношении победителя выборов, построение правильной маркетинговой стратегии начинается с того, что аналитик применяет измерительные процедуры для получения первичных массивов данных и выстраивает их на измерительных шкалах.
Представления о «шкалах измерений» образуют весьма полезную группу понятий. Кратко рассмотрим, следуя С.С. СТИВЕНСУ, различные шкалы и их применение в процессе сбора и анализа данных.
Номинальное измерение (присвоение обозначения или обозначений) едва ли заслуживает того, чтобы называться «измерением». Это процесс группирования предметов в классы, когда объекты, принадлежащие к одному классу, идентичны (или почти идентичны) в отношении некоторого признака или свойства. Далее классам даются обозначения; за обозначение класса часто принимаются числа, которые могут служить объяснением заголовка «номинальное измерение».
Схемы классификации предпочтений в отношении того или иного товара – примеры номинальных измерений в маркетинговом деле. Сотрудники кадровых служб часто кодируют «пол», обозначая «особей женского рода» нулем, а «особей мужского рода» – единицей; это также номинальное измерение. Числа, которые мы присваиваем в номинальном измерении, обладают всеми свойствами любых других чисел. Мы моясем складывать их, вычитать, делить или просто сравнивать. Но, если процесс присвоения чисел предметам представлял собой номинальное измерение, то наши действия с величиной, порядком и прочими свойствами чисел не будут иметь никакого смысла
по отношению к самим предметам, поскольку мы не интересовались величиной, порядком и другими свойствами чисел, когда присваивали их. При номинальных измерениях используется исключительно та особенность чисел, что 1 отличается от 2 или 4. Если предмет А обозначается 1, а предмет В- 4, то Л и В различаются в отношении измеряемого свойства. Отсюда вовсе не следует, что в «В» содержится больше свойства, чем в «А».
А вот три остальные шкалы, с которыми мы будем иметь дело, используют следующие свойства чисел: числа можно упорядочивать по величине, их можно складывать и делить.
Порядковое измерение возможно тогда, когда возможно обнаружить в предметах различные степени признака или свойства. В этом случае используется свойство «упорядоченности» чисел, и числа приписываются предметам таким образом, что если число, присвоенное предмету А, больше числа, присвоенного В, то это значит, что в А содержится больше данного свойства, чем в В.
Допустим, мы получили данные ранжирования четырех менеджеров А, В, С и D по результатам тестирования их интеллекта по той или иной методике. Мы можем расположить их следующим образом: D, С, А, В. Порядковое измерение имеет место в том случае, когда мы присваиваем менеджерам Д С, А, В соответственно номера 1, 2, 3 и 4. Заметим, что номера 0, 23, 49 и 50 тоже подошли бы, поскольку расстояние между двумя соседними номерами не имеет значения. Мы не можем себе представить, что измеритель в состоянии распознать, например, будет ли различие между «количеством» интеллекта D и С больше или меньше разницы между интеллектами Си А. Поэтому не стоит придавать большого значения тому, что разница в оценках D и С такая лее, как и дистанция между С и А.
Посмотрим теперь, каким образом числа занимают места предметов. Числа – это частичные представители предметов; мы обращаемся к ним, когда важны как различия между ними, так и их порядок. При порядковых измерениях числа обеспечивают некоторую экономию при передаче информации. Вместо сообщения о том, что «D» признан наименее интеллектуально развитым, С — следующим за ним, А — вторым после самого интеллектуально развитого, а В – самым интеллектуально развитым», мы можем оформить следующую таблицу 2:
Таблица 2

Имя менеджера
Не существует закона, запрещающего кому-либо складывать, вычитать, умножать и производить другие операции над числами, которые присвоены предметам в ходе порядкового измерения. Однако результаты этих операций могут и ничего не говорить о количествах анализируемого свойства, которым обладают предметы, соответствующие этим числам. Результаты арифметических действий здесь нельзя интерпретировать таким образом, будто они говорят нам что-либо о количествах свойства, которым фактически обладают предметы. Вы можете делать с числами, которые вы получаете, все, что угодно, но вы всегда столкнетесь с вопросом: «Имеют ли какое-нибудь значение результаты этих операций?»
Интервальное измерение возможно, когда измеритель способен определить не только количества свойства в предметах (характеристика порядкового измерения), но также фиксировать равные различия между предметами. Для интервального измерения устанавливается единица измерения (градус, доллар, сантиметр, грамм и т.д.). Предмету присваивается число, равное количеству единиц измерения, которое эквивалентно количеству имеющегося свойства. Например, температура некоторого металлического бруска составляет 86″ по Цельсию. Важная особенность, отличающая интервальное измерение от измерения отношения (которое будет рассмотрено ниже), состоит в том, что оцениваемое свой-
ство предмета вовсе не пропадает, когда результат измерения равен нулю. Так, вода при О” С имеет все же некоторую температуру. Точка нуль на интервальной шкале произвольна. Числа, приписываемые в процессе интервального измерения, имеют свойства однозначности и упорядоченности. Кроме того, в данном случае существенна и разница между числами. Число, присвоенное предмету, представляет собой количество единиц измерения, которое он имеет. Исчисление лет – типичная интервальная шкала. Год первый был выбран произвольно как «год рождения» Христа. Единица измерения – период в 365 дней. Интервальное измерение — это такое присвоение чисел предметам, когда равные разности чисел соответствуют равным разностям значений измеряемого признака или свойства предметов.
Измерение отношений отличается от интервального только тем, что нулевая точка не произвольна, а указывает на полное отсутствие измеряемого свойства. Измеритель может заметить отсутствие свойства и имеет единицу измерения, позволяющую регистрировать различающиеся значения признака. Равные значения чисел, присвоенных при измерении, отражают равные предметы. Кроме того, раз нулевая точка не произвольна, а абсолютна, то не лишено смысла утверждение, что у объекта М в два, три или четыре раза больше свойства, чем у объекта N. Рост и вес являются примерами шкал измерения отношений. Нулевого роста вообще не существует, а мужчина ростом 183 см в два раза выше мальчика, имеющего рост 91,5 см. Шкала отношений называется так потому, что отношения чисел для нее существенны. Эти отношения можно интерпретировать как отношения значений свойств измеряемых объектов. Установление отношения применительно к точной интервальной шкале в терминах количества свойства в объектах не имеет смысла. Например, если 3 июня максимальная температура была 32° С, а 17 марта – 8° С, то неправильно говорить, что 3 июня была температура в четыре раза выше, чем 17 марта.
В системной аналитике, кадровом менеджменте большинство измерений относится к номинальному, порядковому и интервальному уровням (например, предвыборные рейтинги кандидатов). Лишь наименее важные переменные в этих областях допускают пока измерение отношений: в действительности шкалы, удовлетворяющие условиям интервальной шкалы, молено найти с трудом. Иногда переменные шкалы отношений, такие как время (решения задачи или заучивания списка слов), рост, вес или расстояние, могут представлять интерес, но это бывает нечасто (например, в страховом деле).
7.2. Предмет социальной статистики
Понятие и термин статистика происходит от латинского слова «статус», которое в переводе означает положение, состояние явлений. В настоящее время этот термин употребляется в различных значениях, а именно:
1. Под статистикой понимают итоговые показатели, характеризующие различные стороны общественной жизни, население, стратификацию общества, производство, распределение, обмен, потребление и т.д.
2. Статистикой называют практическую деятельность по сбору и обобщению соответствующих данных.
3. И, наконец, статистикой называют общественную науку, занимающуюся разработкой методологии сбора и теоретического обобщения цифровых данных об обществе.
Вся статистика, поскольку она изучает общество, может быть названа социальной в широком смысле слова. В процессе ее развития выделилась экономическая статистика и статистика в узком смысле слова, изучающая явления политики, культуры, демографии. Этой статистике в узком смысле слова и будет посвящена эта часть книги. Собственно, в социальной статистике властвуют вероятностные законы. В ней приходится иметь дело с большими числовыми массивами. И, переходя от измерительного акта к статистическому обобщению, мы восходим от индивидуальных показателей к обобщенным.
Без знания фундаментальных законов статистики это таинство возникновения обобщенных показателей вызывает затруднения у исследователя. Выделяются две главные функции статистики.
Статистика является инструментом упорядочивания огромных массивов собранной информации. Американцы, мастера образных выражений, используют термин «boiling down», т.е. «выпаривание информационного массива». Описательная статистика особенно важна в ситуациях, когда необходимо установить взаимосвязь между более чем двумя переменными. Огромное количество «сырых» данных с помощью методов описательной статистики может быть сведено к нескольким показателям, которые характеризуют всю совокупность опрошенных людей или учтенных материальных объектов. В зависимости от задачи это могут быть мода, медиана, средняя, коэффициент корреляции и т.д. Индуктивная статистика используется для формулирования общих законов по данным наблюдений повторяющихся закономерностей. Логические выводы на основе обработки статистических данных также относятся к индуктивной функции статистики. К категориям или наиболее общим понятиям статистики относятся:
• статистическая совокупность;
• закон больших чисел;
• обобщающий показатель.
Рассмотрим каждое из этих понятий по отдельности, потому что именно с ними чаще всего приходится сталкиваться системным аналитикам в их практической деятельности.
Массовые общественные явления выступают в форме особых групп явлений и процессов, называемых статистическими совокупностями, поскольку они объединяются на основании наличия некоторых общих признаков или свойств. Статистическая совокупность состоит из отдельных элементов, явлений или единиц – первичных неделимых элементов изучаемого процесса. Например, в совокупности экспертов финансового рынка единицей выступает эксперт. Признаки бывают атрибутивные (описательные), порядковые и количественные. Соответственно измеряемым признакам подбираются шкалы измерений. Признак также может быть факторным и результативным. Факторный признак обладает влиянием на признак результативный.
Число, показывающее, как часто встречается данное значение признака в совокупности, называется частотой. Частота, отнесенная к общему объему совокупности, называется «частостью» или объемом признака.
Закон больших чисел – весьма широкий принцип взаимопогашения (уравновешивания) случайных отклонений. Действие закона состоит в том, что на достаточно большой совокупности проявляются внутренние закономерные связи явлений. Это особенно валено для аналитиков, которые работают в компаниях, управляющих пифами, в больших финансовых корпорациях и т.д. О глубоком содержании и большой практической ценности закона больших чисел хорошо говорится в книге Б.В. ГНВДЕНКО и А.Я. ХИНЧИНА:
Глубокое содержание закона больших чисел, открытого в середине прошлого столетия великим русским математиком ЧЕБЫШЁВЫМ, СОСТОИТ В ТОМ, ЧТО, В ТО время как отдельная случайная величина может (как мы знаем) часто принимать значения, далекие от ее среднего значения (иметь значительное рассеяние), среднее арифметическое большого числа случайных величин ведет себя в этом отношении совершенно иначе: такая величина очень мало рассеяна, с подавляющей вероятностью она принимает лишь значения, очень близкие к ее среднему значению. Происходит это, конечно, потому что при взятии среднего арифметического случайные отклонения в ту и другую сторону взаимно уничтожаются, вследствие чего суммарное отклонение в большинстве случаев оказывается малым.
Важное и часто встречающееся в практике использование результатов теоремы Чебышѐва состоит в том, что по сравнительно небольшой пробе (выборке) судят о качестве большого количества однородного материала. Так, например, о качестве хлопка, находящегося в кипе, судят по нескольким его пучочкам (штапелям), выхваченным случайно из разных мест кипы. Или о качестве большой партии зерна судят по нескольким небольшим меркам, наполненным случайно захваченными в мерку зернами из разных мест оцениваемой партии. Суждения о качестве продукции, сделанные на основании такой выборки, обладают большой точностью. Число зерен, захваченных в мерку, хотя и мало по сравнению со всей партией зерна, но само по себе велико и позволяет, согласно закону больших чисел, достаточно точно судить о среднем весе одного зерна и, значит, о качестве всей партии зерна. Точно так же о двадцатипудовой кипе хлопка судят по маленькому штапелю, содержащему несколько сотен волокон, весящих всего-навсего какую-нибудь десятую долю грамма (ГЕДЕНКО Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей -М.: Изд-во физико-математической литературы, 1961).
Из приведенных слов следует, что современному практическому аналитику, имеющему возможность молниеносной обработки больших массивов чисел с помощью быстродействующих компьютеров, все же необходимо понимать значение закона больших чисел. В период многократных изменений котировок ценных бумаг на фондовой бирже аналитик должен уметь на основании правильно сделанных выборок давать мгновенные рекомендации дилерам и биржевым брокерам, от решения которых зависят миллионные убытки или прибыли клиентов.
Эти две категории, статистическая совокупность и закон больших чисел, находят числовое выражение в важнейшем инструменте статистики – т.н. обобщающем показателе социальной статистики.
Обобщающий показатель социальной статистики -число, характеризующее одну из особенностей совокупности социальных и экономических явлений. Социальный показатель здесь понимается в широком смысле слова, т.е. включает все факторы общественной жизни, в том числе и экономику.
В качестве примеров назовем среднюю продолжительность жизни, уровень образования, численность учащихся в области. Обобщающие показатели составляются из индивидуальных. Так, численность обучающихся в одном отдельно взятом вузе (например, в Высшей школе экономики) является единицей статистической совокупности и кирпичиком для подготовки обобщающих показателей. Важнейшая черта обобщающего показателя – его устойчивость по отношению к случайным факторам, которым подвержены индивидуальные показатели.
Так несмотря на то, что смерть отдельного наугад взятого человека является непредсказуемым явлением и итоговый возраст является случайной величиной, средняя продолжительность жизни в масштабах одной страны из года в год меняется мало.
Обобщающие социальные показатели могут быть разделены на две большие группы: экстенсивные (объемные) и интенсивные показатели. Экстенсивные социальные показатели характеризуют объем, массу социально-экономических и политических явлений. Они получаются как итог непосредственного подсчета или суммирования статистических данных. К ним относятся: число научных учреждений и численность научных работников, численность избирателей, отдающих голоса той или иной партии и т.д. Экстенсивные показатели представляют собой абсолютные величины. Они всегда именованы, т.е. имеют какую-либо единицу измерения. Книжная продукция измеряется числом выпущенных книг, преступность – числом преступлений и т.д. Экстенсивные статистические показатели могут быть выражены с различной степенью точности в зависимости от размеров совокупности. Если число жителей крупного города показывать с точностью до одного человека, то результат на первый взгляд покажется убедительным, каким всегда выглядит число без нулей, а на самом деле как минимум три последние цифры окажутся недостоверными.
Интенсивные показатели образуются через отношения. Иными словами, они являются производными от показателей первого вида. Интенсивные показатели являются важнейшим инструментом сравнительного анализа в социально-экономической статистике. Например, показатель в медицинской статистике – число больничных коек на 1000 человек населения – образован из двух экстенсивных: общего числа коек и общего числа населения. С помощью подобных показателей можно сравнить уровень медицинского обслуживания, уровень жизни, доходы различных слоев населения в больших и малых странах.
Аналитику важно уметь оперировать относительными интенсивными показателями. Эти показатели часто используются при анализе динамики экономического развития. Показатели какого-то года принимают, как говорят, за базовые, а показатели всех последующих лет относят к этой величине. Правильно выстроенные показатели раскрывают статистические закономерности. Значение, важность и даже сверхъестественная сила обобщающих показателей была усвоена еще древними. Широкому внедрению методов анализа данных в 60-70-е годы немало способствовало появление компьютеров, а начиная с 80-х годов – персональных компьютеров. Статистические программные пакеты сделали методы анализа данных более доступными и наглядными: теперь уже не требовалось вручную выполнять трудоемкие расчеты по сложным формулам, строить таблицы и графики – всю эту черновую работу взял на себя компьютер, а человеку осталась главным образом творческая работа: постановка задач, выбор методов их решения и интерпретация результатов.
Результатом появления мощных и удобных пакетов для анализа данных на персональных компьютерах стало резкое расширение и изменение круга потребителей методов анализа данных. Если раньше эти методы рассматривались главным образом как инструмент научных исследований, то, начиная с середины 80-х годов, основными покупателями статистических пакетов (которые продаются в сотнях тысяч копий ежегодно) стали уже не научные, а коммерческие организации, а также государственные и иные учреждения. Таким образом, методы анализа данных и статистические пакеты для компьютеров стали в развитых странах типичным и общеупотребительным инструментом плановых, аналитических, маркетинговых отделов производственных и торговых корпораций, банков и страховых компаний, правительственных, медицинских, образовательных, проектных и иных учреждений. И даже представители мелкого бизнеса часто употребляют методы анализа данных либо самостоятельно, либо обращаясь к услугам консультационных компаний.
Приведем несколько примеров применения компьютерных методов статистического анализа данных в практических задачах.
1. Предположим, что Вы ввели важное нововведение: изменили систему оплаты труда, перешли на вы пуск новой продукции, использовали новую технологию и т.п. Вам кажется, что это дало положительный эффект, но действительно ли это так? А может быть, этот кажущийся эффект определен вовсе не вашим нововведением, а естественной случайностью, и уже завтра Вы полу чите прямо противоположный, столь же случайный эффект? Для решения этой задачи надо сформировать два набора чисел, каждый из которых содержит значения интересующего Вас показателя эффективности (до и по сленововведения). Статистические критерии сравнения двух выборок покажут Вам, случайны или неслучайны различия этих двух рядов чисел.
2. Другая важная задача – прогнозирование будущего поведения некоторого временного ряда: изменения курса доллара, цен и спроса на продукцию или сырье и т.д. Для такого временного ряда с помощью статистического пакета программ подбирают некоторое аналитическое уравнение – строят регрессионную прямую. Если мы предполагаем, что на интересующий нас показатель влияют некоторые другие факторы, их тоже можно включить в модель, предварительно (с помощью того же статистического пакета) проверив существенность (значимость) этого влияния. Затем на основе построенной модели можно сделать прогноз и указать его точность.
3. Во многих технологических процессах необходимо систематически контролировать состояние процесса, чтобы вовремя вмешаться при его отклонениях от нормального режима и предотвратить тем самым потери от выпуска некачественной продукции. Для этого используются статистические методы контроля качества, повсеместное и неукоснительное применение которых во многом определило поразительные успехи японской промышленности. Здесь мы наблюдаем замечательный пример внедрения статистических методов в широкую практику. Японскими специалистами были отобраны наиболее простые правила для оценивания динамики изменения качества продукции и его наглядного представления. Эти правила выражены самыми простейшими словами, и японские рабочие выучивают их наизусть как молитву, после чего каждый простой рабочий знает, при каких обстоятельствах производственный процесс в порядке, когда надо быть настороже, а когда срочно вызывать бригаду наладчиков.
4. Еще одна интересная и часто встречающаяся за дача связана с классификацией объектов. Пусть, напри мер, Вы являетесь начальником кредитного отдела бан ка. Столкнувшись с невозвратом кредитов, Вы решаете впредь выдавать кредиты лишь фирмам, которые «схожи» с теми, которые себя хорошо зарекомендовали, и не выдавать тем, которые «схожи» с неплательщиками или мошенниками. Для классификации фирм можно собрать показатели их деятельности (например, размер основных фондов, валюту баланса, вид деятельности, объем реализации и т.д.) и провести кластерный анализ (в более сложных случаях – многомерное шкалирование) этих данных. Во многих случаях имеющиеся объекты удастся сгруппировать в несколько групп (кластеров), и Вы сможете увидеть, не принадлежит ли запрашивающая кредит фирма к группе неплательщиков.
5. Аналогичный пример: пусть у Вас имеются данные о различных сортах пива, каждый из которых характеризуется множеством переменных: цвет, содержание алкоголя, других веществ, калорийность и т.п. Вы хотите закупать и продавать наиболее дешевое пиво, но близкое по совокупности свойств к очень престижному и дорогому сорту. С помощью тех же методов Вы сможете решить и эту задачу.
Методы статистического анализа являются универсальными и могут применяться в самых разных областях человеческой деятельности. Скажем, предсказание курса доллара и прогноз спроса на автомобили делаются с помощью одних и тех же процедур. Поэтому требования неискушенных пользователей, чтобы им предоставили инструмент для анализа данных именно в банковском деле или именно в медицине, редко бывают обоснованными. Такой инструмент мог бы быть создан, если бы решаемые этими пользователями задачи были исключительно специфичны и не встречались ни в какой другой области. Как правило, это не так, и все нужные этим пользователям задачи могут быть решены с помощью универсальных пакетов компьютерных программ (подобно тому, как практически для всех пользователей нужные им средства подготовки документов обеспечиваются универсальными редакторами документов типа Word).
Разумеется, нет правил без исключений. Например, в программе Word трудно на надлежащем уровне подготавливать документы с большим количеством формул, проводить верстку книг, невозможно печатать ноты, поэтому в таких случаях используются специальные средства. Точно так же существуют и области человеческой деятельности, для которых требуются специфические статистические программы. Однако таких областей очень мало. По-видимому, наиболее важная из них -страховые (актуарные) расчеты, используемые страховыми компаниями.
Чтобы решить, какие методы анализа надо применить к имеющимся данным и насколько удовлетворительны полученные результаты статистических процедур, нужно иметь возможность наглядно представлять себе эти данные и результаты. Поэтому практически все статистические пакеты обеспечивают широкий набор средств визуализации данных: построение графиков, двух- и трехмерных диаграмм, а часто и различные средства деловой графики. Это помогает системным аналитикам лучше представить обрабатываемые данные, получить общее представление об их особенностях и закономерностях. Результаты применения статистических процедур, как правило, представляются в наглядном графическом виде.
Хотя статистические пакеты для персональных компьютеров резко упростили применение методов статистического анализа данных, все же для осмысленного их употребления пользователи должны обладать определенной подготовкой: понимать, в каких ситуациях применимы различные статистические методы, знать, каковы их свойства, уметь интерпретировать результаты.
Российским аналитикам рекомендуется использовать по возможности отечественные, а не зарубежные статистические пакеты – они, как правило, гораздо проще в использовании, снабжены понятной документацией и средствами интерпретации результатов. Особенно стоит порекомендовать пакеты STADIA (универсальный статистический пакет), ЭВРИСТА (специализированный пакет для анализа временных рядов и регрессионного анализа) и SPSS. В статистических пакетах целесообразно тщательно изучать прилагаемую документацию, поскольку в ней подробно описаны средства анализа данных, в том числе и самых мощных многомерных методов.
К сожалению, ни одна, даже самая лучшая компьютерная программа не убережет аналитического исследователя от досадных ошибок, если тот не владеет культурой обращения с числовыми данными. И, наоборот, при использовании программ беспомощность анализа проявляется еще более наглядно. В результате на телеэкране появляются забавляющие всех рекламные ролики, например, о том, что ресницы под действием косметики удлиняются на 72%, закручиваются на 72%, и морщины разглаживаются на те же самые 72%. Исследователь, особенно молодой, должен обладать определенным иммунитетом к навязываемым ему со стороны СМИ и «квазинаучных» публикаций бредовым числовым данным, а также иметь определенный самоконтроль при подготовке собственных результатов.
Принято считать, что существует семь видов ошибочных представлений в интерпретации числовых величин. Цена этих ошибок – утрата доверия к вашему исследованию со стороны заказчика, коллег, широкой общественности. Рассмотрим здесь эти виды:
1. Типичные арифметические ошибки. Причиной арифметических ошибок являются спешка, самонадеянность, невнимательность исследователя. Осенью 2007 г. авторитетный ведущий одного из центральных ТВ-каналов Сергей Б. решил наглядно продемонстрировать драматическую ситуацию, связанную со стремительным ростом цен на продовольствие в России. Держа в руках внушительный круг сыра, он зачитал телеграмму из Липецкой области о том, что сыры там подорожали на 25%. Далее, он схватил нож и отрезал – в соответствии с телеграммой — от круга четвертинку. Со словами: «Теперь трудящийся Липецка на свой рубль может позволить себе лишь % от прежнего количества сыра», он передал кусочек ассистентке, и четвертинка исчезла за кулисами. Потом он проделал то же самое с буханкой хлеба. И опять в его комментариях присутствовала непозволительная, протиражированная на всю страну ошибка. Какая же именно? Так ведь очевидно, что при данном подорожании липец кий трудящийся может себе позволить 1/1,25=0,8 преж него количества, что будет побольше, чем 3А. Все еще сомневающиеся в неправоте Сергея Б. могут рассмотреть ситуацию, когда сыр подорожает на 100%, и тогда, по логике ведущего, ассистентка унесет за кулисы весь сыр, а липецкий трудящийся останется вообще ни с чем.
2. Ошибка в представлении процентных соотношений. Эти ошибки весьма распространены и проистек ют в основном из-за нежелания сопоставлять проценты с реальными величинами. Первый пример возьмем из выступления мэра американского городка: «Следует повысить стоимость мужских причесок в парикмахерских на треть, так как за последние 2 года зарплата парикмахеров возросла на 10%, инструменты и расходные материалы подорожали на 8%, аренда помещения по дорожала на 10%, электричество – на 5%. Итого общий рост расходов – на 33%». Здесь налицо типичная ошибка суммирования процентов. Ведь даже если каждый из компонентов подорожает на 10%, то и общий рост всей услуги тоже будет составлять лишь 10%.
Из выступлений на пресс-конференции по аграрной тематике (второй пример): «Яблоки подешевели на 100%», «Из-за неблагоприятных погодных условий урожай оказался на 120% меньше прошлогоднего». Действительно, при вычитании процентов нелепости встречаются «на каждом шагу». На самом деле авторы высказываний имели в виду, что яблоки подешевели вдвое, а урожай составил 45% от прошлогоднего. А получилось, что яблоки дают бесплатно.
Из материалов социологического опроса (третий пример): «Джон зарабатывает на 1000% больше, чем Ян, т.е. В 10 раз больше!». Этот случай – пример неудачного обращения с большими процентами. Почему-то тысячи процентов действуют на неопытных авторов совершенно гипнотическим образом. Мы же, немного подумав, легко сообразим, что на самом деле Джон зарабатывает не в 10, а в 11 раз больше.
Четвертый пример из диссертации: «При испытании лекарства «Фузимин» 83,3% пациентов испытали его благотворное действие в течение 60 секунд». Здесь – типичная проблема использования процента в сочетании с реальными величинами. Из последующего текста становится ясно, что в испытаниях участвовали 6 пациентов, из которых пятерым лекарство действительно помогло. Согласимся, что десятые доли процента при анализе реакции 6 добровольцев выглядят нелепо.
3. Ложная точность. Этот, далеко не безобидный порок связан с желанием исследователя придать своим результатам наиболее наукообразную и солидную форму. Рассмотрим, например, фразу: «Из числа населения Земли по-венгерски говорят 8001112 человек» (Мировой альманах. – Юнеско, 1950). Казалось бы, подсчет большой группы людей с точностью до одного человека должен внушать уважение. Однако за то время, что этот альманах лежал в типографии, наверняка еще не один десяток венгерских малышей научился лепетать какие-то фразы, что сделало бессмысленным приведенное число. Числа, претендующие на исключительную точность, должны быть прокомментированы и обоснованы.
4. Искаженное графическое представление. Здесь, главным образом, речь идет о графиках, на которых часто встречается представление кривых, искусственно «растянутых» по вертикальной оси. Без соответствующих комментариев такое представление может только дезориентировать.
5. Неполнота данных. Спешка или умысел нередко заставляют делать выводы на основе неполных данных. Например, на основании неполных данных было вынесено следующее суждение: «Статистика показывает, что риск погибнуть для водителей малолитражных автомобилей в 5,5 раз выше, чем для пассажиров лимузинов» 49. Дополнительное исследование вопроса позволяет установить недостающие данные – маленькие автомобили попадают в аварию в 5,5 раз реже, так что общий риск одинаков.’
6. Ошибки в выборках. В силу дороговизны выборочных обследований ошибки выборок часто становятся весьма широко известными. Эти случаи надолго «поселяются» в учебниках статистики в качестве отрицательных примеров. В 1954 г. В США было проведено обширное, дорогостоящее исследование связи курения со смертностью от рака легких 50. На предмет пристрастия к этому пороку были опрошены 187766 мужчин, и через 20 ме сяцев были – путем повторного опроса этой же большой группы – выявлены причины смертности в опрошенной группе. Результаты сведены в таблицу 3.
Таблица 3
Казалось бы, из таблицы следует бесспорный вывод о заметной связи курения с заболеванием. Однако данные оказались ненадежными. Прежде всего, выборка сделана неправильно. На это указывает то, что общая смертность в данной группе оказалась много меньше, чем смертность в целом по США. Это означает, что в опросе не участвовали больные и малоподвижные люди. Кроме того, доля курящих в опрошенной группе была заметно меньше, чем в среднем по США. Следовательно, многие курящие уклонились от опроса или дали о себе неверные сведения. Вывод: выборка даже очень большой численности может быть, как говорят, смещенной. И по ней нельзя судить о населении в целом. В последующих разделах мы узнаем, что такое генеральная выборка, зачем эти выборки делаются, как их надо делать правильно.
7. Ошибочные сопоставления. Увы, в исследованиях часто сравнивают несопоставимые ситуации. За время Американо-Испанской войны 1898 г. (боевые действия велись на море) смертность в ВМФ США составила 9 человек на каждую тысячу. За этот же период времени смертность в Нью-Йорке составила 16 человек на каждую тысячу. Можно ли утверждать, что воевать с Испанией оказалось безопасней, чем жить в Нью-Йорке (Эта хрестоматийная ошибка впервые упомянута в замечательной книге HUFF D. How to he with statistics. – 1962)? Здесь ошибкой является попытка сравнить на первый взгляд сходные совокупности, которые на деле такими не являются. Действительно, во флоте служат крепкие молодые ребята, а типичная выборка по любому большому городу включает пожилых, младенцев, хронических больных и инвалидов. Эти подгруппы и дают наибольший вклад в общую смертность в Нью-Йорке.
Приведенные здесь примеры взяты из самых различных областей жизни. Их задача не только показать, что статистические методы исследования применимы в различных сферах жизнедеятельности, но и проиллюстрировать, что в любых, даже несопоставимо более сложных задачах, статистические методы не являются автоматически безупречными. Ясного понимания требуют вопросы, какие типовые ошибки связаны с их использованием и чего нужно избегать при анализе сложных социально-экономических и общественно-политических систем.
В следующем параграфе мы рассмотрим основные понятия теории вероятностей, на которой базируются все статистические методы. Однако аналитики, изучавшие теорию вероятностей в ходе своего профессионального образования, могут пропустить этот параграф, так как он основан на предельно простых иллюстрациях. Излагаемый в нем понятийный аппарат необходим лишь для тех, кто совершенно незнаком с этой теорией.
