Часть III Сбор и обработка данных. Статистика и методы моделирования в системно-аналитических исследованиях

Глава 7 Методы измерений социальных явлений как инструмент системно-аналитических исследований

7.5. От дискретных к непрерывным случайным величинам

В социологическом, маркетинговом анализе, в любом аналитическом исследовании приходится иметь дело с совокупностью, включающей много единиц. С формальной точки зрения такой анализ представляет собой массовые испытания. Формула Бернулли (ЯКОБ БЕРНУЛЛИ (1654-1705) – швейцарский математик) как раз и «перебрасывает мостик» от испытаний единичных к испытаниям массовым, статистическим. Поэтому она так популярна в среде аналитиков.

Первоначально основным применением формулы было обслуживание запросов азартных игроков в кости. Формула отвечала на «алчные» вопросы типа: «Если монета подбрасывается 20 раз, то какова вероятность выпадения 15 «орлов»?» Сегодня формула Бернулли обслуживает научные интересы в разных областях и описывает вероятность того, что в п испытаниях интересующий нас результат будет достигнут т раз:

где С.-=- т\(п -т)\

Здесь р – вероятность появления интересующего нас события в единичном испытании, q – вероятность противоположного события в единичном испытании, С^ – число сочетаний из п элементов по т. Напомним, что факториал (обозначен восклицательным знаком) представляет собой последовательное произведение соответствующего последовательного ряда натуральных чисел. Например, 6!=1-2-3-4-5-6=720. По определению 0!=1. Напомним также, что при небольшом числе испытаний число сочетаний можно определить и без вычислений.

Определим число сочетаний из 4 элементов – а, Ъ, с, d – по два элемента. Вот они, эти сочетания: ab, be, ас, bd, ad, cd. Как видим, их шесть. Таким образом, в данном случае имеются всего 6 возможностей для организации пар элементов. Таким образом, С^=6. В более сложных случаях все-таки придется проводить вычисления по приведенной выше формуле для С^.

Рассмотрим следующую классическую задачу, на примере которой принято разъяснять практическую значимость формулы Бернулли. Необходимо найти вероятность того, что в родильном доме в случайной группе из 20 новорожденных:

A. Окажется 10 мальчиков. Б. Окажется 9 мальчиков.

B. Окажется 8 мальчиков и т.д.

Решение этой задачи следующее. Для упрощения можно считать, что, в среднем, шансы рождения ребенка того или иного пола одинаковы. Поэтому вероятность обнаружения мальчика в единичном испытании положим равной р=0,5. Соответственно, вероятность противоположного события q=0,5. Из условий задачи прямо следует, что п=20. Величина т зависит от того, сколько мальчиков нас интересует в каждом конкретном случае. Так, при т=10 из формулы Бернулли следует:

Р2О(1О)=С2о*(О,5)1О*(О,5)1О=О,18

Расчеты для других значений т дают следующие результаты:

Р20(6)=0,04

Р20(5)=0,015

Р20(4)=0,005

Результаты молено представить в виде следующего графика (рис. 13).

0,20 -.

0,15 .

0,10 .

0,05 .

0,00

1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19

Событие: число мальчиков, обнаруженных в группе из 20 новорожденных

Рис. 13. Столбиковая диаграмма, показывающая вероятность обнаружения того или иного числа мальчиков в группе из 20 новорожденных

Получившийся набор столбиков (или, строго говоря, совокупность значений Рп(т)) называют биномиальным распределением вероятностей. Также говорят, что формула Бернулли «генерирует» биномиальное распределение при изменении числа т (ТАРАСОВ Л. В. Закономерности окружающего мира: в 3 кн. – М.: ФИЗМАТЛИТ 2004.-Кн. 1). Обратим внимание: сумма вероятностей 7 «центральных событий» составляет 0,88. Это означает, что вероятность в группе из 20 младенцев обнаружить мальчиков (или девочек) в количестве, выходящем за пределы 10±3, весьма мала. Кроме того, как можно видеть, при р=д=0,5 решение имеет симметричный характер, а биномиальное распределение (если судить по длинам столбиков) имеет красивую колоколообразную форму.

Примером «несимметричного исхода» может служить следующая задача, встречающаяся при обслуживании массового производства. Вероятность брака при изготовлении детали на автоматизированном станке составляет 0,2. Требуется определить вероятности возможного числа появления бракованных деталей среди 5 случайно отобранных. Здесь «несимметрия» ответа обеспечивается тем, что р=0,2, а д=0,8.

Если вероятность появления в единичном испытании интересующего нас события очень мала (т.е. р*1), то при больших п биномиальное распределение переходит в распределение Пуассона (СИМЕОН ДЕКИ ПУАССОН (1781-1840) – выдающийся французский математик и физик)

где е=2,71828 …. Это т.н. основание натуральных ло гарифмов, трансцендентное число, введенное в обо рот в 1736 г. Л. ЭЙЛЕРОМ (ЛЕОНАРД ЭЙЛЕР (1707-1783) – швейцарский математик).

Это распределение также называют законом редких явлений. Полезно заметить, что дисперсия случайной величины, распределенной «по Пуассону», равна квадрату ее среднего значения.

Используя формулу Пуассона, займемся практической задачей страхового бизнеса. Рассмотрим страхование от пожара на дачных участках. Предположим, что, изучив статистические данные, мы оценили вероятность р того, что дачный домик в данной дачной местности сгорит в течение года. Это определяется целым рядом причин — общим состоянием электросети, характером растительности и почв, характерными для данного региона погодными условиями, криминогенной обстановкой и т.д. И вот теперь мы хотели бы выяснить, при каких условиях страхование домиков от пожара могло бы стать выгодным бизнесом. Понятно, что желательно, чтобы удалось застраховать побольше домиков и чтобы процент страховки был побольше. Однако при повышении процента страховки неизбежно снижение числа желающих застраховаться.

Предположим, что мы назначили плату за страховку домика в размере 1% от суммы, на которую домик застрахован, и что при этом удалось застраховать п=1000 домиков. Пусть W – сумма, на которую застрахован на год каждый домик, и значит – размер годовой страховки составляет 0,01 W. Это означает, что мы собрали деньги в сумме 0,01Wn=l0W. Мы рассчитываем, что в течение года нам придется выплатить клиентам не более 3/5 данной суммы, т.е. не более 6W. Иначе говоря, мы рассчитываем, что из застрахованных тысячи домиков сгорят в течение года не более шести. Вероятность Р того, что в течение года сгорят не более шести домиков из тысячи, есть:

Р= Р{0)+Р(1)+Р{2)+Р(3)+Р(Л)+Р(5)+Р(6),

где Р(0) – вероятность того, что из тысячи домиков сгорит 0 домиков, и т.д. Каждое слагаемое Р(т) подсчитывается по формуле Пуассона, причем, в качестве «успеха» здесь рассматривается факт сгорания домика. Допустим, что вероятность такого «успеха» р=0,01 и, следовательно, пр = 10. В этом случае искомая вероятность Р равна сумме:

Р= 0,0000+0,005+0,0023+0,0076+ +0,0189+0,0378+0,0631 = 0,1302.

Вероятность оказалась равной всего лишь 0,13. Эта величина указывает на то, что мы занялись явно невыгодным бизнесом.

А теперь предположим, что вероятность пожара на даче р=0,002 и, следовательно, пр = 2. В этом случае искомая вероятность Р равна сумме

Р= 0,1353+0,2707+0,2707+0,1804+ +0,0902+0,0361+ 0,0120 = 0,9954.

Вот теперь наш страховой бизнес оказывается явно выгодным. Закон редких событий практически гарантирует (с вероятностью 0,9954), что не менее 2/5 суммы, вырученной при страховании, получит наша страховая фирма.

Вернемся к рассмотрению биномиального распределения при «разумных» значениях р, принимающих значения в пределах от 0 до 1. В симметричных задачах «колокол» с характерным изгибом также характеризует и основополагающее в статистической науке т.н. Гауссово (КАРЛ-ФРИДРИХ ГАУСС (1777-1855) – знаменитый немецкий математик) (нормальное) распределение. Это неудивительно, потому что с ростом числа испытаний п биномиальное распределение как раз и переходит в распределение Гауссово. Однако вычисления по формуле Бернулли для более 50 испытаний уже представляют существенную техническую проблему, расчеты становятся невыносимо громоздкими.

Например, практически невозможно, пользуясь формулой Бернулли, решить следующую задачу из области кадрового менеджмента. На фирме работают 1825 сотрудников. Какова вероятность того, что 1 сентября является днем рождения одновременно четырех (пяти, шести…) сотрудников? Приходится искать другие пути решения. Начиная с XVIII в. математики пытались решить проблему вероятности успеха в массовых испытаниях. Решение было найдено с введением в научный обиход понятия «непрерывной случайной величины».

Мы уже отмечали, что случайные величины могут носить как дискретный, так и непрерывный характер. Были рассмотрены основные законы распределения дискретных случайных величин, которые часто используются в прикладном статистическом анализе. Теперь перейдем к описанию непрерывных случайных величин и их законов распределения. Дискретная случайная величина является прерывной, т.е. все ее возможные значения отделены друг от друга конечными интервалами и могут быть заранее перечислены. Дискретная случайная величина в вероятностном смысле будет полностью определена, если задан ее ряд распределения.

С непрерывной случайной величиной так не получится. Возможные значения непрерывной случайной величины непрерывно заполняют некоторый промежуток и не могут быть заранее перечислены. Примерами непрерывных случайных величин могут служить сроки службы различных товаров: электрических лампочек, батареек, автомобильных покрышек, электроприборов и т.п. Так, срок службы каждого из перечисленных товаров может измеряться промежутком времени от нуля до некоторой конечной верхней границы. В общем случае непрерывные случайные величины могут характеризовать результаты измерений: длительности процесса, веса, длины, площади, высоты, напряжения в электросети и т.д. Теоретически (предполагается, что возможна любая точность измерений) результат измерения может быть выражен любым действительным числом, взятым из некоторого промежутка.

Для нас очень важно то обстоятельство, что свойствами непрерывной случайной величины обладают и данные, полученные в результате массовых испытаний. Так, если в предыдущем примере с младенцами при испытании на относительно небольшом числе (20 единицах) наиболее вероятная величина (10 мальчиков) выпадает хоть и с небольшой, но все-таки с конечной вероятностью, то при испытании на 2 млн. младенцев вероятность обнаружить в этой группе именно 1 млн. мальчиков – исчезающе мала. А между тем при изучении демографических проблем системному аналитику приходится сталкиваться именно с такими величинами.

Для непрерывной случайной величины записать таблицу ряда распределения невозможно, так как она должна включать все ее значения, а непрерывная случайная величина имеет бесконечное множество значений, которые нельзяи перечислить. Поэтому для характеристики распределения вероятностей непрерывной случайной величины удобно пользоваться вероятностью события Х<х, где х – некоторая текущая переменная. Очевидно, вероятность того, что Х<х, зависит от текущей переменной х и является некоторой функцией от х. Эта функция называется функцией распределения случайной величины х и обозначается F(x): F(x) = P(X<x).

Функция распределения F(x) называется также интегральной функцией распределения или интегральным законом распределения. Функция распределения может существовать как для непрерывных, так и для дискретных случайных величин. С вероятностной точки зрения функция распределения полностью характеризует случайную величину, т.е. является одной из форм закона распределения. Для непрерывной случайной величины функция распределения представляет собой функцию, непрерывную и дифференцируемую во всех точках. Ее график является плавной кривой, имеющей касательную в любой точке. Ее значения лежат в интервале от 0 до 1.

На практике часто возникают ситуации, когда требуется определить вероятность того, что случайная величина принимает значения, находящиеся в некотором промежутке, например от а до р. Другими словами, требуется определить вероятность события а<х<р. Было отмечено, что F(x) имеет производную в любой точке х. По определению производной:

F(x+Ax)-F(x)

Ах

Введем обозначение

Функция Дх) характеризует плотность 60, с которой распределяются значения вероятности случайной величины в данной точке. Она называется плотностью распределения непрерывной случайной величины X. Ее также называют дифференциальной функцией распределения. График кривой, изображающей плотность распределения, называется кривой распределения. Приближением кривой распределения является сглаженный полигон, рассматриваемый ранее как кривая частотного распределения данных.

Плотность распределения является одной из форм закона распределения. Однако она не является универсальной и существует только для непрерывных случайных величин. Очень важно учитывать, что площадь, ограниченная кривой распределения и осью абсцисс, равна единице.

Количественные характеристики непрерывной случайной величины выражаются в виде интегралов 6Х.

60. Плотность вероятности, плотность распределения вероятностей (distribution density) – характеристика ряда распределения, показывающая, сколько единиц совокупности приходится на единицу интервала.

В практических задачах иногда встречаются непрерывные случайные величины, распределенные по закону равномерной плотности. Такие величины еще называются равномерно распределенными. Для равномерно распределенной случайной величины имеются определенные границы, внутри которых все значения равновероятны, т.е. плотность распределения является постоянной величиной на всем промежутке изменения случайной величины.

Исключительно важную роль играет в статистическом анализе Гауссов (нормальный) закон распределения. Сумма достаточно большого числа независимых (или слабо зависимых) случайных величин распределена почти по нормальному закону, причем слагаемые случайные величины могут подчиняться каким угодно законам распределения. Это свойство широко реализуется на практике, так как большинство массовых явлений формируется как наложение многих отдельных факторов (причин). Распределение мужчин определенной возрастной категории, распределение дальности полета снаряда при последовательных выстрелах одной и той же пушки, разброс размеров деталей при массовом производстве — вот лишь немногие примеры проявления закона Гауссового (нормального) распределения. Рассмотрим этот закон более подробно.

В XVII в. группа европейских математиков проводила небольшие частные исследования, которые впоследствии оформились в теорию вероятностей. Эти исследования, проведенные, в частности, БЛЕЗОМ ПАСКАЛЕМ (1623-1662) и ПЬЕРОМ ФЕРМА (1601-1665), выполнялись по просьбе ШЕВАЛЬЕ ДЕ МЕРЕ, азартного игрока, которому было особенно важно понять природу удачи. Одним из наиболее значительных событий в ранней истории теории вероятностей была публикация в 1713 г. знаменитой формулы Вернулли (которую мы рассматривали в предыдущем разделе). Однако, как мы успели убедиться, вычисления Рп(тп) по этой формуле для больших значений п —» <х> были слишком громоздки. Ни один разумный человек не станет непосредственно вычислять вероятность того, что при 10000 подбрасываний монеты, например, выпадут 8000 или более «орлов». Хотя такие вычисления могут быть необходимы, трудоемкость их все же слишком велика (даже сегодня, с использованием компьютера). Естественно, что в начале XVIII столетия были предприняты новые усилия для поиска удобных приближенных методов вычислений в задачах теории вероятностей. В 1730 г. Дж. Стерлинг опубликовал формулу, аппроксимирующую произведение первых п целых чисел, то есть:

которая часто встречается в задачах теории вероятностей (ТАРАСОВ Л В Мир, построенный на вероятности – М Педагогика, 1984). И в том же году английский математик АБРАХАМ ДЕ МУАВР (1667-1754) предложил формулу, справедливую для любого числа испытаний и частного случая p=q=0,5. Спустя еще полвека французский математик ПЬЕР СИМОН ЛАПЛАС (1749-1827) обобщил формулу Муавра на случай произвольных вероятностей отдельных успехов в бесконечной серии испытаний. Это и была формула для плотности нормального распределения вероятностей. В современной записи, предложенной Гауссом, она имеет вид: и = 2яо

где х – среднее арифметическое, а – среднеквадратичное отклонение.

График этой зависимости – симметричная, «колоколообразная» кривая, известная под названием нормальной кривой (рис. 14). Мы говорим о некоторой нормальной кривой, ибо уравнение задает лишь некоторую типичную форму графика. Меняя значения хна, мы можем сдвигать конкретную нормальную кривую по числовой оси по горизонтали и менять ее размах. Самая высокая точка кривой расположена над нулевым значением х, в этой точке и и=0,3989. Заметьте, что кривая 1симметрична относительно вертикали, проведенной через точку х=0. Другая особенность нормальной кривой -ее характерный изгиб. И, наконец, самое главное обстоятельство для практических применений состоит том, что площадь под кривой равна 1.

0,4 0,3-3

Рис. 14. Кривая нормального (Гауссовою) распределения, приведенного к стандартному виду (площадь под кривой в пределах от х-1 до х=1 составляет 68% общей площади под кривой)

Фактически существует бесконечное множество нормальных кривых, отличающихся друг от друга парой значений л: и ст. Что же общего у всех этих нормальных кривых? Для наших целей – например, для вычисления распределений при игре на бирже – их наиболее важное общее свойство заключается в доле площади под кривой между любыми двумя точками, выраженными в стандартных отклонениях. Например, в любом нормальном распределении приблизительно:

1. 68% площади под кривой лежит в пределах одной ст от среднего х в любом направлении (то есть в пределах х±а);

2. 95% площади под кривой лежит в пределах двух ст от среднего х;

3. 99,7% площади под кривой лежит в пределах трех ст от среднего х.

Возвращаясь к формуле Бернулли, отметим, что при определенных условиях нормальное распределение используется в качестве биномиального распределения в случае, если расчет биномиальных вероятностей затруднен. Основная проблема, которая здесь возникает, заключается в том, что дискретное биномиальное распределение заменяется непрерывным нормальным законом распределения. Поэтому при замене вводится специальная корректировочная величина, которая называется «поправкой на непрерывность».

Как оказалось, нормальный закон распределения встречается в теории вероятностей и ее приложениях весьма часто. Уже ЛАПЛАС обратил внимание на то, что по нормальному закону распределяются случайные ошибки измерений. Он же предположил, что это связано с наличием болыпого количества независимо действующих причин, под воздействием которых появляются ошибки в измерениях. П.Л. ЧЕБЫШЁВ развил эту мысль и доказал в конце 80-х годов XIX столетия важную предельную теорему, согласно которой при выполнении некоторых специальных условий распределение для суммы п независимых случайных величин приближается в пределе при п-*оо к нормальному закону распределения. Спустя десять с небольшим лет (в 1901 г.) эту предельную теорему в более общем виде доказал ученик и последователь П.Л. ЧЕБЫШЕ-ВА A.M. ЛЯПУНОВ. В его формулировке предельная теорема получила название центральной предельной теоремы.

Важный пример, иллюстрирующий практическую важность центральной предельной теоремы, связан с массовым производством, существующим ныне во многих отраслях народного хозяйства. При массовом производстве изготавливаются огромные партии однотипных изделий, характеристики которых должны, разумеется, соответствовать определенным стандартам. Разнообразные факторы случайного характера неизбежен, но приводят к случайным отклонениям от стандарта. Таких факторов много; это связано, в частности, с тем, что выпуск изделия предполагает, как правило, большое число операций, а все они выполняются лишь с какой-то степенью точности. Каждый фактор в отдельности порождает ничтожное отклонение от стандарта, характеризуемое случайной величиной X; сумма же £Х может давать ощутимые отклонения. Согласно центральной предельной теореме суммарное отклонение от стандарта (случайная величина £Х) должно иметь закон распределения, близкий к нормальному.

ДЕ МУАВР, изобретая нормальную кривую для частного применения, то есть для получения простого приближенного решения в приложениях теории вероятностей, и представить себе не мог, что его открытие найдет применение во многих задачах бизнеса, управления и политики, прогнозирования социально-экономического развития. Действительно, нормальное распределение получило удивительно широкое распространение. Оно играет важную роль как в описательной статистике, так и в теории статистического вывода. Иногда складывается неправильное представление, что существует необходимая связь между нормальным распределением – идеальным описанием некоторых распределений частот – и практически любыми данными. Нормальная кривая — это изобретение математика, довольно хорошо описывающее полигон частот измерений нескольких различных переменных. Никогда не была, да и не будет, получена совокупность данных, которые были бы точно нормально распределены. Это некоторая математическая модель реального распределения величин в социо-экономической сфере. Множество различных уравнений кривых достаточно хорошо сгладило бы эмпирические графики частот, но возникают известные математические преимущества, когда «данные сглаживаются» нормальной кривой. Известные математические свойства нормальной кривой обеспечивают простые и изящные доказательства во многих задачах теории статистического вывода.

Применение нормального закона для решения практических задач зиждется на двух основных принципах. Во-первых, с учетом конкретной задачи нормальная кривая приводится к так называемому «стандартному виду». Стандартный вид кривой соответствует следующим значениям основных параметров: среднему безразмерному арифметическому Зс=О и среднеквадратичному безразмерному отклонению ст=1. Привести кривую к стандартному виду нетрудно м. Например, вы занимаетесь массовым производством мужских костюмов и имеете дело с распределением по росту мужчин определенной возрастной группы. При среднем росте этой группы X = 173 см и среднеквадратичном отклонении ах= 6 см нормальная кривая приобретает стандартный вид, если вы перейдете к новой системе координат и положите:

Х-173

где X – исходный рост i-ro мужчины. Теперь новая средняя х неизбежно получится равной нулю, а новое значение о принимает единичное значение.

Стандартный вид использует безразмерное представление не случайно. Аналитик при решении задачи освобождается от частного – единиц измерения (сантиметров, рублей…) – и получает возможность пользоваться универсальными формулами.

Второй принципиальный момент состоит в том, что исчисление вероятности той или иной группы событий с использованием нормальной кривой состоит в довольно-таки рутинном вычислении фрагмента площади под нормальной кривой, опирающейся на тот или иной отрезок оси абсцисс. С математической точки зрения, вычисление площади под кривой состоит в вычислении интеграла данной функции в пределах данного отрезка. Для нормальной кривой вычисление данного интеграла (так называемого интеграла Лапласа) в обычных функциях невозможно. К счастью, уже давно созданы таблицы этого интеграла, и аналитики всего мира широко этими таблицами пользуются. Их можно найти в любом статистическом справочнике. Как мы помним, площадь под всей кривой равна 1. Значит, в таблице интеграла Лапласа содержатся значения, равные долям единицы. Несмотря на то, что сегодня эти задачи быстро решаются на компьютерах, знать математическое содержание проблемы необходимо, для того чтобы дать правильную интерпретацию полученных результатов

Для соответствия заданной выше группы мужчин требуется определить доли костюмов 4 роста (176-182 см) и 3 роста (170-176 см), которые нужно предусмотреть в общем объеме выпуска. После приведения нормальной кривой плотности распределения мужчин по росту, находим по таблице интеграла Лапласа, что доля площади криволинейной трапеции под кривой, опирающейся на отрезок 176-182 см, примерно равна 0,24, а соответствующая доля площади для отрезка 170-176 см примерно равна 0,38. Таким образом, получаем важный маркетинговый результат: мужскому населению требуется костюмов 4 роста в 1,6 раз меньше, чем4 роста в 1,6 раз меньше, чем костюмов 3 роста.

Поделиться в социальных сетях

Добавить комментарий

Авторизация
*
*
Регистрация
*
*
*
Генерация пароля