Даниэль Канеман «Думай медленно... решай быстро»

17 Регрессия к среднему

Одно из самых впечатляющих озарений в моей карьере случилось, когда я преподавал инструкторам израильских ВВС психологию эффективного обучения. Я объяснял им важный принцип отработки навыков: поощрение за улучшение результатов работает эффективнее, чем наказание за ошибки. Это предположение много раз подтверждено исследованиями на голубях, крысах, других животных и людях.

Выслушав мои воодушевленные объяснения, один из самых опытных инструкторов в группе поднял руку и произнес в ответ собственную речь. Сначала он согласился, что, возможно, птицам поощрения и помогают, но отказался признавать, что похвала действует на курсантов. Он сказал так: «Я неоднократно хвалил курсантов за чистое исполнение фигуры высшего пилотажа. Во время следующей попытки исполнения той же фигуры они справляются хуже. А когда я ругаю их за плохое исполнение, то обычно в следующий раз у них выходит лучше. Так что, пожалуйста, не рассказывайте нам, что поощрение работает, а наказание – нет, потому что все как раз наоборот».

Внезапно, в радостный момент озарения, я по-новому увидел статистический принцип, который многие годы преподавал. Инструктор был прав – и в то же время совершенно неправ! Он проницательно заметил, что за случаями, когда он хвалил исполнение маневра, с большой вероятностью следовали разочарования, а за наказаниями – улучшения. Однако сделанный им вывод об эффективности поощрения и наказания оказался совершенно неверным. Инструктор наблюдал эффект регрессии к среднему, возникающий из-за случайных колебаний в качестве исполнения. Естественно, хвалили только тех, кто выполнял маневры намного лучше среднего.

Но, вероятно, курсанту на этой попытке просто повезло, и, таким образом, следующая попытка была бы хуже независимо от того, похвалили его или нет. И наоборот: инструктор ругал курсанта, если тот выполнял задание необычно плохо, и потому сделал бы следующую попытку лучше, независимо от действий инструктора. Получилось, что неизбежным колебаниям случайного процесса дали каузальную интерпретацию.

Мне нужно было ответить, но лекцию по алгебре предсказаний вряд ли бы восприняли с энтузиазмом. Я взял мелок, нарисовал на полу цель, попросил каждого из присутствующих стать к ней спиной и, не глядя, бросить подряд две монеты. Мы измерили расстояния до цели и записали на доске оба результата для каждого испытуемого, а затем выстроили их по порядку, от худшей до лучшей первой попытки. Выяснилось, что большинство (но не все) из тех, у кого результаты первой попытки были лучшие, на второй попытке справлялись хуже, а у тех, кто плохо справился в первый раз, в следующий, как правило, получалось лучше. Я указал инструкторам на то, что написанное на доске совпадало с услышанным относительно последовательного выполнения фигур высшего пилотажа: за плохими результатами следовало улучшение, а за хорошими – ухудшение, без всякой похвалы или наказания.

В тот день обнаружилось, что летчики-инструкторы попали в ловушку зависимости от обстоятельств: ругая курсантов за плохие результаты, они, казалось, добивались улучшения, однако в действительности наказание не давало никакого эффекта. В этом они были не одиноки. В сущности, одна из особенностей человеческой природы заключается в неожиданной реакции при столкновении с жизнью. Мы хвалим других за добрые дела и ругаем за промахи, а с точки зрения статистики нас наказывают за хорошее и поощряют за плохое.

Талант и удача

Несколько лет назад Джон Брокман, редактор онлайн-журнала Edge, попросил ученых рассказать об их любимых уравнениях. Я предложил такие:

успех = талант + удача

большой успех = чуть больше таланта + много удачи

Неудивительная мысль о том, что удача часто помогает добиться успеха, представляет в неожиданном свете результаты первых двух дней турнира по гольфу. Чтобы не усложнять, предположим, что в оба дня средний показатель был пар 72. Мы сосредоточимся на игроке, который первый день прошел очень хорошо, завершив его со счетом 66. О чем говорит такой великолепный результат? Первый вывод: этот гольфист талантливее среднего участника турнира. Формула успеха предполагает возможность и другого вывода: у игрока был более удачный день, чем у других участников. Если вы согласны с тем, что и талант, и удача – часть успеха, то заключение о том, что игроку повезло, так же обоснованно, как и заключение о таланте.

Аналогично, рассматривая гольфиста, который набрал на 5 очков больше пара, есть причины сделать вывод, что он – довольно слабый игрок и у него был плохой день. Конечно, вы не знаете ни того ни другого наверняка. Вполне возможно, что игрок, набравший 77 очков, в действительности очень талантлив, но у него выдался совершенно ужасный день. Хотя следующие выводы из счета по окончании первого дня неокончательны, они вполне правдоподобны и чаще всего будут верными.

результат лучше среднего в 1-й день = талант выше среднего + удача в 1-й день и результат хуже среднего в 1-й день = талант меньше среднего + неудача в 1-й день

Теперь предположим, что вам известен результат гольфиста в первый день, и требуется предсказать его на второй. Вы ожидаете, что уровень таланта останется тем же, так что лучшее, что можно предположить для первого гольфиста, – «лучше среднего», а для второго – «хуже среднего». Удача, конечно, другое дело. Поскольку невозможно предсказать везение гольфистов во второй – да и в любой другой – день, лучший вариант: предположить, что оно будет средним, без особенностей. Это означает, что, в отсутствие другой информации, не стоит в своих догадках относительно второго дня повторять результаты игроков в первый день. Можно сказать лишь следующее:

• Гольфист, успешно сыгравший в первый день, вероятно, на второй день тоже сыграет успешно, но не так хорошо, поскольку необычное везение вряд ли сохранится.

• Гольфист, сыгравший плохо в первый день, скорее всего, и во второй день сыграет хуже среднего, но лучше по сравнению с предыдущим результатом, поскольку его вероятное невезение должно прекратиться. Также ожидается, что разница между двумя гольфистами на второй день уменьшится, хотя надежнее всего предположить, что первый все равно сыграет лучше второго.

Мои студенты всегда удивляются тому, что лучшие предсказания результатов второго дня – более скромные и близкие к среднему, чем те результаты, на которых предсказания основаны. Именно поэтому такая модель называется регрессией к среднему. Чем выше исходные данные, тем сильнее ожидаемое сокращение, поскольку чрезвычайно хороший результат предполагает очень счастливый день. Регрессивное предсказание разумно, но его точность не гарантируется. Некоторые гольфисты, набравшие 66 в первый день, во второй справятся еще лучше, если им повезет еще больше. Большинство игроков справятся хуже, поскольку их удача уже не будет выше средней.

Теперь давайте взглянем в прошлое. Отсортируйте игроков по результатам второго дня и посмотрите на их результаты в первый день: обнаружится точно такая же регрессия к среднему. Лучшим гольфистам второго дня, вероятнее всего, сопутствовала удача, и надежнее всего предположить, что в первый день им везло меньше и их результат был хуже. Тот факт, что регрессия наблюдается и при попытках предсказать более раннее событие по более позднему, должен убедить вас в том, что у нее нет каузального объяснения.

Эффекты регрессии встречаются везде, а вместе с ними – и ошибочные объяснения их причин. Известный пример – «проклятие Sports Illustrated». Утверждают, что спортсмен, чей портрет опубликован на обложке журнала, обречен на плохие результаты в следующем сезоне.

В качестве причины часто называют излишнюю самоуверенность и боязнь не соответствовать ожиданиям, однако существует и более простое объяснение. Спортсмен попадает на обложку Sports Illustrated в том случае, если он добился исключительных результатов в предыдущем сезоне, в том числе, вероятно, и при помощи удачи – а она непостоянна.

По странному совпадению, когда мы с Амосом писали об интуитивных предсказаниях, я смотрел зимние Олимпийские игры – соревнования мужчин по прыжкам на лыжах с трамплина. У каждого участника есть две попытки, которые объединяются в окончательный результат. Я с удивлением слушал заявления комментатора во время подготовки ко второму прыжку:

«Норвежец отлично выполнил первый прыжок, теперь спортсмен напряжен, постарается защитить свою позицию и, вероятнее всего, прыгнет хуже» или «Шведский спортсмен плохо выполнил первый прыжок, он знает, что ему нечего терять, будет расслаблен, и это поможет ему прыгнуть лучше». Комментатор заметил регрессию к среднему и придумал совершенно безосновательные объяснения, которые тем не менее вполне могли соответствовать действительности. Если бы мы измерили пульс спортсменов перед каждым прыжком, то, возможно, обнаружили бы, что они более расслаблены после первой неудачи. Или не обнаружили бы. Важно помнить о том, что не следует искать объяснений изменению результатов между двумя попытками. Это – математически неизбежное следствие того факта, что на исход первого прыжка влияла удача. История не слишком удовлетворительная – нам всем больше понравилось бы каузальное объяснение, – но другой нет.

Понимание регрессии к среднему

Независимо от того, не замечают ли его или неправильно объясняют, феномен регрессии чужд человеческому разуму. Регрессию впервые опознали и поняли на двести лет позже, чем теорию гравитации и дифференциальное исчисление. Более того, для объяснения регрессии потребовался один из лучших британских умов XIX века.

Впервые это явление описал сэр Фрэнсис Гальтон, троюродный брат Чарльза Дарвина, обладавший поистине энциклопедическими знаниями. В статье под названием «Регрессия к среднему при наследовании», опубликованной в 1886 году, он сообщил об измерениях нескольких последовательных поколений семян и о сравнении роста детей с ростом их родителей. О семенах он пишет так: «Исследования дали интересный результат, и на их основании 9 февраля 1877 года я прочитал лекцию в Королевской ассоциации. Эксперименты показали, что потомство не походило на родителей размером, но всегда оказывалось более заурядным, то есть меньше крупных родителей или больше мелких… Эксперименты показали также, что в среднем регрессия потомства прямо пропорциональна отклонению родителей от среднего».

Гальтон, очевидно, ожидал, что ученая аудитория в Королевской ассоциации, старейшей независимой исследовательской организации мира, так же удивится его «интересным результатам», как и он сам. Но самое интересное состоит в том, что его удивила обычная статистическая закономерность. Регрессия распространена повсеместно, но мы ее не узнаём. Она прячется на виду. За несколько лет, с помощью выдающихся статистиков того времени, Гальтон проделал путь от открытия наследственной регрессии размеров до более широкого понимания того, что регрессия неизбежно возникает при неполной корреляции между двумя величинами.

Среди препятствий, которые пришлось преодолеть исследователю, оказалась и проблема измерения регрессии между величинами, выражающимися в разных единицах: например, весом и умением играть на пианино. Их измеряют, беря в качестве эталона для сравнения все население. Представьте, что у 100 детей из всех классов начальной школы измерили вес и умение играть и расположили результаты по порядку, от максимальной до минимальной величины каждого показателя. Если Джейн на третьем месте по музыке и на двадцать седьмом по весу, можно сказать, что игра на пианино у нее лучше, чем рост. Давайте для простоты сделаем несколько допущений. В любом возрасте:

• Успехи в игре на пианино зависят только от количества часов занятий в неделю.

• Вес зависит исключительно от количества потребляемого мороженого.

• Поедание мороженого и количество часов занятий музыкой в неделю – независимые величины.

Теперь мы можем написать некоторые уравнения с использованием позиций в списке (или стандартных оценок, как их называют статистики):

вес = возраст + потребление мороженого

игра на пианино = возраст + количество часов занятий в неделю

Очевидно, что при попытках предсказать уровень игры на пианино по весу или наоборот, будет появляться регрессия к среднему. Если о Томе известно лишь то, что он по весу двенадцатый (намного выше среднего), можно сделать статистический вывод, что Том, вероятно, старше среднего и, возможно, потребляет больше мороженого, чем другие. Если о Барбаре известно лишь то, что она восемьдесят пятая по пианино (намного ниже среднего по группе), можно сделать вывод, что Барбара, скорее всего, еще маленькая и, наверное, занимается меньше других.

Коэффициент корреляции между двумя величинами, варьирующийся от 0 до 1, – это мера относительного веса факторов, влияющих на обе из них. Например, у всех нас половина генов – общая с каждым из родителей, и у черт, на которые внешние факторы влияют мало (например, у роста), корреляция между показателями родителя и ребенка близка к 0,5. Чтобы оценить значение меры корреляции, приведу несколько примеров коэффициентов:

• Корреляция между размерами объектов, точно измеренных в метрических или в имперских единицах, составляет 1. Все определяющие факторы влияют на оба измерения.

• Корреляция между весом и ростом, сообщенными респондентами, для взрослых американских мужчин составляет 0,41. Если включить в группу женщин и детей, то корреляция будет намного выше, поскольку пол и возраст индивида влияют на их оценку своего роста и веса, что увеличивает относительные значения общих факторов.

• Корреляция между школьными тестами на определение академических способностей и средним баллом в колледже равна примерно 0,60. Однако корреляция между тестами на проверку способностей и успехами в магистратуре намного ниже – в основном потому, что уровень способностей в этой группе не слишком различается. Если способности у всех примерно одинаковы, то разница в этом параметре вряд ли сильно повлияет на меру успеха.

• Корреляция между доходом и уровнем образования в США составляет примерно 0,40.

• Корреляция между доходом семьи и последними четырьмя цифрами номера их телефона равна 0.

Фрэнсису Гальтону потребовалось несколько лет, чтобы понять, что корреляция и регрессия – это не две разные концепции, а две точки зрения на одну. Общее правило довольно простое, но у него удивительные следствия: в случаях, когда корреляция неидеальна, наблюдается регрессия к среднему. Чтобы проиллюстрировать открытие Гальтона, возьмем предположение, которое многие находят довольно любопытным: Умные женщины часто выходят замуж за менее умных мужчин.

Если на вечеринке попросить ваших приятелей найти объяснение этому факту, то интересный разговор вам обеспечен. Даже знакомые со статистикой люди проинтерпретируют это утверждение в каузальных терминах. Кто-то решит, что умные женщины стремятся избежать конкуренции умных мужчин; кто-то предположит, что они вынуждены идти на компромиссы при выборе супруга из-за того, что умные мужчины не хотят соревноваться с умными женщинами; другие предложат более надуманные объяснения. А теперь подумайте над следующим утверждением: Корреляция между оценками интеллекта супругов неидеальна.

Разумеется, это утверждение верно – и совершенно неинтересно. В этом случае никто не ожидает идеальной корреляции. Объяснять здесь нечего. Тем не менее с алгебраической точки зрения эти два утверждения эквивалентны. Если корреляция между оценками интеллекта супругов неидеальна (и если женщины и мужчины в среднем не различаются по интеллекту), то математически неизбежно, что умные женщины выйдут замуж за мужчин, которые в среднем будут менее умными (и наоборот). Наблюдаемая регрессия к среднему не может быть более интересна или более объяснима, чем неидеальная корреляция.

Гальтону можно посочувствовать – попытки понять и объяснить феномен регрессии даются нелегко. По ироническому замечанию статистика Дэвида Фридмана, если вопрос о регрессии возникает в ходе судебного разбирательства, та сторона, которой приходится объяснять его суть присяжным, обязательно проигрывает. Почему это так сложно? Главная причина трудностей регулярно упоминается в этой книге: наш разум склонен к каузальным объяснениям и плохо справляется с «простой статистикой». Если какое-то событие привлекает наше внимание, ассоциативная память начинает искать его причину, а точнее, активируется любая причина, уже хранящаяся в памяти. При обнаружении регрессии подыскиваются каузальные объяснения, но они будут неверными, потому что на самом деле у регрессии к среднему объяснение есть, а причин нет. Во время турниров по гольфу наше внимание привлекает тот факт, что спортсмены, хорошо игравшие в первый день, потом зачастую играют хуже. Наилучшее объяснение состоит в том, что этим гольфистам в первый день необычно повезло, но такому объяснению не хватает силы каузальности, которую предпочитают наши разумы. Мы неплохо платим тем, кто придумывает для нас интересные объяснения эффектов регрессии. Комментатор на канале деловых новостей, который верно заметит, что «для бизнеса этот год был лучше, потому что прошлый год был неудачным», скорее всего, недолго продержится в эфире.

Наши трудности с пониманием регрессии возникают и из-за Системы 1, и из-за Системы 2. Без дополнительных инструкций (а во многих случаях – даже после некоторого знакомства со статистикой) отношение между корреляцией и регрессией остается неясным. Системе 2 трудно его понять и усвоить. Частично это происходит из-за настойчивых требований Системы 1 давать каузальные объяснения.

Трехмесячное применение энергетических напитков для лечения депрессии у детей дает значительные улучшения состояния.

Я выдумал этот заголовок, но описанный в нем факт – правда: если какое-то время поить энергетическими напитками детей, страдающих депрессией, наблюдается клинически значимое улучшение. Аналогичным образом дети с депрессией, которые будут ежедневно по пять минут стоять на голове или по двадцать минут гладить кошек, также покажут улучшение состояния. Большинство читателей таких заголовков автоматически заключат, что улучшение наступило из-за энергетического напитка или поглаживания кошки, но это – совершенно необоснованный вывод. Дети в депрессии – это экстремальная группа, а такие группы с течением времени регрессируют к среднему. Корреляция между уровнями депрессии во время последовательных проверок неидеальна, так что регрессия к среднему неизбежна: детям с депрессией со временем станет чуть легче, даже если они не будут гладить кошек и пить «Ред Булл». Для вывода об эффективности энергетического напитка – или любого другого способа лечения – необходимо сравнить группу пациентов, получающих его, с контрольной группой, не получающей лечения совсем (или, еще лучше, получающей плацебо). Ожидается, что контрольная группа покажет улучшение только за счет регрессии, а цель эксперимента состоит в выяснении, улучшается ли состояние пациентов, получающих лечение, больше, чем объясняется регрессией.

Неверное каузальное определение эффекта регрессии свойственно не только читателям популярной прессы. Статистик Говард Вейнер составил длинный список выдающихся исследователей, допустивших такую же ошибку, то есть спутавших корреляцию с каузальностью.

Эффект регрессии – частый источник проблем в исследованиях, и у опытных ученых развивается здоровая боязнь ловушек, то есть необоснованных каузальных выводов. Один из моих любимых примеров ошибки в интуитивных предсказаниях взят из замечательной книги Макса Базермана «Оценочные суждения при принятии управленческих решений» и адаптирован:

Вы прогнозируете продажи в сети магазинов. Все магазины сети сходны по размеру и ассортименту, но объем продаж у них разный из-за расположения, конкуренции и различных случайных факторов. Вам представили результаты за 2011 год и попросили определить продажи в 2012-м. У вас есть указания придерживаться общего прогноза экономистов о том, что рост продаж в целом составит 10 %. Как бы вы заполнили следующую таблицу?

 

Прочитав эту главу, вы знаете, что очевидное решение прибавить по 10 % к продажам каждого из магазинов неправильно. Прогноз должен быть регрессивным, то есть для магазинов с плохими результатами следует добавить больше 10 %, а к остальным – меньше, а то и вычесть что-то. Однако у большинства людей это задание вызывает недоумение: зачем спрашивать об очевидном? Как обнаружил еще Гальтон, понятие регрессии неочевидно.

Разговоры о регрессии к среднему

«По ее словам, она по опыту знает, что критика эффективнее похвалы. Но она не понимает, что все это – просто результат регрессии к среднему».

«Возможно, второе собеседование впечатлило нас меньше потому, что кандидат боялся нас разочаровать. Однако, скорее всего, первое собеседование прошло необычайно хорошо».

«Процедура отбора хороша, но неидеальна, так что вероятна регрессия. Не стоит удивляться, что даже самые лучшие кандидаты часто не соответствуют нашим ожиданиям».

Добавить комментарий

CAPTCHA на основе изображений