Однажды некто взвалил на себя тяжкий труд определить, отстают ли в учебе студенты-курильщики от некурящих студентов. Как выяснилось – да, отстают. Очень многим этот вывод пришелся по душе, и они пошли еще дальше. Хочешь получать высокие оценки – бросай курить, так оно вроде бы верно. А следующий обоснованный вывод – курение пагубно влияет на умственные способности.
Вышеупомянутое исследование, как мне верится, было проведено по всем правилам: объем выборки был достаточно велик, подобрали ее добросовестно и тщательно, величина корреляции действительно оказалась очень значимой, и все прочие условия были соблюдены.
И все же не обошлось без одного заблуждения. И пускай оно древнее как мир, но почти всегда обнаруживается в статистических данных, замаскированное в гуще внушительных цифр. Это заблуждение таково: если событие В следует за событием А, значит, событие А является причиной события В. В вышеупомянутом исследовании делается неоправданное предположение, что поскольку курение и низкие оценки сопутствуют друг другу, значит, курение и есть причина плохой успеваемости. Но разве все это нельзя с таким же успехом перевернуть наоборот? Может быть, именно скверные оценки заставили студентов искать утешения, но не в выпивке, а в курении? Если уж на то пошло, данный вывод столь же вероятен и не хуже подкреплен фактами. Вот только всяких пропагандистов он не слишком устраивает.
Представляется куда более вероятным, что ни одно из этих двух явлений не обусловливает другого. Скорее оба они следствие какого-то третьего фактора. Может ли быть так, что компанейские парни, которые не слишком утруждают себя учебой, чаще имеют привычку к курению? Или секрет в том, что имеется корреляция между экстраверсией и низкой успеваемостью – связь очевидно более тесная, чем между оценками и умственными способностями? Очень может быть, что экстраверты более склонны к курению, чем интроверты. Это я к тому, что, когда имеется множество правдоподобных объяснений, у вас едва ли есть право выбрать то из них, которое вам больше нравится, и настаивать на его истинности. И все же многие поступают именно так.
Чтобы не поддаваться заблуждению «после – значит вследствие» и тем самым не уверовать в правоту многих ложных истин, следует подвергать любое утверждение самому тщательному анализу. Корреляция, эта убедительно точная зависимость, которая на первый взгляд показывает, что одно событие происходит вследствие другого, бывает нескольких типов.
Существует корреляция, обусловленная случайными причинами. Возможно, у вас получилось установить корреляцию между двумя рядами чисел, чтобы доказать некое маловероятное утверждение. Но если вы снова попробуете проделать расчет, но уже на других цифрах, никакого доказательства не получится. Подобно производителю зубной пасты, которая, как казалось, препятствует развитию кариеса, вы просто отбрасываете неугодные вам результаты и широко тиражируете те, что подходят для ваших целей. Если выборка невелика, то, скорее всего, вы обнаружите существенную корреляцию между двумя характеристиками или событиями, которые представляют для вас интерес.
Распространенный случай ковариации [17] – взаимосвязь действительно существует, но нельзя сказать, какая из переменных выступает причиной, а какая следствием. В ряде подобных случаев причина и следствие время от времени могут меняться ролями или даже обе одновременно будут и причиной, и следствием. К ковариации такого рода можно отнести корреляцию между доходом и владением ценными бумагами. Чем больше денег вы зарабатываете, тем больше акций покупаете, а чем больше у вас акций, тем больше доход. Так что утверждать, что одно влечет за собой другое, было бы некорректно.
Пожалуй, самый коварный тип ковариации представляет собой тот широко распространенный случай, когда ни одна из рассматриваемых переменных не оказывает никакого воздействия на другую, но при этом значимая корреляция между ними действительно подтверждается расчетами. Скольким недостойным делам послужил этот тип корреляции! К этой категории относятся и утверждения о низкой успеваемости курильщиков, равно как и множество прочих статистических данных из области медицины, которые обычно приводят, забывая уточнить, что, хотя корреляция действительно существует, выведенные на ее основе причинно-следственные связи взяты с потолка. В качестве примера такой чепухи, или фиктивной корреляции, которая сама по себе есть непреложный статистический факт, некто ради смеха называл такой: существует тесная корреляция между жалованьем пресвитерианских священников в Массачусетсе и ценой на ром в Гаване.
Что здесь причина, а что следствие? Иными словами, священники ли наживаются на продаже рома или они ей способствуют? Ну ладно. Все это сильно притянуто за уши, и абсурдность утверждения видна с первого взгляда. Но остерегайтесь случаев, когда используется та же самая логика (после – значит вследствие), только в отличие от вышеприведенного примера ее применяют более искусно и тонко. В случае со священниками и ромом легко понять, что обе цифры растут под действием третьего фактора – исторического и общемирового роста цен практически на все.
А возьмите цифры, указывающие, что уровень самоубийств достигает максимума в июне. Это что, самоубийства порождают такое количество новобрачных – или столь распространенный обычай сочетаться браком именно в июне провоцирует тех, кто отвергнут возлюбленными, свести счеты с жизнью? Несколько более убедительное (хотя тоже недоказанное) объяснение может быть таково: некто отчаявшийся всю зиму борется со своим угнетенным состоянием в надежде, что весной тучи рассеются, но окончательно сдается, когда наступает июнь, а никакого просвета нет.
Не помешает держать ухо востро и в отношении суждений, полученных в результате распространения корреляции за пределы данных, на которых она продемонстрирована. Проще простого показать: чем больше в данной местности выпадает дождей, тем выше вырастают зерновые или даже что урожай их будет тем больше. Дожди – вроде бы дарованное небесами благо. Однако очень дождливый сезон может навредить посевам или вовсе погубить урожай. Положительная корреляция сохраняется до определенной точки, а затем быстро превращается в отрицательную. Выше такого-то количества миллиметров выпавших осадков в силу вступает обратная зависимость – чем больше дождей, тем меньше урожая вы получите.