Вступление
Как лгать при помощи статистики
Настоящая же проблема… заключается не в том, чтобы доказать, что ложь – это ложь, а в том, чтобы доказать истинность истинного объекта.
Умберто Эко>1
Знаете старую байку про то, что детей приносят аисты? Это чистая правда.
Сейчас я докажу это при помощи статистики.
Возьмите число аистов в каждой стране и сравните его с числом рождений за год. По всей Европе эти два числа на удивление четко коррелируют. Больше аистов – больше младенцев; меньше аистов – меньше младенцев. Закономерность достаточно заметная, чтобы пройти отсев в научном журнале. Есть даже опубликованная научная работа под названием «Аисты приносят детей (p = 0.008)». Не будем вдаваться в детали, скажу лишь, что все эти нули говорят о том, что это не простое совпадение>2.
Вы, наверное, уже догадались, в чем тут подвох. В крупных европейских странах вроде Германии, Польши и Турции много младенцев и много аистов. В небольших странах, таких как Албания и Дания, и младенцев, и аистов меньше. Между числом тех и других есть взаимосвязь, но это не означает, что младенцы появляются благодаря аистам.
Создается впечатление, что при помощи статистики можно «доказать» все что угодно – даже то, что детей приносят аисты.
Если вы читали «Как лгать при помощи статистики», вы наверняка пришли к такому выводу. Эту остроумную и циничную книжку выпустил в 1954 малоизвестный тогда американский журналист-фрилансер Дарелл Хафф. The New York Times немедленно написала на нее восторженный отзыв, и с тех пор было продано более миллиона экземпляров этой книги, что, возможно, сделало ее самой популярной книгой по статистике на свете.
Книга заслуживает и славы, и похвалы. Это – настоящее чудо популярной статистики. Среди любителей чисел Дарелл стал легендой. Бен Голдакр, эпидемиолог и автор бестселлера «Обман в науке», восхищается тем, какую «бомбу» написал «брюзга Хафф». Американский писатель Чарльз Уилан говорит, что его книга «Голая статистика» вдохновлена «классической» работой Хаффа. Через 50 лет со дня выхода книги Хаффа известный журнал «Статистическая наука» организовал в его честь ретроспективу.
Я и сам раньше так думал. Подростком я зачитывался книгой «Как лгать при помощи статистики». Эта блестящая, хлесткая, да еще и забавно проиллюстрированная книга позволила мне проникнуть за завесу статистических манипуляций и научила меня распознавать обман.
Хафф использует море примеров. Для начала он задается вопросом, сколько зарабатывают выпускники престижного Йельского университета. Если верить опросу, проведенному в 1950 году, выпускники 1924 года зарабатывали в среднем что-то вроде 500 000 долларов в год в пересчете на сегодняшние деньги. Ну что ж, можно в это поверить – в конце концов, речь идет о Йеле, – но полмиллиона долларов в год – это целое состояние… неужели и правда это средний доход?
Вовсе нет. Хафф объясняет, что источник этой «невероятно привлекательной» информации – ответы самих выпускников, а как же не приукрасить рассказ о себе любимом и не сказать, что зарабатываешь больше, чем на самом деле? Кроме того, опрос учитывает только тех, кто взял на себя труд ответить на вопросы – и только тех, кого исследователи смогли найти. А кого легче всего найти? Конечно, людей богатых и известных. «Что же это за заблудшие овечки, которые в списках выпускников значатся под рубрикой «адрес неизвестен?» – спрашивает Хафф. Йель следит за успехами выпускников-миллионеров, но их менее успешные товарищи могли не попасть в его поле зрения. Все это говорит о том, что в результатах опроса зарплата намного выше, чем в реальности. Хафф галопом пробегается по галерее статистических преступлений – от рекламы зубной пасты, подтвержденной лишь искусно подобранными данными, до схем, которые, в зависимости от того, как их раскрасить, меняют значение. Хафф выразился вот как: «Пройдохам эти фокусы давно известны. Люди честные должны о них знать, чтобы их не обвели вокруг пальца».
Если вы прочитаете «Как лгать при помощи статистики», вы поймете, как часто вас обманывают числа. Это умная и полезная книга.
Но я больше десятилетия рассказываю людям о статистике и проверяю заявления, основанные на числовой информации, – и чем дальше, тем больше у меня сомнений по поводу книжки «Как лгать при помощи статистики» и того, что она собой представляет. Что можно подумать о статистике – и о нас самих – если самая известная книга на эту тему от корки до корки состоит из рассказов о ложной информации?
Дарелл Хафф напечатал свою книгу в 1954 году. Но в том же году случилось кое-что другое: британские ученые Ричард Долл и Остин Брэдфорд Хилл выпустили одно из первых убедительных исследований, демонстрирующих, что курение сигарет приводит к раку легких>3.
Без статистики Долл и Хилл никогда не пришли бы к этому выводу. За 15 лет число случаев рака легких в Соединенном Королевстве выросло в шесть раз. Уже в 1950 году страна лидировала по числу случаев заболеваний, а число смертей от рака легких впервые превысило число смертей от туберкулеза. Статистический подход нужен был уже хотя бы для того, чтобы заметить эти изменения. Доктора-одиночки располагали информацией лишь о единичных случаях.