Вышедший в октябре 1901 года в издательстве Кембриджского университета новый научный журнал «Биометрика» имел подзаголовок «Журнал изучения биологических проблем методами статистики». Открывался первый номер журнала фотографией беломраморной статуи Эразма Дарвина, подписанную его словами: Ignoramus, in hoc signo laboremus («Мы невежественны, так что давайте работать»). Следом за этим шли 25 научных статей общим объемом около 500 страниц с графиками и формулами, которые показывали, как наука биометрия, которая использует методы математической статистики и теории вероятностей, может избавить от математического невежества биологов, изучающих развитие живого на Земле.
Профессор прикладной математики Лондонского университета Карл Пирсон
Фото: Science Photo Library/Alamy/DIOMEDIA
Не та биометрия
Сегодня слово «биометрия» ассоциируется в первую очередь с биометрическими загранпаспортами и разными методами идентификации конкретного человека (по отпечаткам пальца, рисунка роговицы глаза, ДНК, голосу, манере речи и т. д.). Цель этой биометрии — найти и зафиксировать индивидуальные биологические характеристики конкретного живого существа, то есть прямо противоположная цели той биометрии, о которой шла речь в британском журнале начала прошлого века и которая была нацелена на поиск, фиксацию и сравнение общих особенностей, характерных для сообществ живых существ — популяции, вида. Наверное, самый актуальный на сегодня пример такой биометрии — статистическая оценка эффективности вакцин против COVID-19.
Чтобы не путаться в понятиях, сейчас биометрию в словарях и энциклопедиях часто называют биологической статистикой (biostatistics), а биологи в своих научных работах и при прочих профессиональных коммуникациях вообще никак ее не называют (разумеется, если они в этих научных работах не исследуют методы самой биометрии). Биометрические показатели и методы (частотные распределения, корреляции, средние величины, их дисперсия, стандартное отклонение и т. п.) в современных научных работах их неотъемлемая часть, настолько обычная, что нет нужды вспоминать само слово «биометрия». Наверное, если где-нибудь когда-нибудь появится демократия по умолчанию, то это слово тоже станет ненужным и «демократией», как в случае с «биометрией», назовут что-нибудь прямо противоположное по смыслу. Например, назовут демократическим турникет, который идентифицирует у конкретного индивида неизлечимый смертный грех (или весь их набор) и не пропустит его в демократическое общество.
Впрочем, когда британские ученые назвали свой новый журнал Biometrika, а свою новую науку биометрией, их меньше всего беспокоил возможный в отдаленном будущем семантический сдвиг этого понятия. Их волновало отсутствие надлежащего математического аппарата для интерпретации полевых и экспериментальных данных в их науке биологии. В додарвиновский период, который можно назвать описательным или линнеевским, биология вполне обходилась без математики, а статистика в ней ограничивалась простым подсчетом исследованных и описанных экземпляров растений и животных. Но когда речь зашла об эволюции путем естественного отбора наследственной изменчивости, ученые попали в ситуацию ощупывающих слона слепых мудрецов из известной притчи. Чтобы прозреть и увидеть слона целиком, требовалась совсем другая статистика.
Нужная наука
Изначально соредакторами журнала Biometrika были зоолог, профессор сравнительной анатомии Оксфордского университета Рафаэль Уэлдон; куратор Зоологического музея Чикагского университета генетик Чарльз Девенпорт и профессор прикладной математики Лондонского университета Карл Пирсон. Консультантом редакторов (то есть шеф-редактором журнала по современной терминологии) был Френсис Гальтон, кузен Чарльза Дарвина, один из самых заметных пропагандистов дарвинизма в XIX веке, который в официальной британской науке того времени числился джентльменом-любителем (gentleman amateur), но в биологии был одним из крупных авторитетов.
Трое из них (кроме американца Девенпорта) были FRS, то есть членами Королевского общества, академиками — по-нашему. И трое из четверых (кроме Уэлдона) — евгенистами, причем высокопоставленными: Пирсон в 1911 году после смерти Гальтона, который, собственно, и назвал евгеникой науку о выведении породы идеальных людей, заменил его на посту директора лаборатории евгеники Университетского колледжа Лондонского университета, а Девенпорт был отцом-основателем научной евгеники в Новом Свете.
Удивляться этому не стоит: в те годы молодая наука генетика ставила перед собой амбициозные цели. Основоположники нашей отечественной генетики Филипченко, Кольцов, Серебровский тоже были евгенистами и тоже высокого ранга в советском евгеническом сообществе, что в итоге им было поставлено в вину, как только власть решила, что новую породу людей выведет она сама, а не старорежимные профессора-генетики. Справедливости ради надо сказать, что мичуринский задор в деле совершенствования наследственности человека (на этот раз с помощью генной хирургии) присущ и современному поколению генетиков.
В вводной статье «Biometry» («Биометрия») к первому номеру журнала Biometrika ее автор сэр Френсис Гальтон писал, что заметить те незаметные сдвиги в эволюции, которые длятся тысячами лет, можно только современными методами математической статистики, которые, собственно, и составляют предмет науки биометрии. Иным путем на протяжении жизни человека уловить зарождающиеся эволюционные сдвиги просто невозможно. Кстати, термин biometry (измерение жизни) для биостатистики придумал Гальтон, он был мастак по части придумывания названий новым наукам.
Выражаясь современным языком, речь в статье Гальтона шла о микроэволюционных процессах. Эти «незаметные» сдвиги как раз были предметом новой науки генетики, которая выделилась из эволюционной биологии в самостоятельную научную дисциплину, на рубеже XIX и XX веков. Но даже в те годы, когда никто не знал и не мог знать, что именно является материальным носителем наследственной изменчивости и по каким законам связаны между собой даже самые очевидные наследуемые признаки организмов, было предельно ясно, что изменчивость и наследственность, как и отбор, будь он естественным или искусственным, носят стохастический (вероятностный) характер. А потому описательный метод для изучения микроэволюции не подходит, не подходит и несложная арифметика монаха Грегора Менделя. Для генетики и той науки, которая позже получит название популяционной биологии, требуется своя собственная статистика.
От политической арифметики до социальной физики
Как известно, термин «статистика» происходит от латинского stato — «государство». Понятно, что не древние римляне придумали статистику, появилась она гораздо раньше, как только дикарь научился считать. Также понятно, что прежде всего статистика обслуживала государство (до него — племя), и легко догадаться, почему в Новое время статистику стали называть «политической арифметикой». Так назвал ее в своей книге «Essays on Mankind and Political Arithmetic» («Очерки о человечестве и политическая арифметика»), изданной в 1690 году, сэр Уильям Петти, в юности военный моряк, потом бизнесмен, ученый, профессор Оксфорда, член парламента, один из отцов-основателей Лондонского королевского общества.
Название Петти было точным — классической античной арифметики было вполне достаточно для статистики того времени. Благодаря проекту «Гуттенберг» (Project Gutenberg) книга Петти доступна в интернете, любой может ее почитать и убедиться, что, оперируя только арифметическими действиями, Петти получал довольно точные даже по современным меркам результаты. Например, у него там есть интересный расчет динамики увеличения населения Земли после ветхозаветного потопа.
Его Петти, вероятно, на всякий случай предварил реверансом в сторону моралистов: «Не очень уместно после рассуждений о росте населения Лондона вдаваться в рассуждения о времени, когда весь мир будет полностью населен; и как оправдать Писание относительно числа людей, упомянутых в них; и относительно числа живых и мертвых, которые могут воскреснуть в последний день и т. д., тем не менее, поскольку некоторые друзья, любя упомянутые отступления и дерзости (возможно, как соус к сухому дискурсу), пожелали, чтобы то же самое можно было объяснить и разобрать, я поэтому говорю следующее».
Далее Петти проводит расчет роста численности человечества, начиная с того момента, когда восемь человек сошли на склон Арарата из ковчега Ноя, и заканчивая смертью Ноя (тот умер, как известно, через 350 лет после этого). Потом далее продолжает расчеты, выбирая реперными хронологическими точками столь же памятные события (исход из Египта, Рождество Христово и т. д.), и доходит до 1682 года, когда он это писал. Трудно не улыбнуться, видя, насколько близки его цифры к оценкам современных ученых-демографов из таких солидных организаций, как US Census Bureau, UN Population Division, Planbureau voor de Leefomgeving и т. п., вооруженных современным математическим аппаратом и суперкомпьютерами.
И уж совсем забавно видеть, как нехитрые расчеты Петти, просуммировавшего тех, кто жил до Потопа, и живших после оного вплоть до 1682 года дают число 114 млрд. Именно столько людей, по расчетам Петти, предстали бы перед Страшным судом, случись он в конце XVII века. Это число практически точно совпадает с оценкой числа людей, когда-либо живших на Земле, сделанными перечисленным выше статистическими организациями и современными учеными-демографами. По их оценкам, на планете во все времена жило примерно 108 млрд людей. Иными словами, простота научной статистики не означает ее примитивность и ошибочность. Сам Петти выразил эту мысль в своей «Политической арифметике» в духе его времени: «Из всего этого ясно, как безумно ошибались те, кто так раздражительно поносил то, что передало Священное Писание».
После работ Паскаля, Ферма, Гюйгенса, Бернулли, заложивших в том же XVII веке основы теории вероятностей, математический аппарат статистики заметно усложнился по сравнению с «политической арифметикой» Петти, но зато он учитывал вероятностный характер любого статистического исследования. Потом были работы Гаусса, формализовавшего один из методов современной математической статистики — метод наименьших квадратов; работы Байеса, сформулировавшего и решившего одну из основополагающих теорем теории вероятностей (теорема Байеса), которая позволяла оценить вероятность наступления события при условии, что произошло другое взаимосвязанное с ним событие.
Проще говоря, теорема Байеса в принципе позволяла с математической точностью оценить, сколько шутки содержится в известной шутке Дарвина насчет того, что мощь британского флота держится на числе старых дев в Англии. Цепочка корреляционных (статистических вероятностных) связей у Дарвина была такая: много старых дев — много кошек; много кошек — мало мышей; мало мышей, разоряющих гнезда шмелей,— много шмелей; много шмелей, опыляющих клевер,— хороший урожай клевера; хороший урожай клевера — много говядины и баранины; много говядины и баранины — сытый и довольный матрос.
В дальнейшем математический аппарат статистики пополнился законом больших чисел, центральной предельной теоремой, другими законами и теоремами и благодаря работам академика Колмогорова уже в наше время приобрел современный вид. Но уже в первой половине XIX века про «политическую арифметику» окончательно забыли, а один из самых известных ученых-статистиков того времени Адольф Кетле говорил о своей науке уже как о социальной физике (physique sociale).
Студенты биометрии
Таким образом, к моменту возникновения биометрии ее энтузиастам не было нужды изобретать велосипед, достаточно было просто применить в биологии уже достаточно надежные инструменты современной им математической статистики. Собственно, это они собирались сделать. В первой же фразе своего предисловия «Биометрия» к первому номеру журнала Biometrika Френсис Гальтон пишет: «Этот журнал предназначен в первую очередь для тех, кто заинтересован в практическом применении современных методов статистики в биологии».
Но так уж вышло, что первыми заинтересованными оказались не биологи, а математики — Пирсон, Фишер, Госсет. Последний даже был вынужден публиковаться в «Биометрике» под псевдонимом Стьюдент (Student), чтобы не злить своего работодателя, и опубликовал в «Биометрике» практически все свои работы по теории статистики, включая знаменитую «The Probable Error of a Mean» («Вероятная ошибка среднего»). С тех пор t-критерий Стьюдента фигурирует во всех серьезных работах для оценки параметров выборки малой величины.
Псевдоним Госсета сейчас выглядит символичным. Не только он, все авторы первых номеров «Биометрики» были «студентами», математики — в генетике и популяционной биологии, генетики и биологи — в математике. Не зря самый первый номер журнала открывался изречением Эразма Дарвина (родного деда Чарлза Дарвина и Френсиса Гальтона) про пользу труда для искоренения невежества.
Шельмование биометрии
Со временем биометрия стала привычным инструментом для биологов, появились учебники по биометрии, курсы биометрии на биофаках университетов. В нашей стране курс «Введение в биометрию» читал в Московском университете с 1919 по 1929 год (когда его отправили в ссылку) Сергей Сергеевич Четвериков, один из создателей популяционной генетики. В времена лысенковщины вместе с генетикой в опалу попала и биометрия, получившая клеймо «извращения математики на службе менделизма». Не помогло даже заступничество академика Колмогорова, который опубликовал в «Докладах Академии наук СССР» статью «Об одном новом подтверждении законов Менделя» с математическим анализом большого объема экспериментальных наблюдений генетиков.
Уже в следующем номере «Докладов» вышла статья самого Лысенко, где тот писал: «Автор (Колмогоров.— Ред.), желая доказать “верность” и незыблемость статистического закона Менделя, приводит ряд математических доводов, формул и даже кривых. Я не чувствую себя достаточно компетентным, чтобы разбираться в этой системе математических доказательств… Мне хочется лишь указать, что нас, биологов, не интересуют математические выкладки, подтверждающие практически бесполезные статистические формулы менделистов». Сейчас трудно поверить в подобный уровень научной дискуссии, но так было.
Только в 1960-е годы студенты-биологи в нашей стране снова стали изучать основы биометрии, учиться находить, помимо среднего арифметического, среднее геометрическое, среднее квадратическое и среднее гармоническое; кроме максимума и минимума учитывать такие показатели разнообразия, как среднее квадратическое (стандартное) отклонение, коэффициенты вариации; правильно оценивать необходимый для достоверной оценки признака объем выборки из генеральной совокупности; проводить корреляционный и дисперсионный анализ; строить регрессионные ряды, кривые, вычислять их доверительные области. Это был лишь тот минимум, который, как уже сказано выше, в той или иной степени необходим современному ученому для обработки полевых или экспериментальных данных и планирования будущих экспериментов и экспедиций.
Клонирование биометрии
Разумеется, и сама математическая статистика, и другие ее прикладные разновидности не стояли на месте. В послевоенные годы стали выходить специализированные журналы: Psychometrika, Technometrics, целый букет журналов по econometrics и т. д. Даже журнал Scientometrics с 1978 года выходит.
В нем ученые-наукометристы оценивают институциональную производительность научного труда, строят всевозможные рейтинги научных исследований и ученых, формулируют стандарты для университетских преподавателей и т. д., а на самом деле с маниакальным упорством средневековых алхимиков ищут сокровенную универсальную формулу идеального ученого / НИИ. Ищут пока безуспешно, хотя один важный результат уже получили — принцип эскалации затрат, согласно которому достижение дальнейших результатов на каждом данном уровне становится экспоненциально более дорогостоящим с точки зрения затрат усилий и ресурсов. Иными словами, похоже, что идеальный ученый или идеальный НИИ действительно будет «золотым».
А начиналось все 120 лет назад с биометрии, и у нее, похоже, все получилось, как было задумано ее отцами-основателями, она настолько органично и прочно вошла в биологию, что, как уже сказано, нет необходимости говорить о ней отдельно от биологии и даже называть по имени. Во всяком случае, другие отраслевые «-метрии» пока таким результатом похвастаться не могут.