Узнал недавно про интересную аномалию в статистике под названием парадокс Симпсона. Тренд, заметный в сводных данных, может исчезнуть или вообще развернуться если смотреть на отдельные группы без агрегации.

Самый известный пример такой: в 1973 году на Калифорнийский университет подали в суд за дискриминацию представителей женского пола. Главный аргумент был сделан на на основе вот этих данных:
Парадокс симпсона
В данных отчетливо видно, что доля поступивших среди мужчин выше чем среди женщин. Университет очень удивился, поскольку был либеральным и всеми силами придерживался политики исключения дискриминации по половому признаку. Когда полезли разбираться и стали смотреть разбивку по кафедрам, то ситуация оказалась диаметрально противоположной: на трёх из пяти кафедрах женщины имели большую долю поступивших и только в двух мужчин принимали больше, да и там преимущество было незначительным.
Парадокс симпсона
То есть, результат в агрегации и в разбивке давал абсолютно разную картину. Если внимательно посмотреть таблицу выше, то становится понятно почему так получилось. Большинство женщин пошли на кафедры где мало свободных мест и выше конкуренция. Большинство же мужчин хотели поступить на кафедры с низкой конкуренцией и процент поступивших существенно выше. Поэтому в разрезе по кафедрам доля поступивших мужчин ниже чем у женщин, а в общей агрегации ситуация менялась. Проблему первой таблицы могло бы исправить применение “средневзвешенного” вместо “среднего арифметического”.


Так что советую держать в уме когда читаете статистику в прессе.