Проверка гипотезы о независимости двух случайных величин для любого типа шкал
Проверка гипотезы о независимости двух случайных
величин для любого типа шкал.
С.В. Усатиков, кандидат физ-мат наук, доцент; С.П.
Грушевский, кандидат физ-мат наук, доцент; М.М. Кириченко, кандидат
социологических наук
Во
многих практических задачах мы исследуем объекты, обладающие несколькими (двумя
или более) признаками, и хотим выяснить, насколько эти признаки связаны между
собой. Например, у каждого человека есть возраст и место рождения, уровень
образования и годовой доход, пол и социальная принадлежность и т.п. Вопрос
состоит в том, можно ли по степени выраженности одного признака судить о
степени выраженности другого, либо же знание об одном ничего не добавляет к
знанию о другом (т.е. эти признаки проявляются независимо друг от друга).
Ответы на такие вопросы могут иметь значительную практическую ценность.
Например, если мы установим, что признаки “профессия” и “политические
убеждения” независимы, то социологические опросы по предсказанию результатов
выборов можно проводить без учета профессии опрашиваемых.
Прежде
всего следует дать определение интуитивно понятной вероятностной независимости.
А именно, случайное событие А независимо от случайного события В, если
вероятность одновременного появления и события А, и события В в опыте равна
произведению вероятностей этих событий.
Иногда
признаки связаны жестко: если профессия - горняк или сталевар, то пол,
несомненно, мужской. Тем самым по некоторым значениям признака “профессия”
можно узнать значение признака “пол”. Другая крайность - отсутствие связи: если
глаза серые, то какая профессия? Исследователя в подобных задачах интересует,
насколько точно можно предсказать значение одного признака по значению другого.
Этой проблеме должна предшествовать более простая: надо сначало проверить
существует ли вообще какая-либо связь между этими признаками? Таким образом,
возникает и требует проверки следующая нулевая гипотеза: проявления одного
признака независимы от проявлений другого в опыте.
Отметим
еще одно важное обстоятельство. Ведь необходимо исследуемые признаки как-то
измерить, представить в виде делений какой-то шкалы, и очень часто это не
деления секундомера или линейки. Как измерить” профессию”, “политические
убеждения” или “степень доверия”? Если присвоить проявлениям признака
какие-либо числовые значения, очень часто эти числа нельзя даже упорядочить по
возрастанию.
Заметим
еще также, что к проверке независимых признаков очень часто можно свести задачу
однофакторного анализа об отсутствии эффекта обработки. Тогда одним признаком
становится отклик, а другим - способ обработки. Причем в отличие от
рассмотренного в предыдущем пункте критерия Вилкоксона, Манна и Уитни, способов
обработки может быть и два, и три, и больше трех.
Пусть
первый признак имеет шкалу х1,...,хк. Например, признак “лекарство” может быть
х1=“первое”, х2=“второе”, х3=“третье”. Второй признак имеет шкалу у1,...,уl.
Например, признак “результат” может быть у1=“благоприятный” или у2=“неблагоприятный”
Проведено
n экспериментов, в которых nij ряд деления шкал xi (1Ј iЈ k) и y1 (1Ј jЈ l)
появились вместе. Эти числа nij удобно записать в виде таблицы сопряженности
признаков размера k· l.
Например: