Качественная переменная

Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье) каждое из возможных значений качественной переменной называется уровнем. Распределение вероятностей, связанное со случайной качественной переменной, называется категорийным распределением.

Связанные понятия

Качественные данные — это статистический тип данных, состоящий из качественных переменных, или данные, которые преобразованы в такой вид, например сгруппированные данные. Более конкретно качественные данные могут быть получены из наблюдений качественных данных, которые суммируются в виде счётчиков или перекрёстных таблиц, или из наблюдений количественных данных, сгруппированных по данным интервалам. Часто чисто качественные данные формулируются в форме таблицы сопряжённости. Вместе с тем, термин «качественные данные» применяется к множествам данных, которые, имея некоторые качественные переменные, могут также содержать переменные, не являющиеся качественными.

Качественная переменная, которая может принимать в точности два значения, называется двоичной переменной или дихотомической переменной. Важным специальным случаем является величина, распределённая по закону Бернулли. Качественные переменные с более чем двумя возможными значениями называются политомными переменными. Качественные переменные часто считаются политомными, пока не было указано обратное. Дискретизация — это трактовка непрерывных данных, как если бы они были качественными. Дихотомизация — это трактовка непрерывных данных, как если бы они были двоичными переменными. Регрессионный анализ часто трактуется как качественный с одной или более количественных искусственных переменных.

Примеры качественных переменных

Примеры значений, которые могут быть представлены в виде качественной переменной:

Группа крови человека: A (II)), B(III), AB(IV) или O (I).
Область, в которой человек живёт.
Политическая партия, за которую можно голосовать, например, в Европе — Христианско-демократическая партия, Социал-демократическая партия, Партия зелёных и т. д.
Тип камней: магматические, осадочные или метаморфические.
Каждое отдельное слово (например, в модели языка) — одно из V возможных значений для словаря размером V.

Обозначения

Для удобства статистической обработки качественным переменным могут быть назначены числовые индексы, к примеру, от 1 до K для K-значной качественной переменной (то есть, переменной, которая может принимать ровно K возможных значений). Как правило, однако, числа произвольны и не имеют ничего значимого, кроме простого обеспечения метки для конкретного значения. Другими словами, значения в качественной переменной существуют в номинальной шкале — каждое значение представляет отдельную концепцию, не могут быть в обязательном порядке упорядочены и с ними нельзя работать как с обычными числами. Допустимыми операциями могут быть только эквивалентность, принадлежность множеству и другие операции над множествами.

Как результат, центральная тенденция множества качественных переменных задаётся модой. Ни среднее, ни медиана не могут быть определены. В качестве примера, если дано множество людей, мы можем рассматривать набор качественных переменных, соответствующих их фамилиям. Мы можем рассматривать операции, такие как эквивалентность (имеют ли два человека одинаковые фамилии), принадлежность множеству (содержится ли фамилия в заданном списке), подсчёт (как много людей имеют данную фамилию) или нахождение моды (какая фамилия встречается наиболее часто). Однако, мы не можем осмысленно вычислить «сумму» Smith + Johnson или задать вопрос, «меньше» или «больше» Smith, чем Johnson. В результате, мы не можем задать вопрос, какова «средняя фамилия» (среднее значение) или «ближайшая к центру фамилия» (Медиана (статистика)|медиана) в множестве фамилий.

Заметим, что это игнорирует понятие алфавитного порядка, который является свойством, которое не наследуется от самих фамилий, а является способом построения меток. Например, если мы запишем фамилии в кириллице и примем порядок букв в кириллице, мы можем получить результат, отличный от результата «Smith» < «Holms», который мы получим при записи фамилий в стандартном латинском алфавите. А если мы запишем имена китайскими иероглифами, мы не сможем вообще осмысленно записать «Smith» < «Holms», поскольку никакого чёткого порядка не определено для этих иероглифов. Однако, если мы рассмотрим имена написанными, например, в латинском алфавите и определим порядок, соответствующий стандартному алфавитному порядку, мы можем эффективно превратить их в порядковые переменные, определённые на ординарной шкале.

Число возможных значений

Качественные случайные величины описываются статистически качественным распределением, что позволяет произвольную K-значную качественную переменную выразить с отдельными вероятностями, заданными для каждого из K возможных исходов. Такие качественные переменные с несколькими категориями часто исследуются с помощью мультиномиального распределения, которое подсчитывает частоту выпадения каждой возможной комбинации чисел из различных категорий. Регрессионный анализ на качественных исходах выполняется с помощью мультиномиальной логистической регрессии, мультиномиального множественного пробита или связанных видов моделей дискретного выбора.

Качественные переменные, которые имеют только два возможных исхода (например, да/нет или успех/неудача) известны как двоичные переменные (или переменные Бернулли). Ввиду их важности эти переменные часто считаются отдельной категорией с отдельным распределением (распределение Бернулли) и отдельными моделями регрессии (логистическая регрессия, пробит-регрессия и т. д.). Как результат, термин «качественная переменная» часто резервируется для случаев 3 и более исходов и называются они многозначными переменными как противоположность двоичной переменной.

Можно также рассматривать качественные переменные, у которых число категорий заранее не фиксировано. В качестве такой качественной переменной может служить переменная, описывающая слово, и мы не можем знать заранее величину словаря, так что мы можем позволить сталкиваться со словами, которые ранее не видели. Стандартные статистические модели, вовлекающие качественное распределение и мультиномиальную логистическую регрессию, предполагают, что число категорий известно заранее и изменение числа категорий на лету проблематично. В таких случаях следует применять более продвинутые техники. Примером служит процесс Дирихле, который попадает в область непараметрической статистики. В таком случае логически предполагается, что существует бесконечное число категорий, но в любой момент времени большинство из них (фактически, все, кроме конечного числа) никогда не просматриваются. Все формулы формулируются в терминах числа категорий, на самом деле попавшихся, а не терминах (бесконечного) полного числа потенциальных категорий, а методы создаются для обновления постепенно дополняемых распределений вероятностей, включая добавление «новых» категорий.

Качественные переменные и регрессия

Качественные переменные представляют метод качественной (в отличие от количественной) оценки данных (то есть представляет категории или членство в группе). Они могут быть включены как независимые переменные в регрессионный анализ или как зависимые переменные в логистической регрессии или пробит-регрессии, но должны быть преобразованы в количественные данные в порядке возможности анализировать данные. Делается это через использование систем кодирования. Анализ проводится так, что только g −1 (g равно числу групп) значений кодируется. Это минимизирует избыточность, но по-прежнему представляет полное множество данных, поскольку никакой дополнительной информации не получим от кодирования всех g групп. Например, когда кодируем пол (g=2: мужской и женский), если мы кодируем только женщин, остальные будут мужского пола. Как правило, группа, которая не кодируется, представляем минимальный интерес.

Есть три основных системы кодирования, обычно используемых при анализе качественных переменных в регрессии: фиктивное кодирование, кодирование влияния, и контрастное кодирование. Уравнение регрессии принимает вид Y=bX + a, где b является коэффициентом наклона, и он задаёт вес, эмпирически назначенный объяснению, X является объясняющей переменной, а a является пересечением с осью Y, и эти значения принимают различные значения в зависимости от принятой системы кодирования. Выбор кодирующей системы не влияет на статистики F или R2. Однако, система кодирования выбирается в зависимости от заинтересованности в категориях, поскольку от него зависит значение b.

Фиктивное кодирование

Фиктивное кодирование используется, когда есть контрольная группа или группа сравнения. Поэтому данные анализируются относительно группы сравнения — a представляет среднее контрольной группы, а b является разницей между средним экспериментальной группы и средним контрольной группы. Предполагается, что выполняются три критерия для пригодности контрольной группы — группа должна быть вполне определена (к примеру, не должна быть категорией «другие»), должна существовать логическая причина для выбора этой группы в качестве группы сравнения (к примеру, ожидается, что группа имеет наибольшую оценку от зависимой переменной) и, наконец, размер выборки из группы должен быть существенным и не меньше по сравнению с другими группами.

При фиктивном кодировании справочной группе назначается значение 0 для каждой кодовой переменной. Для каждого респондента в наборе переменных только одна может принимать значение 1, это та, которая соответствует категории. Значения b следует интерпретировать так, что экспериментальная группа сравнивается с контрольной группой. Поэтому, получение отрицательного значения b означает, что экспериментальная группа имеет меньшую оценку, чем контрольная группа на зависимой переменной. Чтобы это проиллюстрировать, предположим, что мы измеряем оптимизм среди нескольких национальностей и решаем, что французы будут использоваться как контрольная группа. Если мы сравним их с итальянцами и получим отрицательное значение b, из этого можно предположить, что итальянцы в среднем менее оптимистичны.

Следующая таблица представляет пример фиктивного кодирования с французами в качестве контрольной группы, а C1, C2 и C3 соответственно будут кодами для итальянцев, немцев и прочих (ни французов, ни итальянцев, ни немцев):

Кодирование влияния

В системе кодирования влияния данные анализируются путём сравнения группы со всеми другими группами. В отличие от фиктивного кодирования здесь нет контрольной группы. Напротив, сравнение осуществляется со средним всех групп (a теперь будет общим средним). Поэтому не ищется связи данных с другими группами, а ищется связь с общим средним.

Кодирование влияния может быть либо взвешенным, либо нет. Взвешенное кодирование влияния просто вычисляет взвешенное общее среднее, таким образом принимая во внимание размер выборки по каждой переменной. Это наиболее уместно в ситуациях, когда выборка является представительной в популяции. Невзвешенное кодирование влияния наиболее уместно в ситуациях, когда разница в размере выборки является результатом случайных факторов. Интерпретация b различна для этих случаев — при невзвешенном кодировании влияние b является разностью между средним экспериментальной группы и общим средним, в то время как в случае взвешенного кодирования оно равно среднему экспериментальной группы минус взвешенное среднее.

При кодировании влияния мы кодируем исследуемую группу так же как при фиктивном кодировании. Принципиальное отличие заключается в том, что мы присваиваем код −1 для группы, которая нас меньше всего интересует. Поскольку мы продолжаем использовать кодирующую схему g — 1, закодированная значением −1 группа не производит никаких данных как следствие того, что мы наименее всего заинтересованы в этой группе.

Значения b должны интерпретироваться таким образом, что экспериментальная группа сравнивается со средним всех групп (или взвешенным общим средним в случае взвешенного кодирования влияния). Таким образом, получение отрицательного значения для b означает, что кодируемая группа имеет оценку, меньшую среднего всех групп на зависимой переменной. Если использовать наш предыдущий пример оценки оптимизма по нациям, если рассматривается группа итальянцев, наблюдаемое отрицательное значение b означает, что они имеют низкую оценку оптимизма.

Следующая таблица является примером кодирования влияния с наименее интересной группой прочие.

Контрастное кодирование

Система контрастного кодирования (или ортогонального кодирования) позволяет исследователю задавать конкретные вопросы прямо. Вместо того, чтобы кодирующая система диктовала сравнения (то есть, относительно контрольной группы как при фиктивном кодировании, или относительно всех групп, как при кодировании влияния) можно разработать уникальный критерий сравнения для конкретного вопроса исследования. Эти индивидуальные гипотезы как правило основываются на предварительно проведённых исследованиях и/или теориях. Гипотезы как правило следующие. Имеется центральная гипотеза, которая постулирует большое различие между двумя наборами групп. Вторая гипотеза предполагает, что в каждом наборе разница среди групп мала. Через эти априорные гипотезы контрастное кодирование может дать увеличение мощности статистического теста по сравнению с предыдущими системами кодирования.

Некоторые отличия появляются, когда мы сравниваем наши априорные коэффициенты между дисперсионным анализом и регрессией. В отличие от случая, когда используется дисперсионный анализ, где исследователь решает, будут значения коэффициентов ортогональны, или нет, при использовании регрессии существенно, чтобы значения коэффициентов, назначаемых при контрастном кодировании, были ортогональны. Более того, при регрессии значения коэффициентов должны быть либо в виде (обычной) дроби, либо в виде десятичной дроби. Они не могут быть интервальными значениями.

Построение контрастных кодов ограничено тремя правилами:

Сумма контрастных коэффициентов по каждой кодовой переменной (по всем группам) должна равняться нулю. В нашем случае, 1/3 + 1/3 — 2/3 = 0, 1/2 — 1/2 + 0 = 0.

Разность между суммой положительных (различных) коэффициентов и суммой отрицательных (различных) коэффициентов должна равняться 1. В нашем случае, 1/3 — (-2/3) = 1, 1/2 — (-1/2) = 1.

Кодовые переменные должны быть ортогональны .

Нарушение правила 2 даёт R2 и F значения, что показывает, что мы должны получить те же самые заключения о том, имеется ли существенное отличие; Однако, мы более не можем интерпретировать значения b как разность средних.

Чтобы проиллюстрировать построение контрастных кодов, рассмотрим следующую таблицу. Коэффициенты были выбраны для иллюстрации наших априорных гипотез: Гипотеза 1: Французы и итальянцы имеют больший оптимизм по сравнению с немцами (французы=+0,33, итальянцы=+0,33, немцы=−0,66). Это проиллюстрировано путём назначения одинаковых коэффициентов французской и итальянской категориям, и другого коэффициента немецкой. Назначенные знаки показывают направление связи (отрицательный знак у немцев показывает их меньший гипотетический оптимизм). Гипотеза 2: Ожидается, что французы и итальянцы имеют отличие в их оптимизме (французы=+0,50, итальянцы=−0,50, немцы=0). Следовательно, назначение нулевого значения немцам демонстрирует их невнесение в анализ этой гипотезы. Снова, назначенные знаки указывает на предполагаемые связи.

Кодирование бессмыслицы

Кодирование бессмыслицы случается, когда используются произвольные значения на местах, где стоят «0», «1» и «-1» в предыдущей системе кодирования. Хотя такое кодирование даёт правильные значения для переменных, использование кодирования бессмыслицы не рекомендуется, поскольку приведёт к непредсказуемым статистическим результатам.

Вложения

Вложения являются кодированиями категорических значений в вещественнозначные (иногда комплекснозначные) векторные пространства, обычно таким образом, что «похожие» значения назначаются «похожим» векторам, или с учётом некоторого вида критерия, что делает вектора полезными для соответствующего приложения. Обычным специальным случаем является вложение слов, где возможные значения качественные переменные являются словами на языке и словам с близкими значениями назначаются похожие вектора.

Взаимодействия

Взаимодействие может возникнуть, если рассматривается среди трёх или более переменных, и оно описывает ситуацию, в которой одновременное влияние двух переменных на третью не аддитивно. Взаимодействие может возникнуть с качественными переменными двумя способами: либо взаимодействие качественной переменной с качественной, либо взаимодействие качественной переменной с непрерывной.

Взаимодействие качественной переменной с качественной

Этот тип взаимодействия возникает, когда мы имеем две качественные переменные. Чтобы исследовать этот тип взаимодействия, следует кодировать систему, чтобы адресовать гипотезу исследователя наиболее адекватно. Результат кодирования воспроизводит взаимодействие. Можно затем вычислить значение b и определить, является ли это взаимодействие значимым.

Взаимодействие качественной переменной с непрерывной

Простой анализ наклонов является общепринятым ретроспективным анализом, используемом в регрессии, который похож на простой анализ влияния в дисперсионном анализе, используемом в анализе взаимодействия. В этом тесте мы проверяем наклоны одной независимой переменной на определённых значениях другой независимой переменной. Такой тест не ограничен непрерывными переменными и может быть также использован, когда независимая переменная является качественной. Мы не можем просто выбрать значения для исследования взаимодействия, как в случае непрерывной переменной, ввиду номинальной природы данных (то есть, в непрерывном случае, можно анализировать данные на высоком, среднем и низком уровнях назначая одно среднеквадратичное отклонение выше среднего, посередине и одно ниже среднего). В нашем случае мы используем простое уравнение регрессии для каждой группы для исследования наклонов. Обычной практикой является стандартизация или центрирование переменных чтобы сделать данные более интерпретируемыми при анализе наклона. Однако, качественные переменные не следует стандартизировать или центрировать. Этот тест может быть использован со всеми кодирующими системами.

Еще по этой теме:

Регрессионный метод построения педотрансферных функций (часть 1)

Большинство педотрансферных функций, основанных на статистических методах, являются или множественными уравнениями линейной регрессии или многочленами n-ого порядка. Множественная линейная регрессия

Метод группового учёта аргументов (часть 2)

Обучающая выборка используется для получения оценок коэффициентов полинома, а проверочная подвыборка используется для выбора структуры оптимальной модели, для которой внешний критерий принимает

Контурное представление информации (часть 1)

Наиболее традиционный способ представления основан на предположении, что изменения почвенных свойств носят скачкообразный характер, места резкого изменения свойств являются границами между

Представление в виде функциональной поверхности (часть 1)

Как было сказано выше, изменение свойства в пространстве можно представить в виде так называемой функциональной поверхности - массива данных с координатами х, у, определяющими местоположение точки

Геостатистические методы

В основе геостатистических методов лежит теория регионализованных переменных (ТПР). В русскоязычной литературе описание этих методов можно найти в работах Л.А. Иванниковой, Е.В. Мироненко, Н.Г.

Интерполяция данных методом кригинга (Kriging)

Группа методов интерполяции, в основе которых лежит использование семивариограммы, объединена под общим названием кригинг по имени одного из авторов этого метода - Д.Г. Крига. Эти методы описаны в

Комментарии:

Добавить комментарий