Виды статистических переменных и преобразование в числовой тип

Весь математический аппарат для анализа статистических данных работает исключительно с числовыми данными. Проверка гипотез, корреляционный, факторный, регрессионный анализ – все это понятия, обретающие четкий смысл, когда мы говорим о числовых выборках.

Но исходные статистические данные выглядят совсем иначе. Например, простейший вид сбора – опросы населения – могут иметь такие поля как «возраст», «образование», «средний заработок», «нравятся ли булочки с изюмом?», а значения в полях – самыми различными. Разумеется, что для работы с такими данными требуется предварительная обработка.


Можно разделить все данные на следующие типы:

  • Ординальные и неординальные: для значений задан порядок или, соответственно, не задан.
  • Категориальные и количественные: значения определяются принадлежностью к определенному классу или задаются числовым значением.

Примеры:

  • Категориальные неординальные переменные:
    • Цвет: зеленый, желтый, серо-буро-малиновый
    • Пол: мужской, женский, «другое» (нынче модно).
    • «А правда ли, что..»: да, нет.
  • Категориальные ординальные переменные:
    • Возраст: старый, средний, молодой, грудничок
    • Образование: начальное, среднее, средне специальное, высшее.
    • Сюда бы я отнесла и всевозможные даты.
  • Количественные ординальные:
    • Цена: 100500, 666, …
    • Количество косичек в прическе: 2, 3, 4, 100

    Значения могут быть как целыми, так и дробными, при особом желании – комплексными.

  • Количественные неординальные не существуют.

Приведение к числовому виду требуется только для категориальных переменных. Наиболее простой и распространенный подход состоит в сопоставлении каждому классу его номера. Он подходит и для ординальных, и для неординальных переменных и отличается для них только одним требованием: если для значений задан порядок, то и порядок номеров классов должен его сохранять.

Любую категориальную переменную можно привести к нескольким переменным со значениями «да» и «нет». В простейшем случае число новых переменных равно числу всех классов значений исходной, но количество может быть сокращено до двоичного логарифма (количества исходных значений). Для этого можно использовать метод аля бинарный поиск, создав переменные вида «класс из первой половины?» «класс из первой половины предыдущей половины?» и т.д. Эти заморочки могут понадобиться, если классов действительно много и требуется задать входные данные в полярных значениях.

Небольшое замечание. Последний метод может быть полезен при работе с нейронными сетями, поскольку позволяет избежать входов, возбуждающих только один нейрон, что благоприятно скажется в процессе обучения.

Добавить комментарий