Метрики расстояния с отсутствующими данными, где отсутствующие данные являются информативными - DataScientist
0 голосов
/ 25 октября

Я пытаюсь объединить подгруппы лиц, злоупотребляющих психоактивными веществами, на основе диагностического статуса (номинальный), возраста начала (порядковый, поскольку он задан в нашем наборе) и т. Д. Мой вопрос касается того, как обрабатывать недостающие данные для не пользователей. Очевидно, что это субъекты, которые не будут иметь никакого значения для «возраста начала», поскольку у них нет возраста, когда они начали пить (например).

Я планировал использовать пакет Daisy в R для вычисления Gowerрасстояние, которое позволило бы использовать номинальные и порядковые переменные в вычислении расстояния. Однако порядковые переменные, такие как возраст начала, количество дней, в течение которых вещества использовались на прошлой неделе, и дозировка вещества, используемая по определению, имеют пропущенные значения для тех, кто не пользуется ими. Тем не менее, нам по-прежнему необходимо разумно относиться к не пользователям, поскольку одним из основных прогнозов этого анализа является то, что кластеризация на расстоянии Gower выделит одну группу не пользователей и несколько подтипов пользователя вещества.

Если вопрос недостаточно ясен, пожалуйста, сообщите мне любую дополнительную информацию, которая может помочь.

1 Ответ

0 голосов
/ 26 октября

Просто разделите ваши данные на пользователей и не пользователей, потому что вы все равно не хотите, чтобы они находились в одном кластере.

Ваша большая проблема в том, что ваши атрибуты имеют очень разный масштаб. И хотя у Gower есть встроенная эвристическая для масштабирования, вы никогда не узнаете, насколько надежны ваши результаты, если они вообще пригодятся для использования.

...