Отсутствие вменения данных в одном непрерывном столбце, которое зависит от другого признака и имеет смысл только в том случае, если оно положительно - DataScientist
1 голос
/ 25 октября

Для каждой строки (открытого контракта) моего набора данных у меня есть определенное количество заказов. Я создал некоторые функции, связанные с такими заказами;Возьмем, к примеру, среднее значение и стандартное отклонение интервалов по времени.

ПРОБЛЕМА : когда у меня 0 порядков, среднее значение и интервалы равны NaN. Более того, всякий раз, когда у меня есть 1 порядок, Python явно устанавливает отклонение std в 0, потому что имеет только одно значение, но это концептуально неверно, поскольку соответствует случаю, когда у меня N интервалов одинаковой длины. Я должен разобраться с этими двумя исключениями, учитывая, что вместе образцы с 0 или 1 порядком составляют 50% моего набора данных.

МОЕ РЕШЕНИЕ : я думал о том, чтобы вывести значение из масштаба (таким образом, отрицательно): в данный момент я выставляю -100 как к среднему, так и к std dev, когда у меня 0 ордеров, и -50 (только к std dev), когда 1 ордер, как в Figure 1 . Причина или, по крайней мере, то, чего я пытаюсь достичь, состоит в том, чтобы иметь непрерывную переменную и модель, способную различать отрицательные значения, понимая, что последние просто ссылаются на исключение.

ВОПРОС: Значение, которым я заполняю такие ситуации, сильно влияет на масштабирование (напоминая, что они составляют 50% моих данных). В Рис. 2 два разных масштабирования: выше заполнения с помощью -2 и -1, ниже результирующего масштабирования с использованием -100 и -50.
Таким образом, на модели, которые являются масштабным вариантом, такие как SVM или нейронные сети, очень влияет этот выбор. Подскажите, пожалуйста, как правильно выбрать разумное значение вне масштаба или другой способсправиться с этими ситуациями?

Добро пожаловать на сайт DataScientist, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...