Мой коллега хочет контролировать 1000 переменных? - DataScientist
Купить гитару в Москве
0 голосов
/

Мой коллега хочет сделать выводы, контролируя 1000 переменных. Я не могу согласиться с ним. Как бы вы подошли к этому простому примеру?

Представьте себе, если бы Ebay продавал продукт видимости, где продавцы могли бы заплатить \ $5 to have their listing show up on top of the result list for a given category, subcategory and state, e.g. Electronics, Electric shavers, in California. Perhaps this typically generates 4000 pageviews for the lifetime of the listing without the \$ 5 продукт видимости, и 2000 дополнительных просмотров страниц с продуктом видимости. Теперь для другой категории, подкатегории и состояния это может сильно отличаться, возможно, 150 просмотров без и только 10 дополнительных просмотров страниц с продуктом видимости.

Каков разумный подход для измерения эффекта этого продукта видимости? Окупается ли покупатель покупкой этого продукта?

Идея в том, что у нас будут данные о всех списках и количестве просмотренных ими страниц, миллионы и миллионы записей.

IПредложено просто составить кросс-таблицу среднего количества просмотров страниц для каждой категории и подкатегории, отображая цифры и дополнительный эффект видимости продукта в процентах (%). Если бы мне нужно было сообщить одно единственное число, я бы использовал метод регрессии, подходящий для данных подсчета, такой как регрессия Пуассона (просмотры страниц основаны на целых числах). В этом случае я определенно сгруппировал бы как можно больше переменных, например, Запад, Средний Запад, Малая электроника и т. Д., И в моей модели я не превысил бы 20 переменных.

Мой коллега предложил использоватьсложная модель прогнозирования, такая как случайный лес или бустинг, и тренировка его на данных для списков без видимости продукта. Он будет включать все категории, подкатегории и состояния, вероятно, 1000 переменных. Эта модель получит точность 70% при перекрестной проверке. Тогда его идея состояла в том, чтобы использовать эту модель и предсказать, сколько просмотров страниц получат списки с продуктом видимости без продукта видимости. Таким образом, он рассматривает свою 70% -ную модель как истину или базовую линию, контролируя каждую возможную переменную. Затем он просто сравнивает этот прогноз с количеством просмотров страниц, фактически полученных списками, с продуктом видимости. Затем он сообщает о распределении и среднем из этого.

Как бы вы это сделали?

1 Ответ

0 голосов
/

Смесь обоих.

Я бы, вероятно, начал уменьшать размерность, чтобы избежать переобучения, используя, возможно, кластеризацию k-средних или PCA, которые уже могут помочь в оценке, оказывает ли продукт видимости эффект.

Как правило, я бы сказал, что подходы машинного обучения, такие как случайный лес, имеют тенденцию хорошо работать с такими проблемами, как ваша, и из того, что я могу почерпнуть из вашего поста, случайный лес (или другие ML-подходы) кажется возможным вариантом. Самая большая проблема, с которой я сталкиваюсь в подходе вашего коллеги, заключается в том, что должно быть трудно увеличить влияние продукта наглядности, поскольку существует так много переменных.

Добро пожаловать на сайт DataScientist, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...