Расслоить анализ, если тест Левена не удается - DataScientist
1 голос
/ 25 октября

У меня есть вопрос о правильности статистического анализа.

У меня есть переменная под названием L, которая представляет собой журнал количества бактерий, присутствующих в некоторых продуктах. L является функцией обработки T (четыре уровня), пищи F (7 уровней) и бактерий B (5 уровней). Каждое наблюдение состоит из трех повторностей, что означает, что для каждого значения (T, B, F) были выполнены три независимых измерения. Мне нужно знать, какие группы имеют одинаковую дисперсию в L.

Каждая группа помечена определенной обработкой, бактериями и пищей, т.е. каждая группа идентифицируется триплетом (T, B, F). Если я сравниваю дисперсию между каждой группой (T, B, F), у меня есть только три балла для оценки отклонения от (трех повторностей), и оценка не является действительно достоверной.

У меня нет проблем, если предположить, что разница между обработками одинакова, так что я могу объединить их вместе, и теперь мои группы будут обозначены (B, F), и каждая группа содержит 3 повторения * 4 обработки= 12 наблюдений. Теперь я могу оценить дисперсию в каждой группе и использовать тест Левена для проверки однородности. Первый тест спрашивает, все ли группы (B, F) имеют одинаковую дисперсию. Я обнаружил, что значение p равно $10^{-10}$, поэтому я могу сказать, что дисперсии разные.

Следующие шаги, в которых я не уверен, могут быть выполнены. Я хочу понять, какие группы имеют одинаковую дисперсию. Я расслаиваю анализ по еде и для каждого FI делаю тест Левена, где я проверяю однородность среди групп, помеченных (B). Я считаю, что большинство бактерий B имеют очень высокие значения p (за исключением двух). Поэтому для этих бактерий я могу считать, что различия между продуктами одинаковы.

Имеет ли это смысл?

1 Ответ

0 голосов
/ 25 октября

Мне нужно знать, какие группы имеют одинаковую дисперсию в L.

Акцент мой. Это сложно, большинство статистических тестов заботятся о том, чтобы рассказать вам, когда все по-другому, а не когда они одинаковы. На самом деле, даже если тест говорит вам, что «нет значительной разницы», это не значит, что они «одинаковы». Это может означать, что они "одинаковы", или это может означать, что у вас недостаточно данных, чтобы доказать их отличие

Каждая группа идентифицируется триплетом (T, B, F)

Я собираюсь установить некоторые обозначения для использования в оставшейся части ответа. Давайте обозначим каждую группу, как определено выше, $G_{tbf}$, где $t$ работает от $1$ до $4$;$b$ работает от $1$ до $5$$f$ работает от $1$ до $7$.

У меня нет проблем, если предположить, что разница между обработками одинакова

У меня. Для этого должен быть тест, который показывает $Var(G_{1..}) = Var(G_{2..}) = … = Var(G_{4..})$. Чтобы продолжить с ответом, я собираюсь предположить, что вы сделали тест, поэтому вы можете сделать предположение.

Я могу объединить их вместе, и теперь мои группы будут обозначены (B, F), и каждая группа содержит 3 повторения * 4 обработки = 12 наблюдений.

Этоэто еще одна сложная вещь, так как между $t$ и $b,f$ может быть взаимодействие. Тот факт, что вы получили столь низкое значение P, может быть связан с различиями в вариациях, вызванными взаимодействием с $t$, так как они были объединены в пул, узнать невозможно.

Я стратифицируюанализ по пище и для каждого F

Я бы избегал пост-стратификации на этом этапе анализа. За это есть штраф.

Что делать?

Хорошая новость заключается в том, что тот факт, что количество повторов (назовем это $R$) равно 3, не причинит вам столько вреда, сколькоВы думаете, что это так. Вы можете очень легко выполнить ANOVA, чтобы получить оценки дисперсии для $t$, $b$ и $f$. Вы даже можете получить оценки дисперсии для всех трех факторов. С этими частями информации вы должны быть в состоянии сказать, какие отклонения, по крайней мере, не .

...