Определение требуемого размера выборки.

К наиболее важным задачам при проведение имитационного эксперимента относится задача определения требуемого объема выборки. Следует заметить, что поскольку имитационная модель носит стохастический характер, то точность полученных результатов существенно зависит от объема выборки. Известно также, что многие методы анализа стохастических систем базируются на предположении о том, что распределение случайных величин в таких системах подчиняется нормальному закону, т.к. на основании применения центральной предельной теоремы теории вероятности, отклики в таких системах представляют собой некоторую совокупность “больших” чисел на отклик сложной системы. Это приводит к тому, что отклик носит нормальное распределение. На основании этого эффекта и производится выбор требуемого объема выборки. Оцениваемым параметром, в этом случае, является среднее значение и среднеквадратическое отклонение. При этом используют правило метода доверительных интервалов, в котором предполагается задание точности по двум параметрам:

{dn - mn} и {bn - sn (D =sn2 )}.

Для некоторого отклика модели для определения объема выборки необходимо задавать dn, bn и a (a - 1), где a - уровень значимости.

clip_image002

Требуемый объем выборки должен удовлетворять условиям:

Yn,k - dn £ Mn £Yn,k + dn,

Dn,k - bn £ D £ Dn,k + bn.

Исследователь обычно задает число опытов слишком большое, однако, на практике рекомендуется следующий алгоритм выбора объема выборки: задают N1 = 5, где N1 - объем выборки и первая итерация заключается в подсчете

clip_image004

Вторая итерация: для очередного номера N выходных сигналов определяют точность bn1, dn1 (dn1 £ dn, bn1 £ bn при уровне значимости a) и проводят эксперимент. Эта оценка может быть оценена тремя способами:

1 способ.

Если объем выборки N1 < 30, то для вычисления доверительного интервала можно воспользоваться Т - статистикой, из которой dn1 определяется следующим образом:

clip_image006

В этой формуле tкр - значение, определяемое из таблицы распределения Стъюдента или Т-статистики аналогично вопросам адекватности по уровню значимости a (1 - a) и по числу степеней свободы g = N1 -1.

2 способ.

Если объем выборки N1> 30, то для вычисления доверительного интервала используют двухстороннюю статистику нормированного нормального распределения.

clip_image008 (4)

Z a/2 = t, Z a/2 - определяют также из таблиц по заданному уровню значимости.

3 способ.

Если нормальность отклика Yn,k заранее установить нельзя, то применяется неравенство Чебышева, в котором предполагается, что N1 > 30.

clip_image010где

Yn - среднее значение выборки N1,

mn - математическое ожидание,

h - константа, определяющая среднеквадратическое отклонение, которое удовлетворяет исследованию, как правило, n > 1 , тогда доверительный интервал:

clip_image012

или при оценке дисперсии:

Р{(1 - bn) sn2 £ Dn £ (1+bn) sn2} = 1 - a,

clip_image014

Третья итерация связана с оценкой полученных значений bn1, d1n с заданными: dn1 £ dn, bn1 £ bn.

Если требуемая точность достигается, то процедура переходит к пятому шагу итерации, если нет - к четвертому шагу.

Четвертый шаг итерации связан с увеличением начальной выборки N1 = N1 +1. Затем осуществляется переход к первому шагу.

Пятый шаг - проверяют, все ли компоненты по выходным откликам удовлетворяют точности оценок математических ожиданий и дисперсий и, если эта проверка по всем параметрам дает положительный результат, то эксперимент завершается.

Пример1.

Рассчитать необходимый объем выборки N1 для достижения оценки математического ожидания с заданной точностью dn = 3.5 и доверительной вероятностью р = 0.95. Известны оценки двух дисперсий: D1 = s12 = 295, D2 = s22 = 547 вычислены по двум выборкам малого объема из одной генеральной совокупности.

Процедура нахождения объема выборки может быть следующей:

1.Вычисляется среднее значение дисперсии:

s02 = (295 + 547)/2 = 421.

2.По заданной доверительной вероятности р = 0.95 определяют из специальных таблиц для нормального распределения значение интеграла: 1/(2p) ò0ti e-Z2/2 dz, ti - квантин нормального распределения, t = 1.96 (при =0.95), р/2 = 0.475.

clip_image016

3. t = Za/2, j0(t) = p/2.

4. Необходимый объем выборки в этом случае берется по четвертой формуле:

N1 = (t2Dn)/d2.

Сведем полученные результаты в таблицу:

Dn=D0

d

p

Ф0 (t)

t

N1

421

3.5

0.95

0.475

1.96

132

Пример2.

Предположим, что надо оценить среднесуточный выход продукции с вероятностью р = 0.95 так, чтобы ошибка точности представления была ± 4 тонны. Пусть известен допустим, размер колебаний выхода продукции sn =80т. Требуется определить N1.

clip_image018

Т.к. используется предположение о том, что отклик носит нормальное распределение, воспользуемся основными характеристиками нормального распределения:

mx = (xmax + xmin) /2,

sx = (xmax + xmin)/2Ö3, т.к. x min = 0, то mx = 40 тонн, sx = 80/2Ö3.

2Ö3 = 4, sx = 20.

Мы хотим, чтобы с вероятностью 0.95 оценка среднего значения лежала бы внутри интервала:

mx - dn £ Yn £ mx + dn.

Если известен допустимый размах выходной составляющей, то дисперсия D = s2 = 400, т.к. s = 20.

Из формулы (4) N1 = (s´t2)/d2, где t = 1.96, т.к. р = 0.95 (a=0.95).

Пример 3.

Допустим, мы не знаем максимального размаха выходной переменной, а значит не знаем среднеквадратического отклонения. Тогда задача формулируется следующим образом: какая выборка обеспечит оценку с вероятностью 0.95 в пределах mn ± s/4? В этом случае выбирают dn = s /4 при t = Za/2 = 1.96 и

N1 = (1.96 s2)/ (s/4)2 = 61.

Вывод: размер выборки N1 можно определить и не зная s, но задавшись оценкой dn = s/4 (при равномерном распределении!).

Пример 4.

Рассчитать количество реализаций N1 при моделировании системы, если в качестве показателя эффективности используется вероятность р при достоверности q = 0.95. В этом случае уровнем значимости a = 1 - q = 0.05. t = 1.96, dn = 0.01, 0.02, 0.05.

Рассмотрим N1 = (s´t2)/d2.

Для доказательства используют следующие выражения:

М | x | = x1p + x2(1-p),

D | x | = (x1- М | x |)2 p + (x2 - М | x |)2(1-p), где

х1 - может принимать значения 1 с вероятностью р, а

х2 - принимает значение 0 с вероятностью (1- р), т.е. с помощью х1 и х2 оценивается выполнение некоторых событий.

М | x | = 1p + 0(1-p),

D | x | = (1 - р)2 p + (0 - р)2(1-p),

D = p(1-p),

N1 = [t2 ´ p (1-p)]/d2.

Проведем два вычисления:

р = 0.1 и d = 0.01, d = 0.05.

clip_image020

Вывод: как видно из этих расчетов, на число выборки существенно влияет точность представления (dn), поэтому в начальной стадии запуска сложных имитационных моделей не следует оценку точности dn брать чрезмерно высокой. В этих формулах присутствует дисперсия. В настоящее время существуют проблемы, связанные с уменьшением дисперсии и Шеннон предлагает некоторые методы организации имитационных экспериментов, позволяющих уменьшить уровень дисперсии.

Предлагаю ознакомиться с аналогичными статьями: