, соответственно для выборочной доли
.
При выборках большой численности, когда
из массовых генеральных совокупностей (
) для расчета ошибок выборки можно использовать формулу повторного отбора.
В формулах средней ошибки выборки присутствует генеральная дисперсия. Однако, она, как правило, неизвестна. Если мы проводим выборку для того, чтобы изучить только часть совокупности, мы не можем знать генеральную дисперсию. Исключение составляют только выборки, проводимые для контроля результата сплошного наблюдения.
Однако, математической статистикой доказано, что если выборка производится из нормального распределения совокупности генеральная и выборочная дисперсия связаны между собой следующим образом:
Из формулы видно, что достаточно большой выборке (n-1)®n, а
, откудаs2»S2. Поэтому для расчета средних ошибок выборки на практике используют выборочные дисперсии .
Если многократно проводить выборки из одной и той же генеральной совокупности, то конкретному размеру ошибки выборки будет соответствовать та или иная статистическая вероятность ее появления.
Вероятности конкретного размера ошибок подсчитать невозможно (нецелесообразно), гораздо важнее знать, что ошибка наблюдений не выйдет за определенные пределы.
p – вероятность того, что абсолютная величина ошибки выборки не превысит некоторого предела (tm) больше чем
;
t – доверительный коэффициент (>1);
tm=D- предельная ошибка выборки (допустимый предел ошибки)
Суть предельной теоремы : Чебышев доказал, что средняя арифметическая величина достаточно большого числа независимых случайных величин, дисперсии которых ограничены некоторой постоянной, становится фактически независимой от игры случая.
t=1, 2, 3
По формуле Чебышева, если
t=1rі0
t=2rі0,75
t=3rі0,89
Эта формула для условий повторного отбора.
Академик Марков доказал, что предельная теорема справедлива и для бесповторного отбора.
Академик Ляпунов доказал, что вероятности предельных ошибок многочисленных выборок подчиняются закону нормального распределения, следовательно, для определения вероятностей нахождения ошибки выборки в заданных пределах можно использовать интегральную формулу Лапласа.
Площадь кривой±s0,6827
2s0,9545
3s0,9973
Отсюда, если доверительный коэффициент t=1, то вероятность того, что предельная ошибка выборки не будет больше, чем средняя ошибка, которая составляет 0,683.
Вероятный интервал изменения генеральной средней или доли в статистике принято называть доверительным интервалом .
Пример: Для анализа жирности молока из партии в 1000 фляг было отобрано и проверено 30. Средний процент жирности в проверенных флягах составил 3,51%, при среднеквадратическом отклонении 0,35. С вероятностью 0,954 определить доверительный интервал средней жирности партии молока (если выборка бесповторная).
N=1000
n=30
=3,51%
S=0,35%
Если мы расширим допустимые пределы точности, то вероятностная надежность результата будет выше, а точность ниже.
Если p=0,997 то t=3, аD=0,19 тогда ожидаемая жирность молока в генеральной совокупности должна составить
.
3. Малая выборка.
В процессе статистических исследований нередко приходится ограничивать объем выборки, особенно в тех случаях, когда исследования единиц совокупности приводит к их разрушению.
В статистике доказано, что даже в выборке весьма малого объема (20-30, а иногда 4-5 единиц) позволяют получить приемлемые для анализа результаты. Проблема малых выборок была решена в 1908г. английским статистиком У.Гассетом (псевдоним Студент). Он сумел определить зависимость между величиной доверительного коэффициента t, а так же численностью малой выборки n с одной стороны, и вероятностью нахождения ошибки выборки в заданных пределах с другой стороны. Эта зависимость получила название – распределение Стьюдента . Для упрощения расчетов имеются специальные таблицы значений критериев Стьюдента (стр. 372 «Практикума по теории статистики»).
n=n-1 – число степеней свободы.
Малая выборка определяется по формуле
Средняя ошибка малой выборки
Дисперсия малой выборки
- число степеней свободы.
Пример: Ежедневные затраты времени 15 работников на поездки туда и обратно составляют в среднем 1,7 часа. Определить пределы, в которых находится среднее время поездки на работу и обратно.
n=15
=1,7 часа
S2=0,134
P=0,95
4. Определение оптимальной численности выборки.
Трудовые и материальные затраты на проведение выборки напрямую зависят от ее численности, поэтому чрезвычайно важно до оптимума сохранить численность выборки, так чтобы не утратить ее точность.
Поиск оптимальной численности выборки удобно осуществлять на основе формул средней и предельной ошибок. Из формулы средней ошибки случайного повторного отбора видно, что величина средней ошибки обратно пропорциональна квадратному корню из численности выборки (
). Чтобы сократить среднюю ошибку в 2 раза, нужно численность выборки увеличить в 4 раза. Используя формулу предельной ошибки выборки
можно найти численность
. Это оптимальная численность выборки для случайного повторного отбора .
Пример: Для определения среднего размера банковского вклада сроком на 91 день необходимо провести повторный отбор из совокупности в 2500 договоров. Какое количество договоров необходимо отобрать, чтобы с вероятностью 0,954 предельная ошибка выборки не превысила 25 руб.
N=2500
p=0,954
D=25 руб.
n-?
s2=8900
Наличие в формуле оптимальной численности генеральной дисперсииприводит на первый взгляд к парадоксу: зачем нам проводить выборку, если известна генеральная дисперсия (а, следовательно, и генеральная средняя). Однако на практике генеральная дисперсия обычно не известна, вместо нее используют выборочную дисперсию предыдущего обследования, так как дисперсия как показатель является более устойчивой, чем сами варианты, на основе которых она рассчитана.
Если отбор осуществляется бесповторно , то численность выборки для такого отбора рассчитывается по формуле:
Для предыдущего примера:
Результаты близки, так как очень велика генеральная совокупность.
Если в условиях задачи присутствует предельная ошибка выборочной доли , то формула:
- для повторного отбора;
- для бесповторного отбора.
Пример: В целях изучения спроса на спортивную обувь периодически проводился опрос 1500 спортсменов. Какова должна быть численность случайного бесповторного отбора, чтобы с p=0,954 ошибка выборки доли спортсменов, предпочитающих обувь с верхом из натуральной кожи, не превысила 0,05, если известно, что ранее этой обуви отдавали предпочтение 65% спортсменов.
N=1500
p=0,954 (t=2)
D=0,05
w=65%=0,65
n-?
5. Распространение результатов выборочного распределения на генеральную совокупность.
Для этих целей используется два метода:
§Метод прямого пересчета;
§Метод поправочных коэффициентов.
Метод прямого пересчета применяется для определения по данным о выборочной доле величины интервала, в пределах которого в генеральной совокупности с заданной вероятностью находится число единиц, обладающих изучаемым признаком.
Пример: По данным выборочного контроля в партии яблок весом 20 тонн доля стандарта составила 97,5%. Предельная ошибка выборки с p=0,954 равнялась 0,5%. Определить вес стандартных яблок во всей партии.
w=0,975 (97,5%)
p=0,954
D=0,005 (0,5%)
Основное назначение метода поправочных коэффициентов – уточнение данных сплошного массового наблюдения посредством выборочных проверок. Обычно такие проверки осуществляются инструкторами-контролерами по результатам проведенных переписей.
Пример: По результатам контрольного обхода счетного участка инструктором-контролером получены уточненные сведения о численности населения 589 человек вместо 572 зарегистрированных счетчиков. Всего на территории инструкторского участка по данным переписи проживало 3893 человека.
- скорректированная численность.
6. Классификация способов отбора.
Методология и результаты расчета основных параметров выборки непосредственно зависят от способа отбора единиц из генеральной совокупности.
Способ отбора – это определенная система организации выборочного исследования. Применение того или иного способа зависит от цели исследования условий выборки, специфики объекта исследования, необходимой точности и оперативности результатов и от средств выделенных на исследования.
Все способы отбора разделяются на 3 вида:
§Индивидуальный;
§Групповой;
§Комбинированный.
При индивидуальном виде отбирают отдельные единицы совокупности.
При групповом виде отбирают группы, серии единиц совокупности (например: выбрали из контейнера несколько ящиков и все их проверили).
Комбинированный способ сочетает индивидуальный и групповой.
Если выборочная совокупность получена сразу, отбор называют одноступенчатым .
При наличии нескольких последовательных этапов отбора – выборка считается многоступенчатой .
Единица отбора меняется на каждой ступени. В отличии от многоступенчатой – многофазная выборка сохраняет одну и ту же единицу на всех стадиях отбора. Однако программа наблюдения постепенно расширяется.
В зависимости от применяемой схемы отбора различают:
§Повторный;
§Бесповторный.
Каждый из видов отбора может осуществляться следующими способами:
1. Собственно случайным;
2. Механическим;
3. Типическим (стратефицированным);
4. Серийным (гнездовым);
5. Комбинированным.
7. Организация отбора различными способами и оценка надежности полученных результатов.
Различные способы отбора отличаются неодинаковой методикой формирования выборки и различными алгоритмами расчета ошибок репрезентативности.
Собственно случайный отборорганизуется таким образом, чтобы у всех единиц генеральной совокупности были равные возможности попасть в выборку. Это обеспечивается отбором по жребию, по таблицам случайных чисел или с помощью генераторов случайных чисел. Независимо от того, как будут отбирать единицы, их обязательно нумеруют. При отборе по жребию эти номера наносятся на карточки, шары и т.п., которые затем тщательно перемешиваются и из них наугад отбирается количество карточек, равное численности отбора.
Таблица случайных чисел это матрица 4 или 5 чисел, каждая цифра которой не зависит от остальных цифр данного числа и других чисел. В зависимости от численности выборки из таблицы выбираются одно, двух, трех или четырехзначное число. Числа можно отбирать по столбцам или строкам таблицы (начиная с любой строки или столбца) заранее заданным алгоритмом отбора.
В компьютерах и некоторых калькуляторах имеется генератор случайных чисел, который выводит на экран случайные числа.
Средняя ошибка собственно случайного повторного или бесповторного отбора определяется по формуле: см. пункт (2).
Механический отборэто направленная выборка из совокупности, предварительно упорядоченной по существующему или несуществующему признаку.
На первом этапе генеральная совокупность упорядочивается по какому-либо признаку. Независимо от признака при механическом отборе устанавливается пропорция отбора по формуле: N/n.
Если совокупность сгруппирована по несущественному признаку, то безразлично, с какой единицы начинать отбор.
Если совокупность сгруппирована или упорядочена по существенному признаку, то отбор следует начинать с середины первой группы.
Средняя ошибка механического отбора рассчитывается по формулам для случайного отбора. Это справедливо, когда отбор производился из совокупности, упорядоченной по несущественному признаку.
Если же совокупность была упорядочена по существенному признаку, то такой способ расчета несколько завышает среднюю ошибку выборки.
В данном случае можно было использовать среднюю из внутригрупповых дисперсий, а не общую дисперсию.
Типическая выборка(стратефицированная). При этой выборке генеральная совокупность вначале разбивается на типичные группы (страты), из которых производится случайный отбор единиц. Такая выборка гарантирует представительство всех типичных групп выборочной совокупности, что снижает ошибку выборки. Существуют пропорциональный и непропорциональный способы типического отбора.
При пропорциональном способе из каждой группы отбирается число единиц пропорциональное либо численности группы, либо внутригрупповой вариации изучаемого признака.
При типическом повторном отборе пропорциональном численности групповая средняя ошибка выборки определяется по формуле:
- средняя из внутригрупповых дисперсий;
- внутригрупповая дисперсия;
nj- численность соответствующих типических групп.
- средняя ошибка выборки для бесповторного отбора;
Если исследуется доля единиц совокупности, обладающих изучаемым признаком, то средние ошибки и дисперсия:
- для повторного отбора;
- для бесповторного отбора.
Пример: Для изучения средних цен одного блюда в предприятии общественного питания произведена 10% выборка пропорциональная численности групп.
Предприятия
|
Численность выборки, |
Средняя цена, |
Внутригрупповая дисперсия, |
|
|
Закусочные |
21 |
19,3 |
68,2 |
405,3 |
1432,2 |
Кафе |
24 |
42,5 |
151,45 |
1020 |
3634,8 |
Рестораны |
15 |
63,2 |
342,5 |
948 |
5137,5 |
|
60 |
39,56 |
|
2373,3 |
10204,5 |
Для расчетов нужно рассчитать среднюю из внутригрупповых дисперсий:
Предельная ошибка типической выборки с p=0,954
Доверительный интервал средней цены блюда
В 954 случаях из 1000 средняя цена блюда в генеральной совокупности будет не ниже 36 руб. 36 коп. и не выше 42 руб. 76 коп.
Оптимальная численность типической выборки пропорциональна численности групп, определяется по формулам:
- для повторного отбора;
- для бесповторного отбора.
Каковая должна быть численность выборки, чтобы с p=0,954 можно было бы утверждать, что предельная ошибка не превысит 3 руб. 50 коп.
Численность, подлежащая отбору из отдельных типических групп, рассчитывается по формуле:
Из 600 предприятий – 210 закусочных, 240 кафе, 150 ресторанов.
Наиболее из точных пропорциональных способов типического отбора является отбор пропорциональной вариации значений признака в группах. Данный отбор целесообразен при наличии генеральных внутригрупповых дисперсий. Это возможно, когда выборка осуществляется для контроля данных сплошного наблюдения или когда имеются данные предшествующего сплошного наблюдения.
Численность выборочных групп определяется по формуле:
- численность выборки из j-й типической группы;
- генеральная внутригрупповая дисперсия;
- численность составляющих типических групп в генеральной совокупности.
Средняя ошибка выборки бесповторного типического отбора пропорциональна вариации признака в группах. Определяется по формуле:
Данный способ отбора дает ошибку меньшую, чем отбор пропорциональный численности групп.
Наиболее общим случаем является непропорциональный типический отбор. При произвольных пропорциях формирования типических выборочных групп средняя ошибка выборки рассчитывается по формуле:
- средние ошибки выборки в каждой типической группе;
- численность соответствующих типических групп.
При этом, ошибки средние выборки по группам определяются по формулам:
- внутригрупповая дисперсия.
- для повторного отбора;
- для бесповторного отбора.
Серийный или гнездовой отбор – это случайный выбор групп единиц с последующим сплошным наблюдением внутри отобранных серий. Данная выборка применяется преимущественно для контроля качества товаров, когда целесообразно вскрывать и исследовать отдельные упаковки. Это разновидность направленного отбора, способствующего снижению ошибки выборки. Благодаря сплошному исследованию гнезд частные дисперсии не оказывают влияние на ошибку репрезентативности, которая зависит только от вариации серийных средних, то есть от межгрупповой дисперсии, определяется по формуле:
- частная выборочная дисперсия;
- общая средняя серийной выборки;
- число отобранных серий.
Средняя ошибка серийной выборки определяется по формулам:
- для повторного отбора;
- для бесповторного отбора.
Пример: при проверке качества обуви партии 500 коробов отобрано в случайном порядке и проверено 10 пар обуви. Число стандартных пар в коробах распределялось следующим образом.
№ коробов
|
1 |
2 |
3 |
4 |
5678910 |
Итого |
Число стандартных
пар в
коробе (
). |
48
|
45 |
50 |
49474850464849 |
480 |
|
2304
|
2025 |
2500 |
2401220923042500211623042401 |