Чем меньше рассеяние эмпирических точек вокруг прямой, тем меньше средняя квадратическая ошибка уравнения. Таким образом, величинаSeслужит показателем значимости и полезности прямой, выражающей соотношение между двумя признаками.
Средняя квадратическая ошибка уравнения дает возможность в каждом отдельном случае с определенной вероятностью указать, что величина результативного признака окажется в определенном интервале относительно значения, вычисленного по уравнению связи.
Определим доверительные границы для результативного признака, т.е. те границы, в пределах которых с заданной доверительной вероятностью будет находиться теоретическое значениеу.Поскольку параметры уравнения регрессии определяются по выборочным данным, являясь функцией наблюденных значений, оценки параметровaиbсодержат некоторую погрешность. Дисперсия значения зависимой переменной, определяемой по уравнению линейной зависимости, будет складываться из дисперсии параметрааи дисперсии параметраb.
Зная дисперсию показателяy~и задаваясь уравнением доверительной вероятности, можно определить доверительные границы результативного признака при
значении факторного признакаx0следующим образом:
гдеta– определяется в соответствии с уровнем значимости по t-распределению Стьюдента.
Величина множителя
будет вычисляться для каждого значенияx0.С удалением значения факторного признака от своего среднего арифметического значения величинаCX0будет возрастать.
Поскольку параметры уравнения регрессии определяются по выборочным данным, являясь функцией наблюденных значений, оценки параметроваиbсодержат некоторую погрешность. Поэтому, как и во всех случаях оценки параметров генеральной совокупности по выборочным данным, возникает задача проверки гипотезы о величине коэффициента регрессии.
4.3 Перенесение среднего потребления на район № 35
Построим сложную группировку по признакам, у которых связь с потреблением существенна (род занятий и образование) (табл. 4.12). Найдем среднее потребление в каждой группе и перенесем его в соответствующую группу во второй район. Коэффициент доверия в группе надо находить по таблице Стьюдента, так как каждая группа представляет собой малую выборку. После этого необходимо найти предельную ошибку в каждой группе потребителей
Dxj= tjSx,
гдеSx– средняя ошибка средней из первого района,t=1,96
и рассчитать предельную ошибку средней для всего района в целом (как взвешенную среднюю, у которой вес – количество человек в группе):
.
Тогда среднее потребление во втором районе находится в интервале:
0,3927-0,0698ЈmЈ0,3927+0,0698;
0,3229ЈmЈ0,4625.
Если каждый из каждую границу доверительного интервала среднего потребления умножить на количество человек в районе (100000 чел.), то получим границы доверительного интервала емкости рынка по данной продукции (в кг):
32290ЈЕЈ46250
5 Расчет доли потребителей с доходом до 1000 руб./мес.В районе № 40
Доля потребителей с доходом до 1000 руб./мес в районе №40:
Доверительные пределы генеральной доли выглядят так:
.
Величина доверительного интервала для генеральной доли зависит от величины предельной ошибки выборкиDp.Чем больше величина предельной ошибки выборки, тем больше величина доверительного интервала и тем, следовательно, ниже точность оценки.
Поскольку величина предельной ошибки выборки равнаtm, точность оценки параметров генеральной совокупности будет зависеть от принятого уровня доверительной вероятности и от величины стандартной ошибки выборки.
Средняя ошибка доли для бесповторной выборки:
(или 4,2 %)
С вероятностьюF=0,95можем утверждать, что предельная ошибка доли потребителей с доходом до 1000 руб./мес. в первом районе не превысит 0,0823 (Dр= 1,96Sp) и доля этих потребителей в генеральной совокупности будет находиться в интервале: 0,1817ЈpЈ0,3463.
6 ПРОВЕРКА ГИПОТЕЗЫ О НОРМАЛЬНОМ ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЯ «СРЕДНЕМЕСЯЧНЫЙ ДОХОД» В РАЙОНЕ № 40
Степень расхождения теоретических и эмпирических частот оценивается с помощью особых показателей – критериев согласия, с помощью которых проверяется гипотеза о законе распределения. Критерии согласия основаны на использовании различных мер расстояний между анализируемым эмпирическим распределением и функцией распределения признака в генеральной совокупности.
Одним из наиболее часто употребляемых критериев согласия являетсякритерий «хи-квадрат» (c2),предложенный К. Пирсоном,
гдеfjиf`j–соответственно частоты эмпирического и теоретического распределений вj-том интервале.
Чем больше разность между наблюдаемыми и теоретическими частотами, тем больше величина критерия Пирсона. Чтобы отличить существенные значенияc2от значений, которые могут возникнуть в результате случайностей выборки, рассчитанное значение критерия сравнивается с табличным значениемc2таблпри соответствующем числе степеней свободы и заданном уровне значимости. Уро
вень значимости выбираем таким образом, чтоР (c2расч.>c2табл.)=a(величинаaпринимается равный 0,05 или 0,01).
Определив значение критерия Пирсона по данным конкретной выборки, можно встретиться с такими вариантами:
1)c2расч.>c2табл. ,т.е.c2попадает в критическую область. Это означает, что расхождение между эмпирическими и теоретическими частотами существенно и его нельзя объяснить случайными колебаниями выборочных данных. В таком случае гипотеза о близости эмпирического распределения к нормальному отвергается.
2)c2расч.Јc2табл., т.е. рассчитанный критерий не превышает максимально возможную величину расхождений эмпирических и теоретических частот, которая может возникнуть в силу случайных колебаний выборочных данных. В этом случае гипотеза о близости эмпирического распределения к нормальному не отвергается.
Табличное значение критерия Пирсона определяется при фиксированном уровне значимости и соответствующем числе степеней свободы.
Число степеней свободы равноk-l-1, гдеl– число условий, которые предполагаются выполненными при вычислении теоретических частот,k–число групп.
Так как при вычислении теоретических частот нормального распределения в качестве оценок генеральной средней и дисперсии используются соответствующие выборочные характеристики, то для проверки гипотезы о нормальности распределения число степеней свободы равно (k-3).
При расчете критерия Пирсона нужно соблюдать следующие условия:
1) число наблюдений должно быть достаточно велико, во всяком случаеnі50;
2) 2) если теоретические частоты в некоторых интервалах меньше 5, то такие интервалы объединяют так, чтобы частоты были более 5.
Расчеты по вычислениюc2приведены в таблицах 6.1 и 6.2.
Таблица 6.1
Доход
|
|
fj |
|
| | | |
Менее 960 |
605 |
26 |
15730 |
44639038,34 |
-1,00847 |
0,2399 |
14 |
960-1670 |
1315 |
34 |
44710 |
12252243,06 |
-0,46202 |
0,3586 |
22 |
1670-2380 |
2025 |
23 |
46575 |
276784,07 |
0,08443 |
0,3975 |
24 |
2380-3090 |
2735 |
9 |
24615 |
6047172,81 |
0,63087 |
0,3270 |
20 |
3090-3800 |
3445 |
6 |
20670 |
14039892,54 |
1,17732 |
0,1995 |
12 |
3800-4510 |
4155 |
4 |
16620 |
20065024,36 |
1,72377 |
0,0903 |
6 |
4510-5220 |
4865 |
4 |
19460 |
34802920,36 |
2,27022 |
0,0303 |
2 |
Более 5220 |
5575 |
4 |
22300 |
53573616,36 |
2,81667 |
0,0076 |
0 |
Итого |
|
110
|
210680 |
185696691,90 |
|
|
|
гдеx’j– середина интервала;
fj–количество человек в группе;
t– нормативное отклонение;
f(t)– нормированная функция,
f’ – теоретическая чистота.
Средний доход:
;
СКО:
;
Объединив интервалы 6-8, получаем следующие данные:
Таблица 6.2
Номер интервала |
Эмпирическиечастоты |
Теоретическиечастоты |
|
1
|
26
|
14 |
9,300 |
2
|
35
|
22 |
7,189 |
3
|
23
|
24 |
0,034 |
4
|
9
|
20 |
5,774 |
5
|
6
|
12 |
2,993 |
6
|
12
|
8 |
2,000 |
Итого
|
|
|
27,284
|
Критерий Пирсона (фактический):
Критерий Пирсона (табличный):
(d.f.= 6-3 =3).
Так как
, то не подтверждается гипотеза о нормальном распределении показателя «среднемесячный доход потребителя» в районе № 40.
ЗАКЛЮЧЕНИЕ
При определении емкости рынка было выявлено, что средняя ошибка средней выборочного наблюдения во втором районе несколько больше, чем во втором. Ошибки репрезентативности могут быть систематическими и случайными.Систематические ошибкимогут возникать в связи с особенностями принятой системы отбора и обработки данных наблюдений или в связи с нарушением установленных правил отбора. Возникновениеслучайных ошибокрепрезентативности объясняется недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности, в силу чего распределение отобранной совокупности единиц не вполне точно воспроизводит распределение единиц генеральной совокупности.
Величина случайной ошибки репрезентативности зависит:
1) от принятого способа формирования выборочной совокупности. Выбор последнего связан с решением вопросов о единице отбора, способе отбора единиц, способе размещения всего объема отбираемых единиц по различным группам генеральной совокупности;
2) от объема выборки;
3) от степени колеблемости изучаемого признака в генеральной совокупности.
Верхний и нижний пределы доверительного интервала емкости рынка сильно различаются, поэтому конкретно нельзя сказать о том, сколько может поглотить этот рынок.
При проверки гипотезы о нормальном распределении показателя «среднемесячный доход потребителя» в районе № 40 обнаружено, что гипотеза не подтверждается, ряд обладает правосторонней симметрией и, что потребителей с небольшим доходом гораздо больше, чем потребителей с высокими заработками.