РефератБар.ру: | Главная | Карта сайта | Справка
Статистическая обработка и статистический анализ данных. Реферат.

Разделы: Статистика | Заказать реферат, диплом

Полнотекстовый поиск:




     Страница: 2 из 2
     <-- предыдущая следующая -->

Перейти на страницу:
скачать реферат | 1 2 






Причина частого обращения именно к закону нормального распределения заключается в том, что в этом типе распределения отражается закономерность, возникающая при взаимодействии множества случайных факторов, ни один из которых не является преобладающим.
Проверим гипотезу о нормальном законе распределения. Для этого воспользуемся критерием согласия Пирсона (хи-квадрат). Идея Пирсона заключается в расчете и последующей оценке размера отклонений фактических значений частоты появления признака по интервалам от их теоретических значений, т.е. значений, которые бы имели место в случае нормального распределения. Чем больше размер этих отклонений, тем меньше оснований считать распределение близким к нормальному.
Результаты проверки гипотезы представлены в Приложении В.
Т.к. значение Хи-квадрат расчетное (28,09) больше значения Хи-квадрат табличное (9,488), то гипотеза о нормальном характере распределения отклоняется. Этот результат не явился неожиданным, т.к. в социально-экономической статистике нормальное распределение практически вообще не встречается; однако сравнение с нормальным распределением важно для выяснения степени и характера отклонений от него фактического распределения.

Проанализируем характер отклонений в параметрах распределения от нормального. Построим график распределения.
Диаграмма 3.1 - График распределения

Анализируя график и используя данные вариационного анализа, делаем вывод о том, что распределение островершинное, имеет место умеренная правосторонняя асимметрия.
4. Корреляционный анализ

Следующим пунктом статистического исследования является проведение
корреляционного анализа , задачей которого является оценка тесноты связи между признаками.

Прежде всего, выделим признаки, наличие связи с которыми мы будем проверять:
ШЧисленность учащихся государственных дневных общеобразовательных учреждений (на начало учебного года 2001/02), тысяч человек;
ШСтроительство жилых домов в 1 полугодии 2002г., тыс. кв. м общей площади.

(Значения этих показателей по регионам представлены в Приложении Г).

Корреляционный анализ будем проводить в 4 этапа:
1) Построим
корреляционную решетку (аналитическую группировку единиц совокупности по двум признакам, между которыми оценивается связь).
2) Построим
поле корреляции (Графическое изображение связи между переменными, множество точек, координатами которых являются пары значений признаков по всем единицам совокупности)
3) Рассчитаем
показатели корреляции : коэффициент Фехнера (очень приближенный показатель (не учитывает величину отклонений индивидуальных значений признака от его средней величины), но по его значению можно сделать первые выводы о наличии или отсутствии связи) и эмпирическое корреляционное отношение (оценивает тесноту связи с высокой точностью и подходит для любых зависимостей).
4) Произведем анализ и оценку наличия, направления и тесноты корреляционной связи.

Численность населения в возрасте моложе трудоспособного на 1.01.2002 г., чел. (X) и численность учащихся государственных дневных общеобразовательных учреждений (на начало учебного года 2001/02), тыс. чел. (Y).

1) Исключим из совокупности г. Москву и Московскую обл. как регионы, характеризующиеся аномальными значениями признака Y.



Y

X

Менее
100

100-200

200-300

300-400

400-500

500-600

600- 700

Менее 180000

15

8

-

-

-

-

-

180000-360000

-

26

5

-

-

-

-

360000-540000

-


1

8

-

-

-

540000-720000

-

-

-

2

7

1

-

720000-900000

-

-

-

-

-

3

1

900000-1080000

-

-

-

-

-

-

1



2)

3) Коэффициент Фехнера = 1,0 (Расчеты представлены в Приложении Д).
Эмпирическое корреляционное отношение = 0,97 (Расчеты представлены в Приложении Е).
4) По расположению и концентрации единиц на поле корреляционной решетки можно с уверенностью предположить наличие прямой тесной связи между двумя данными признаками.
Анализируя график, оцениваем, что характер распределения точек на координатном поле подтверждает предположения о наличии прямой тесной связи между данными признаками.
Т.к. полученные значения коэффициентов корреляции превышают пороговые значения (0,5 для коэффициента Фехнера и 0,7 для ЭКО), то можно сделать окончательный вывод о том, что данные показатели связаны тесно (связь линейная).
Следовательно, можно построить уравнение регрессии и иметь возможность прогнозировать значения признака-результата.

Численность населения в возрасте моложе трудоспособного на 1.01.2002 г., чел. (X) и строительство жилых домов в 1 полугодии 2002г., тыс. кв. м общей площади (Y).

1) Исключим из совокупности г. Москву и Московскую обл. как регионы, характеризующиеся аномальными значениями признака Y.




Y

X

Менее
60

60-120

120-180

180-240

240-300

300-360

Более 360

Менее 180000

21

1

-

-

-

-

-

180000-360000

17

9

2

2

-

-

-

360000-540000

-

4

2

1

2

-

-

540000-720000

1

3

3

1

1

1

-

720000-900000

-

-

1

1

-

1

1

900000-1080000

-

-

-

-

-

-

1



2)

3) Коэффициент Фехнера = 0,71 (Расчеты представлены в Приложении Ж).
Эмпирическое корреляционное отношение = 0,63 (Расчеты представлены в Приложении З).
4) По расположению и концентрации единиц на поле корреляционной решетки сделать предположение о наличии слабой связи между двумя данными признаками.
Это предположение подтверждает и анализ графика.

Полученное значение коэффициента Фехнера говорит о наличии связи между данными показателями, но более точный показатель корреляции - эмпирическое корреляционное отношение - свидетельствует о том, что связь имеется, но не является тесной (значение ЭКО немного меньше порогового).

5. Выборочное наблюдение

Сформируем 2
выборочных совокупности , отобрав соответственно 19 (малая выборка) и 39 региона из 80. По методу отбора выберем бесповторную выборку (попавший в выборку регион не возвращается в исходную совокупность, из которой осуществляется дальнейший отбор). По способу отбора выберем собственно случайную выборку как наиболее простую (заключается в отборе единиц из генеральной совокупности наугад или на удачу без каких-либо элементов системности; технически проводится методом жеребьевки).
Сформированные выборки представлены в Приложениях И и К.
Данные о генеральной средней уже имеются Xср = 334566 чел.
Рассчитаем предельную ошибку выборки, учитывая, что отбор был произведен бесповторным способом. Ошибка возникает в силу того, что выборочная совокупность не полностью воспроизводит генеральную совокупность.
Так первая выборка является малой, то предельные ошибки будут рассчитывать по разным формулам.
Первая (малая) выборка:

Предельная ошибка выборки:
2 N - n
n-1 N - 1 ,

где tст – коэффициент Стьюдента, который находится по таблицам по входным параметрам: df=n-1=19-1=18, =1-F(t), 2– выборочная дисперсия (2= 37444958842).
F(t)=0,612, =0,388, tст=1,067, Х=42765 чел., 318996 чел.    404525 чел.
F(t)=0,812, =0,188, tст=1,734, Х=69499 чел., 292262 чел.    431260 чел.
F(t)=0,912, =0,088, tст=2,101, Х=84208 чел., 277553 чел.    445969 чел.
F(t)=0,960, =0,040, tст=2,552, Х=102284 чел., 259477 чел.    464045 чел.
Вторая выборка:
Предельная ошибка выборки:

2 N - n
n N - 1 ,

где t – коэффициент доверия, который находится по таблицам интеграла вероятности таблицам по входному параметру F(t), 2– генеральная дисперсия (2= 61959937500).
F(t)=0,612, t=0,87, Х=24982 чел., 323955 чел.    373919 чел.
F(t)=0,812, t=1,32, Х=37904 чел., 311033 чел.    386841 чел.
F(t)=0,912, t=1,71, Х=49103 чел., 299834 чел.    398040 чел.
F(t)=0,960, t=2,06, Х=59153 чел., 289784 чел.    408090 чел.
Вывод: при любой из заданных вероятностей значение генеральной средней, полученное путем расчетов по генеральной совокупности, попадает в доверительный интервал для генеральной средней, рассчитанный как по малой, так и по большой выборкам. Это объясняется, во-первых, высокой репрезентативностью сформированных выборок, а во-вторых, большими значениями предельных ошибок вследствие большого значения дисперсий. Кроме того, чем выше вероятность, тем шире доверительный интервал для генеральной средней особенно для малой выборки.

6. Анализ динамики

Проанализируем динамику показателя "Доля русского населения в РФ" за 1926-1989 годы.
Построим ряд динамики (Таблица 6.1), используя данные "Российского статистического ежегодника. 2002" о национальном составе населения по данным переписей (стр.91).
Таблица 6.1 – Доля русского населения в РФ



Год

1926

1939

1959

1970

1979

1989

Доля русского населения в РФ, %

73,6

82,9

83,3

82,8

82,6

81,5



Рассчитаем показатели динамики и тенденции динамики (Приложение Л).
Анализ полученных числовых данных позволяет сделать следующие выводы:
·абсолютная скорость роста ряда не является постоянной: наблюдается то приращение ряда (y>0), то сокращение (y ·приращение и сокращение ряда также не являются постоянными: то замедляются (0);
·показатель интенсивности изменения уровня ряда говорит о том, что наблюдается то рост (Тр>1), то снижение (Тр ·относительная скорость изменения уровней ряда в единицу времени (год) также постоянно меняется (Тпр>0 и Тпр ·среднегодовая доля русского населения в РФ за период с 1926 по 1989 годы составляла 81%;
·за период с 1926 по 1989 год доля русского населения в РФ возрастала в среднем на 0,1 процентных пунктов каждый год;
·каждый год с 1926 по 1989 доля русского населения в РФ увеличивалась в среднем в 1,021 раз.
Для выбора вида уравнения динамики (тренда) и расчета параметров тренда используем графический метод:
1) нанесем на поле координат (время - значение признака) точки, соответствующие значениям признака в каждый период времени;
2) на основе визуальной оценки расположения точек на поле координат проведем прямую линию, наиболее точно отражающую тенденцию распределения точек;
3) выберем на проведенной прямой две произвольные точки и, используя их координаты, запишем и решим систему уравнений, определив таким образом, параметры уравнения;
4) запишем уравнение динамики.

а + b * 1948 = 80
а + b * 1965 = 82
y = -153,8 + 0,12*t
Рассчитаем показатели колеблемости (Приложение М).
Так как полученные значения показателей колеблемости низкие, то можно говорить об устойчивости тенденции динамики и использовать полученное уравнение тренда y = -153,8 + 0,12*t для прогнозирования.

Заключение

После проведения многостороннего исследования показателя "Численность населения в возрасте моложе трудоспособного" могут быть сделаны следующие выводы:
1. если сопоставить абсолютные значения показателя "Численность населения в возрасте моложе трудоспособного на 1.01.2002 г., чел." по регионам со средним значением по РФ, то значительно большее количество регионов характеризуется значением показателя ниже среднего по РФ (54 региона против 26). Но если использовать относительный показатель "Доля населения в возрасте моложе трудоспособного на 1.01.2002 г., %", дающий возможность сравнения, то можно увидеть, что число регионов со значением показателя ниже среднего по РФ приближается к числу регионов со значением показателя выше среднего по РФ (44 и 36 регионов соответственно);
2. на 1.01.2002 средняя численность населения в возрасте моложе трудоспособного по регионам РФ составляла 339750 чел, однако абсолютный и относительный разброс значений признака также чрезвычайно высок;
3. т.к. значение Хи-квадрат расчетное (28,09) больше значения Хи-квадрат табличное (9,488), то гипотеза о нормальном характере распределения отклоняется. Этот результат не явился неожиданным, т.к. в социально-экономической статистике нормальное распределение практически вообще не встречается; однако сравнение с нормальным распределением важно для выяснения степени и характера отклонений от него фактического распределения;
4. установлено наличие прямой тесной связи данного показателя с показателем "Численность учащихся государственных дневных общеобразовательных учреждений (на начало учебного года 2001/02), тысяч человек" и связи, близкой к тесной, с показателем "Строительство жилых домов в 1 полугодии 2002г., тыс. кв. м общей площади";
5. при любой из заданных вероятностей значение генеральной средней, полученное путем расчетов по генеральной совокупности, попадает в доверительный интервал для генеральной средней, рассчитанный как по малой, так и по большой выборкам. Это объясняется, во-первых, высокой репрезентативностью сформированных выборок, а во-вторых, большими значениями предельных ошибок вследствие большого значения дисперсий;
6. среднегодовая доля русского населения в РФ за период с 1926 по 1989 годы составляла 81%; так как полученные значения показателей колеблемости низкие, то можно говорить об устойчивости тенденции динамики и использовать полученное уравнение тренда y = -153,8 + 0,12*t для прогнозирования.

Литература

1. Конспект лекций Таланкиной Е. А.

2. Лазарева Г. В., Богданчикова М. Ю. Статистика/ Учебное пособие по выполнению курсового проекта. -Челябинск, 2003.

3. Российский статистический ежегодник: Официальное издание. –М.: Госкомстат, 2002.

1

Х = t*

Численность населения в возрасте моложе трудоспособного, тыс. чел.

_
Х =

= 334566чел.

Х = tст*

v

v

а= -153,8; b=0,12

2




     Страница: 2 из 2
     <-- предыдущая следующая -->

Перейти на страницу:
скачать реферат | 1 2 

© 2007 ReferatBar.RU - Главная | Карта сайта | Справка