a Dependent Variable: PRICE
Таблица 8
Корреляционная матрица, полученные при пошаговом МРА для всех участков Московской области.
Coefficient Correlations
Model
|
|
MKAD
|
GAS |
WC |
WAT
|
1
|
MKAD |
1.000 |
|
|
|
2
|
MKAD |
1.000 |
.384 |
|
|
|
GAS
|
.384 |
1.000 |
|
|
3
|
MKAD |
1.000 |
.366 |
.068 |
|
|
GAS
|
.366 |
1.000 |
-.169 |
|
|
WC
|
.068 |
-.169 |
1.000 |
|
4
|
MKAD |
1.000 |
.363 |
.071 |
-.044
|
|
GAS
|
.363 |
1.000 |
-.143 |
-.287
|
|
WC
|
.071 |
-.143 |
1.000 |
-.065 |
|
WAT
|
-.044 |
-.287 |
-.065 |
1.000 |
a Dependent Variable: PRICE
По результатам анализа лучшая из регрессий будет выглядеть следующим образом:
PRICE = 655.8 - 5.98*MKAD + 287.7*GAS + 493.7*WC + 70.6*WAT
Все коэффициенты значимы, но объяснительная сила модели все же невысока R2=0.29.
На следующем этапе была предпринята попытка построить мультипликативную модель МРА. Эта модель имеет следующий вид:
P = A0 * X1 A1* ... * XnAn, где (Х1 ...Хn) - характеристики объекта недвижимости, An- численные коэффициенты при переменных характеристиках объекта, показывающие вклад соответствующих характеристик в стоимость.
Эту модель можно калибровать, взяв натуральный логарифм от обеих частей уравнения: ln(P)= ln(A0)+A1*ln(X1)+…+An*ln(Xn).
Мультипликативные модели не требуют от разработчика заботиться о соблюдении условия аддитивности. Кроме того, когда цены продажи варьируют в широком диапазоне, логарифмирование позволяет нормализовать распределение, уравнивая, таким образом, веса, присваемые объектам. С другой стороны, мультипликативная структура модели делает невозможным введение в модель аддитивных соотношений.
Мультипликативная модель МРА для всех участков Московской области.
ln(PRICE) = 7.6643262 + 0.12213441*EL + 0.11659094*WAT + 0.35958211*GAS + 0.45370688*WC + 0.017970609*TEL - 0.020494465*ROAD + 0.0060355887*FOREST - 0.061245452*RIVER - 0.075985731*ln(SQU) - 0.56319586*ln(MKAD)
Модель можно привести к первоначальному виду,взяв экспоненту от обеих частей уравнения:
PRICE = 2131 * 1.13EL * 1.12WAT * 1.43GAS * 1.57WC * 1.02TEL * 0.98ROAD * 1.01FOREST * 0.94RIVER * SQU-0.08 * MKAD-0.56
Результаты представлены в таблице 9.
Таблица 9
Оценивание мультипликативной модели МРА для всех участков Московской области.
LS // Dependent Variable is ln(PRICE)
Sample(adjusted): 1 2112
Variable Coefficient Std. Error t-Statistic Prob.
C 7.664326 0.104975 73.01077 0.0000
EL 0.122134 0.044154 2.766099 0.0057
WAT 0.116591 0.038586 3.021593 0.0025
GAS 0.359582 0.046065 7.805986 0.0000
WC 0.453707 0.103441 4.386131 0.0000
TEL 0.017971 0.109060 0.164778 0.8691
ROAD -0.020494 0.038144 -0.537298 0.5911
FOREST 0.006036 0.038511 0.156725 0.8755
RIVER -0.061245 0.038488 -1.591274 0.1117
ln(SQU) -0.075986 0.032790 -2.317361 0.0206
ln(MKAD) -0.563196 0.019532 -28.83467 0.0000
R-squared 0.435339 Mean dependent var 5.765975
Adjusted R2 0.432651 S.D. dependent var 1.020056
S.E. of regression 0.768332 Akaike info criterion -0.521871
Sum squared resid 1240.293 Schwarz criterion -0.492416
Log likelihood -2434.702 F-statistic 161.9816
Durbin-Watson stat 1.701390 Prob(F-statistic) 0.000000
Качество этой модели выше, чем аддитивной, так как R2увеличился до 0.43, но все равно это очень низкое значение. Анализ t-статистик показывает значимость всех коэффициентов кроме наличия телефона, подъездной дороги, леса и водоема. Качество этой модели выше, чем аддитивной, так как R2увеличился до 0.43, но все равно это очень низкое значение. Анализ t-статистик показывает значимость всех коэффициентов кроме наличия телефона, подъездной дороги, леса и водоема. Коэффициенты при переменных не поменяли знаки, кроме коэффициента наличия электричества, но это, конечно же, логично, наличие электричества на земельном участке должно увеличивать цену. Как и в случае с аддитивной моделью были построены регрессии для 11 направлений. R2этих моделей увеличился и колеблется в пределах 0.45-0.55. Как и прежде значимы коэффициенты расстояния от МКАД у всех направлений, в 6 из 11 регрессиях значим коэффициент наличия магистрального газа. По сравнению с аддитивной моделью более часто встречается значимость площади участка. Таким образом, значимыми факторами, влияющими на формирование цен являются наличие магистрального газа, площадь участка, расстояние от МКАД, остальные факторы значимы в единичных случаях. Рассмотрим эластичности цены земельного участка по этим значимым факторам у мультипликативной модели, построенной для всех участков. Коэффициент при MKAD равный –0.56, означает, что увеличение расстояния от Москвы на 1%, уменьшает цену на 0.56%, напомним, что в аддитивной модели эластичность цены участка по расстоянию от МКАД получилась равной –0.51, т.е. тенденция оказалась похожей. Коэффициент при площади участка равный –0.07, означает, что увеличение площади участка на 1% уменьшает цену на 0.07%. Положительный коэффициент при магистральном газе равный 0.36, означает, что земельный участок с магистральным газом стоит на 36% дороже аналогичного участка без магистрального газа. Для регрессии, характеризующей все участки Московской области значимыми оказались так же коэффициенты при электричестве, водопроводе и канализации, что, согласно модели, должно увеличивать стоимость аналогичных участков без этих характеристик на, соответственно, 12.2%, 11.7% и 45%.
На следующем этапе была сделана попытка определения совместного влияния факторов. При этом анализировались следующие бинарные переменные (1-есть, 0 – нет):
EW – электричество*водопровод;
EG – электричество*газ;
EWG – электричество*водопровод*газ;
EWGR - электричество*водопровод*газ*дорога;
GW – газ*канализация.
Остальные комбинации не имело смысл анализировать в связи с очень малыми объемами данных. Наилучшие результаты были получены для переменных EG, EWG и GW, используя эти переменные можно было получать регрессии с R2=0.40-0.55.
Кроме этого были сделаны попытки ввести в уравнение такие переменные как lnSQU*GAS и lnMKAD*GAS, но построенные регрессии обладали слабой объясняющей силой.
В качестве примера приведем следующую модель:
ln(PRICE) = 7.6649261 + 0.090223682*EL + 0.22148706*WAT + 0.54363961*GAS + 0.46655554*WC - 0.074224116*ln(SQU) - 0.57763383*ln(MKAD) - 0.31814015*EWG
Результаты оценивания приведены в таблице 10.
Таблица 10
Оценивание мультипликативной модели МРА, учитывающей совместное влияние факторов, для всех участков Московской области.
LS // Dependent Variable is ln(PRICE)
Sample(adjusted): 1 2112
Variable Coefficient Std. Error t-Statistic Prob.
C 7.664926 0.103959 73.73057 0.0000
EL 0.090224 0.043134 2.091697 0.0366
WAT 0.221487 0.044383 4.990385 0.0000
GAS 0.543640 0.062057 8.760311 0.0000
WC 0.466556 0.096483 4.835628 0.0000
ln(SQU) -0.074224 0.032571 -2.278865 0.0228
ln(MKAD) -0.577634 0.019395 -29.78319 0.0000
EWG -0.318140 0.074138 -4.291179 0.0000
R-squared 0.441442 Mean dependent var 5.765975
Adjusted R-squared 0.439584 S.D. dependent var 1.020056
S.E. of regression 0.763624 Akaike info criterion -0.535579
Sum squared resid 1226.888 Schwarz criterion -0.514157
Log likelihood -2423.227 F-statistic 237.5489
Durbin-Watson stat 1.697318 Prob(F-statistic) 0.000000
Исключив незначимые переменные, мы получили регрессия с такой же объяснительной силой R2=0.44. Коэффициент при EWG значим и отрицателен, что говорит от том, что наличие на участке электричества, водопровода и магистрального газа уменьшает его цену на 31.7%, что является абсурдным, наличие коммуникаций должно увеличивать цену, исключив факторы EL, WAT, GAS и оставив лишь их совместное влияние, получаем следующую зависимость:
ln(PRICE) = 7.8825006 + 0.54644853*WC - 0.036845384*ln(SQU) - 0.60703765*ln(MKAD) + 0.29540937*EWG
Результаты оценивания приведены в таблице 11.
Таблица 11
Оценивание мультипликативной модели МРА, учитывающей только совместное влияние факторов, для всех участков Московской области.
LS // Dependent Variable is ln(PRICE)
Sample(adjusted): 1 2112
Variable Coefficient Std. Error t-Statistic Prob.
C 7.882501 0.102565 76.85370 0.0000
WC 0.546449 0.098895 5.525531 0.0000
SQU -0.036845 0.032168 -1.145408 0.2522
MKAD -0.607038 0.019320 -31.41957 0.0000
EWG 0.295409 0.045849 6.443112 0.0000
R-squared 0.408438 Mean dependent var 5.765975
Adjusted R-squared 0.407315 S.D. dependent var 1.020056
S.E. of regression 0.785301 Akaike info criterion -0.481012
Sum squared resid 1299.382 Schwarz criterion -0.467623
Log likelihood -2483.850 F-statistic 363.6893
Durbin-Watson stat 1.673356 Prob(F-statistic) 0.000000
Исключив переменные, мы получили регрессия с меньшей объяснительной силой R2=0.41 и с незначимым коэффициентом при SQU. Коэффициент при EWG значим и теперь положителен, что говорит от том, что наличие на участке электричества, водопровода и магистрального газа увеличивают его цену на 29.5%, что является более логичным по сравнению с предыдущей моделью.
Для проверки полученных результатов, а также в целях дополнительного анализа была взята база данных одного их агентств недвижимости («Новый город»www.newcity.ru), всего были исследованы предложения по 50 участкам Московской области за период 2001г. Попытки построить вышеуказанные регрессии также не увенчались успехом: добиться повышения коэффициента R2выше 0,4-0,5 не удалось.
Была предпринята попытка построить регрессии по 6 оценочным зонам. Схема оценочного зонирования Московской области 1999 года приведена в Приложении 3. На рисунке 4 представлены медиана, 25% и 75% квантили цен предложения 1999 года на земельные участки по 6 оценочным зонам. В таблице 12 указаны основные характеристики: максимальное и минимальное значения, среднее, стандартное отклонение, дисперсия. Напомним, что цены предложения 1999 года оценивались в долларах США/100м2.
Таблица 12
Основные статистические характеристики исследуемой выборки (по оценочным зонам).
Оценочная зона
|
Объем выборки |
Минимум |
Максимум |
Среднее |
Стандартное отклонение |
Дисперсия |
ЗОНА1 |
97 |
125.00 |
5000.00 |
1400.1 |
1003.1 |
1006387.4
|
ЗОНА2
|
328 |
80.00 |
3000.00 |
903.2 |
616.6 |
380243.3
|
ЗОНА3
|
503 |
53.00 |
5000.00 |
636.1 |
594.1 |
353042.1
|
ЗОНА4
|
522 |
19.00 |
9908.00 |
407.7 |
563.2 |
317199.0
|
ЗОНА5
|
206 |
29.00 |
3000.00 |
264.9 |
355.3 |
126257.8
|
ЗОНА6
|
455 |
17.00 |
4167.00 |
212.3 |
303.8 |
92311.2 |
Рисунок 3. Графическое представление основных статистических характеристик (максимум, минимум, 25% и 75% квантили, медиана).
Несмотря на хорошо просматриваемую зависимость - цены уменьшаются с увеличением зоны, а значит и с увеличением расстояния от МКАД, данную закономерность не удалось описать хорошей регрессионной моделью. Полученные R2были чрезвычайно малы (0,1-0,2), что в данном случае выглядит логичным: для каждой оценочной зоны назначается единая цена.
На последнем этапе анализа была предпринята попытка включить влияние принадлежности к оценочной зоне в модель мультипликативной регрессии, а также исключить выбросы при моделировании. Выбросами в МРА являются объекты с аномально большими отклонениями от основного «облака» исходных данных. Выбросы могут быть быть обусловлены по крайней мере тремя причинами. Во-первых, ошибка могла вкрасться при вводе данных. Если ошибки происходят часто, то это может привести не только к искажению информации по отдельным объектам, но и повлиять на модель в целом. Во-вторых, выбросы могут быть вызваны некорректностью отбора продаж. Такие продажи необходимо исключить или скорректировать. В-третьих, выброс может быть обусловлен нетипичными характеристиками конкретного объекта или нетипичной комбинацией характеристик. В целом, выбросы представляют собой обычное явление для любой модели.
Для определения влияния принадлежности к одной из 6 оценочных зон необходимо ввести 5 бинарных переменных:
zi1 =
zi2 =
zi3 =
zi4 =
zi5 =
Таким образом, необходимо оценить следующую регрессию:
ln(P)i= ln(A0)+A1*ln(Xi)(1) +…+A10*ln(Xi)(1)ln(P)i= ln(A0)+A1*ln(Xi)(1) +…+A10*ln(Xi)(1)+ С1Z(1)i+…+ C5Z(5)i, где P – цена предложения в долларах США/100 кв.м., А0– случайная величина, А1,… , А10и С1, …, С5– коэффициенты, соответственно, при Х1, …, Х10– факторы от EL до MKAD и Z(1), …,Z(5)– принадлежность к оценочной зоне.
Общая модель для всех участков Московской области:
ln(PRICE) = 6.4460467 + 0.12154927*EL + 0.11392791*WAT + 0.30749192*GAS + 0.44393784*WC + 0.045741459*TEL - 0.045319947*ROAD + 0.0045992639*FOREST - 0.07482143*RIVER - 0.10782937*ln(SQU) - 0.30903654*ln(MKAD) + 0.87181037*Z1 + 0.71476015*Z2 + 0.65921317*Z3 + 0.32907382*Z4 + 0.18905652*Z5
Результаты оценивания приведены в таблице 13.
Таблица 13
Оценивание мультипликативной модели МРА, учитывающей влияние фактора принадлежности к оценочной зоне, для всех участков Московской области.
LS // Dependent Variable is lnPRICE
Included observations: 2051 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 6.446047 0.193418 33.32695 0.0000
EL 0.121549 0.043228 2.811790 0.0050
WAT 0.113928 0.037977 2.999885 0.0027
GAS 0.307492 0.045772 6.717871 0.0000
WC 0.443938 0.102832 4.317103 0.0000
TEL 0.045741 0.108094 0.423162 0.6722
ROAD -0.045320 0.037414 -1.211311 0.2259
FOREST 0.004599 0.037861 0.121478 0.9033
RIVER -0.074821 0.037897 -1.974332 0.0485
lnSQU -0.107829 0.032432 -3.324789 0.0009
lnMKAD -0.309037 0.039653 -7.793558 0.0000
Z1 0.871810 0.146029 5.970126 0.0000
Z2 0.714760 0.106769 6.694425 0.0000
Z3 0.659213 0.074112 8.894778 0.0000
Z4 0.329074 0.056780 5.795573 0.0000
Z5 0.189057 0.066052 2.862228 0.0042
R-squared 0.450055 Mean dependent var 5.722011
Adjusted R-squared 0.446001 S.D. dependent var 0.998586
S.E. of regression 0.743259 Akaike info criterion -0.585651
Sum squared resid 1124.203 Schwarz criterion -0.541762