Методы анализа данных

Делая выбор метода анализа данных, я остановила выбор именно на регрессионном анализе, поскольку он способен объяснить взаимосвязь между многими переменными и показать, как один показатель зависит от остальных. Это именно то, что требуется в моем случае, поскольку требуется объяснить владение ТДП различными характеристиками домохозяйств. После ознакомления с литературой, описывающий данный метод, мне представляется возможным сделать следующие методические замечания, которые касаются моей задачи.

1. Регрессионный анализ предназначен для моделирования поведения одной количественной переменной от других. Следовательно, индекс обеспеченности ТДП, который я строю, должен быть количественным (а не качественным: например, высокая/средняя/низкая обеспеченность).

2. Регрессионный анализ предполагает также использование числовых переменных в качестве независимых (объясняющих). Некоторые показатели, которые есть в базе данных (например, доход) уже удовлетворяют этому требованию. Но, например, местность проживания, которую я тоже хочу учесть, так как городские домохозяйства обычно обеспечены лучше сельских, является качественной. Поэтому для нее требуется специальное преобразование, которое сделает эту переменную двоичной.

3. Регрессионный анализ является многомерным статистическим методом, то есть, учитывает больше, чем 1 взаимосвязь между признаками. Коэффициенты регрессионной модели должны интерпретироваться по принципу «при прочих равных условиях», а не каждый в отдельности. То есть, например (забегая вперед), нельзя говорить, что каждый дополнительный член семьи обеспечивает рост индекса ТДП на 0,148. Это утверждение верно лишь при прочих равных условиях, т.е. для семей с таким же доходом, таким же числом источников дохода и т.д.

4. Заложенный в SPSS регрессионный анализ является «линейным», что позволяет определить общие закономерности, но может быть недостаточно точным, если суть взаимосвязей между изучаемыми мной признаками нелинейная. Это надо тоже учесть при подготовке выводов. Но нелинейные модели, конечно, достаточно сложны. С другой стороны, если заглянуть в научные журналы, особенно зарубежные, линейный регрессионный анализ используется сплошь и рядом.

5. Качество модели регрессионного анализа определяют с помощью показателя R2 (R-квадрат). Он варьируется от 0 до 1. «0» означает абсолютно бесполезную модель, «1» - идеальную. Он же имеет интерпретацию в процентах объяснения поведения зависимой переменной. Например, R2=0,09 означает, что модель объясняет поведение зависимой переменной на 9%. Надо, забегая вперед, сказать, что качество моих моделей оказалось не очень высоким. Но это тоже важный результат. Я проверила и доказала, что индекс ТДП слабо зависит от тех переменных, которые я выбрала.

6. Имеет смысл обращать на значимость коэффициентов регрессии и значимость модели в целом (это графы Sig. в SPSS). Эти значения, наоборот, должны быть маленькими. Они как бы показывают, надежность результатов. Потому что, например, на маленькой выборке результаты могут быть не очень надежными.

7. Необходимо обратить внимание на наличии специальных кодов, которые могут содержаться в переменных. Например, в анкете RLMS если респондент отказывался отвечать на вопрос о доходе, там вбивался код «99999». Важно избавиться от этих кодов перед началом моделирования, иначе SPSS посчитает 999999 за величину дохода семьи респондента в рублях. Что, конечно, исказит результаты.

8. Перед началом моделирования необходимо изучить простые распределения переменных (т.н. Descriptive Statistics – описательная статистика), которая скажет, какие вообще есть значения у этих переменных, как часто они встречаются, какой там минимум и максимум и проч. Все это позволит проверить, подходят ли данные для анализа.

Что касается методической литературы по регрессионному анализу, то она в избытке имеется на российском рынке. Взять хотя бы книгу Э. Сигела, где регрессионный анализ рассматривается в одной из глав достаточно подробно. Этот вид анализа рассматривается в общих чертах и в книгах по общей теории статистики, например. Все это доказывает, что данный вид анализа очень важен и практически полезен.


Похожие статьи:

Место проведения интервью
Особенности интервью по-разному проявляются в различных его организационных формах. Интервью по месту работы, занятий, то есть в служебном помещении. Оно наиболее целесообразно, когда изучаются производственные или учебные коллективы, пред ...

Что такое прикладная социология?
Как считает Кравченко, здание социологической науки состоит из пяти этажей. На самом верхнем расположена научная картина мира (философские предпосылки), на четвертом — общая теория, включающая категории самого абстрактного уровня, на треть ...

Императрица Екатерина II
«Я родилась 21 апреля 1729 года в Шеттинге, в Померании. Мне рассказывали, что, так как ждали сына, то вовсе не были рады»,- так написала о своем появлении на свет сама Екатерина II. Екатерина II хотела быть императрицей в сильной стране. ...