SPSS. Статистический анализ в маркетинговых исследованиях Таганов Дмитрий скачать бесплатно. Читать он-лайн.

E-mail:
Пароль:
	Запомнить
	Войти
	Амнезия? Я новичок

SPSS. Статистический анализ в маркетинговых исследованиях (Таганов Дмитрий)

автор: Таганов Дмитрий категория: Реклама ← Бизнес и богатство

В книге рассматривается практический аспект применения компьютерных методов статистического анализа данных в маркетинговых исследованиях (с использованием программного комплекса SPSS версий 11-12).

Материал изложен в понятной форме, снабжен большим количеством иллюстраций и примерами из реальных маркетинговых исследований.

Об авторе: Таганов Дмитрий - менеджер по исследованиям в компании A/R/M/I-Marketing, постоянный внештатный эксперт в консультационном центре "ИРБИС". Окончил Государственный университет управления им. Серго Орджоникидзе (специальность "маркетинг"). С апреля по сентябрь 2000 г. — аналитик… еще…

С книгой «SPSS. Статистический анализ в маркетинговых исследованиях» также читают:

Предпросмотр книги «SPSS. Статистический анализ в маркетинговых исследованиях»

Введение
Практика показывает, что в настоящее время многие российские компании, занимающиеся проведением маркетинговых исследований, а также отделы маркетинга промышленных и торговых организаций часто используют для анализа получаемых полевых данных весьма ограниченный набор аналитических инструментов, иногда даже вовсе без применения статистики. Вместе с тем именно статистический анализ позволяет вскрыть такие закономерности и внутренние связи в данных, которые невозможно выявить другими средствами. Подтверждение гипотез о наличии связи между переменными, оценка характера данных связей, оценка влияния частных параметров продукта на общее впечатление от него потребителей, сегментирование потребителей, прогнозирование изменений рыночной конъюнктуры — вот лишь некоторые задачи, с успехом решаемые с применением статистических методов анализа. На новый уровень выводит статистические методы применение специализированного программного обеспечения для анализа. Наиболее популярным в настоящее время является статистический программный комплекс SPSS.
Предлагаемое пособие имеет своей целью в доступной для понимания форме систематизировать суть основных методов проведения статистического анализа данных при помощи программного пакета SPSS версии 11-12, используемого в практике проведения маркетинговых исследований. Пособие рассчитано на аудиторию, уже имеющую определенные знания в области маркетинга, — практикующих маркетологов и аналитиков. Здесь не разъясняется суть маркетинга и роль маркетинговых исследований, а дается мощный инструментальный аппарат анализа, который можно применять на практике для повышения эффективности деятельности различных организаций. Автор имеет значительный опыт аналитической работы в данной сфере и надеется, что настоящее пособие поможет всем желающим повысить качественный уровень своей собственной работы при анализе полевых данных и написании аналитических отчетов.
Практически все книги, посвященные рассматриваемой теме, представляют собой объемные произведения, содержащие массу ненужной практикам статистической теории и/или описание редко используемых в практике маркетинговых исследований статистических методик. В данном пособии содержатся только практические сведения, причем изложение ведется последовательно, шаг за шагом: от подготовки матрицы исходных данных до применения к ней различных статистических методов. Здесь вы не найдете ни капли «воды»: только та информация, которая реально нужна для того, чтобы немедленно приступить к анализу и наиболее быстро и эффективно его провести. Вместе с тем необходимо отметить, что данное пособие не является исчерпывающим руководством по работе с SPSS. В нем содержится только та информация, которая реально поможет на практике осуществить наиболее часто применяемые методы статистического анализа. Изложение материала снабжено подробными пошаговыми иллюстрациями и конкретными примерами, облегчающими его восприятие.
Для понимания сути описываемых в настоящем пособии статистических методик необходимо прежде всего определить роль и место компьютеризованного статистического анализа в системе маркетинговых исследований. На рис. В.1 представлена принципиальная схема проведения полевого маркетингового исследования.
SHAPE * MERGEFORMAT

В целом весь процесс проведения полевого маркетингового исследования можно условно подразделить на два этапа.
? Подготовка материалов, необходимых для проведения исследования:
? подготовка технического задания (ТЗ);
? подготовка структуры аналитического отчета;
? формирование анкеты (на основании ТЗ и структуры отчета).
? Проведение исследования:
? полевые работы (сбор данных, анкетирование), результатом которых является формирование базы данных первичной информации;
? анализ данных и написание аналитического отчета.
При этом, как следует из рис. В.1, основным результатом первого этапа («Вход») является анкета для опроса целевой аудитории на втором этапе («Исследование»). Второй этап имеет сразу два результата («Выход»). С одной стороны, в результате полевых работ происходит формирование базы данных первичной информации (на основании заполненных анкет), которые затем вводятся в компьютер и анализируются при помощи статистических и когнитивных методов. С другой стороны, в результате анализа данных происходит написание аналитического отчета по исследованию. Оба данных элемента — база данных и аналитический отчет — передаются заказчику (предоставляются руководству компании).
Статистический анализ данных является неотъемлемой частью практически любого серьезного полевого маркетингового исследования. Для его проведения задействуются ресурсы на всех ранее названных этапах маркетингового исследования.
1. На этапе подготовки к исследованию происходит составление анкеты, по которой затем формируется схема кодировки вопросов. Также важный вклад в процесс статистического анализа вносит составление структуры аналитического отчета, которая заранее (еще до сбора данных) позволяет определить, какие переменные будут созданы в базе данных и какие статистические процедуры будут использоваться для их анализа.
2. Когда все анкеты уже собраны и соответствующие данные введены в компьютер, исследователи приступают непосредственно к статистическому анализу. Данный этап, так же как и все маркетинговое исследование в целом, начинается с подготовки (например, кодирования переменных) и заканчивается практически одновременно с окончанием написания аналитического отчета.
При этом основным ресурсом для проведения статистического анализа является база данных, в которой в закодированном виде содержатся заполненные анкеты по исследованию. В следующем параграфе процесс проведения статистического анализа рассматривается более детально.

Классификация основных методов статистического анализа, применяемых в маркетинговых исследованиях

Несмотря на огромное многообразие существующих статистических методов анализа данных, разработанных в рамках теории математической статистики, в практике маркетинговых исследований находит эффективное применение лишь ограниченный набор статистических инструментов. Такие ограничения отчасти связаны с небольшими, как правило, размерами выборок в большей части проводимых маркетинговых исследований, отчасти — с ограниченной сферой интересов маркетингового анализа, в котором далеко не все существующие статистические методы находят применение. Основываясь на практическом опыте, можно предложить следующую схему классификации статистических методов, используемых при анализе данных количественных маркетинговых исследований (рис. В.2). Схема классификации построена таким образом, как обычно происходит процесс анализа, начиная еще с того момента, когда заказчиком и исполнителем исследования только дописано техническое задание и составлена анкета. Как следует из представленной схемы, весь процесс статистического анализа можно разделить на два этапа: подготовительный и собственно анализ данных.
Первый этап имеет целью собрать и систематизировать информацию, необходимую для последующей обработки анкет (например, схемы кодировки вопросов), а также обеспечить исследователя данными в том виде, который наиболее подходит для конкретного вида статистического анализа. Несмотря на название данного этапа — «предварительный» — некоторые его элементы (в частности, различные манипуляции с формой представления данных) присутствуют и непосредственно в процессе статистического анализа на втором этапе (например, сортировка и отбор анкет). Таким образом, результаты первого, подготовительного этапа используются в течение всего хода статистического (и когнитивного) анализа в маркетинговых исследованиях.
На втором этапе данные, содержащиеся в исходной базе (заполненные анкеты), превращаются в коммерческую информацию: систематизируются, классифицируются, между ними производится поиск взаимозависимостей. Результатом второго, основного этапа статистического анализа являются аналитические материалы
(табуляции, диаграммы и вербальные выводы), которые затем используются при написании аналитического отчета.
Рассмотрим теперь основные элементы, составляющие оба этапа статистического анализа, более подробно.
Итак, как мы видим на рис. В.2, подготовительный этап проходит в целом по линейной схеме. Первым шагом здесь является сбор материалов, необходимых для анализа. В полевых маркетинговых исследованиях к ним обычно относятся: техническое задание на исследование, анкета для опроса целевой аудитории, а также структура будущего аналитического отчета, который формируется по результатам проведенного исследования. Данный шаг обычно проводится еще до начала полевых работ (анкетирования), сразу после того, как утверждено задание на исследование. На основании перечисленных материалов вторым шагом определяются так называемые общие параметры выборки, то есть SHAPE * MERGEFORMAT устанавливается уровень доверия к результатам исследования и рассчитывается статистическая ошибка всей выборки. Необходимо отметить, что данный шаг следует уже после окончания сбора данных, когда появляется возможность точно определить реально получившийся размер выборки, а также получить информацию о сложностях, возникавших в ходе опроса. Эта информация может в дальнейшем внести определенные коррективы в ход статистического анализа. Например, если предварительно заказчиком были установлены квоты по опросу, а в реальности их выдержать не удалось, может потребоваться корректировка базы данных (скажем, удаление анкет одной целевой группы). Далее следует весьма важный шаг — составляется так называемая схема кодировки вопросов и ответов анкеты. С учетом сведений, полученных от интервьюеров, проводивших анкетирование респондентов, исследователь кодирует вопросы и ответы анкеты, формализуя их в соответствии с требованиями, предъявляемыми SPSS (см. п. 1.3). На описываемом шаге также иногда может потребоваться создание специализированной базы данных для проводимого исследования (если ввод данных осуществляется не непосредственно в SPSS, а в какую-либо другую программу — например, в Microsoft Access). Затем на основании имеющейся схемы кодировки анкеты выполняются ввод в компьютер анкет, заполненных в ходе полевых работ, и предварительное формирование базы данных в формате SPSS (создание собственно файла данных с расширением .sav). Окончательное формирование базы данных в SPSS происходит на следующем шаге, когда переменным и их значениям в полученном файле данных присваиваются вербальные метки. И на этом, собственно, заканчивается деятельность по подготовке исходного файла данных для статистического анализа. После осуществления вышеописанных пяти шагов перед исследователем оказывается полностью работоспособная база данных, содержащая все необходимые данные для проведения статистического анализа. Однако у нас остался нерассмотренным еще один существенный шаг в рамках первого, подготовительного этапа — модификация и отбор данных. Данный шаг позволяет аналитику производить предварительные (перед началом статистического анализа) манипуляции с имеющимися данными: перекодировать их, формировать условные и случайные выборки, сортировать, а также вычислять новые переменные на основании имеющихся закодированных вопросов анкеты. Действия, осуществляемые над базой данных в рамках описываемого шага, могут производиться не только непосредственно после ввода данных в компьютер, но и в продолжение всего процесса работы с ними.
Таким образом, данный подготовительный этап статистического анализа осуществляется в шесть основных шагов по линейной схеме. Следующий, основной этап статистического анализа проходит несколько по-другому. Он практически всегда начинается с общей систематизации полученных данных (наиболее часто в форме построения линейных распределений). Дальнейшие шаги статистического анализа полностью зависят от целей исследования и специфики имеющихся данных. Так, исследователю может потребоваться: установить различия между различными целевыми группами респондентов; установить взаимозависимости, существующие между переменными (вопросами анкеты); классифицировать респондентов по группам (сегментировать) на основании определенных критериев. Данные статистические методы могут использоваться как последовательно, так и параллельно: все вместе или только несколько методов (возможно, даже один).
В последующих главах настоящего пособия рассматриваются все перечисленные выше этапы статистического анализа в описанном логическом порядке — с самого начала, то есть начиная с подготовительных этапов анализа.
От издательства
Ваши замечания, предложения и вопросы отправляйте по адресу электронной почты comp@piter.com (издательство «Питер», компьютерная редакция).
Мы будем рады узнать ваше мнение!
Подробную информацию о наших книгах вы найдете на веб-сайте издательства: "piter.com" piter.com.
Глава 1.Подготовительные этапы статистического
анализа
В настоящей главе мы рассмотрим основные методы манипулирования с данными в SPSS. Рассматриваемые здесь действия обычно производятся перед началом статистического анализа. Мы начнем обсуждение с самого начала — то есть с того момента, когда к исследователю попадает задание на проведение маркетингового исследования. Далее по порядку будут рассмотрены все основные действия с матрицей данных.

1.1. Материалы, необходимые для проведения статистического анализа

Первым шагом при подготовке к проведению статистического анализа данных в маркетинговых исследованиях является подбор исходных материалов, в которых содержатся основные параметры проводимого исследования. Обычно эти материалы включают в себя следующие документы.
1. Техническое задание на исследование (ТЗ) охватывает все общие параметры исследования: цели и задачи, планируемый размер выборки, информацию о квотах, методе и месте сбора данных, а также другую полезную информацию.
2. Структура аналитического отчета по результатам исследования позволяет определить заранее, какие статистические процедуры понадобятся при написании аналитического отчета по исследованию.
3. Анкета для опроса является основой для составления схемы кодировки переменных в базе данных SPSS.
На основании ТЗ и структуры аналитического отчета исследователь должен еще до получения данных для анализа (заполненных анкет) составить план предстоящих манипуляций с анкетами респондентов: преобразования данных, статистических процедур и методик. Исследователь должен приступить к обработке анкеты сразу после ее получения, не дожидаясь окончания полевых работ: изучить ее структуру и составить перечень переменных, которые впоследствии войдут в базу данных SPSS.
Основными выходными данными на названном этапе являются:
? планируемый размер выборки;
? структура выборки (наличие и размер квот);
? вид опроса (личный, телефонный);
? информация о параметрах опроса (наличие фактов фальсификации анкет);
? схема (таблица) кодировки переменных в базе данных SPSS;
? план-схема преобразования данных;
? план-схема используемых статистических процедур.
Как вы увидите далее, эти данные являются весьма ценным ресурсом для последующего статистического анализа.
Необходимо отметить, что на рассматриваемом этапе также можно выполнять и другие действия. Так, если заполненные анкеты вводятся в компьютер при помощи специализированного программного обеспечения (например, программы Data Entry или сканерного программного комплекса), на основании имеющейся анкеты и согласно целям и задачам исследования следует сформировать соответствующие формы (для программы Data Entry) или создать шаблоны и макеты анкеты (для сканерного ввода). Только после успешного завершения этого подготовительного шага можно приступать к дальнейшим этапам.

1.2. Общие параметры выборки

Определение общих параметров выборки осуществляется после завершения полевых работ (когда собраны все анкеты). Данный этап состоит из ряда взаимосвязанных шагов. Это:
? определение реального количества опрошенных респондентов;
? определение структуры выборки;
? распределение по месту опроса;
? установление доверительного уровня статистической надежности выборки;
? расчет статистической ошибки и определение репрезентативности выборки. Первое, что должно интересовать исследователя после получения заполненных анкет, — это количество респондентов. Оно может быть либо больше, либо меньше запланированного количества анкет. При этом первый вариант лучше с точки зрения статистического анализа, но хуже с точки зрения руководства фирмы, так как дополнительные анкеты являются незапланированными расходами на оплату работы интервьюеров. Второй вариант обычно хуже и с точки зрения анализа (выборка менее представительна), и с точки зрения руководства (заказчик будет недоволен несоблюдением требований, оговоренных в ТЗ).
При оценке разницы между реальным и плановым размером выборки следует принимать в расчет разницу в статистической ошибке (см. ниже). Если она невелика (в ту или другую сторону), репрезентативность всей выборки существенно не страдает. Но если разница достаточно значима, выборка может оказаться непредставительной. Кроме того, при определении общего размера выборки необходимо иметь в виду, что статистическая ошибка всей выборки относится только к общим распределениям. Разрезы существенно увеличивают статистическую ошибку. Поэтому еще до начала опроса следует определить, какая численность каждой из интересующих целевых групп респондентов является достаточной для построения статистически значимых заключений и выводов.
Структура выборки может быть случайной (респонденты отбирались в случайном порядке) или неслучайной (респонденты отбирались на основании заранее известных критериев, например методом квотирования). Эта информация важна при интерпретации результатов статистического анализа. Случайные выборки априори являются репрезентативными, так как на попадание/непопадание каждого респондента в выборку не влияют никакие факторы, кроме случайных. Представительность неслучайных выборок не следует из их определения. Иногда они специально делаются нерепрезентативными относительно генеральной совокупности, однако могут являться весьма представительными относительно какой-либо одной интересующей целевой группы (например, исследуется только мнение мужчин в возрасте после 40 лет).
При анализе структуры выборки необходимо также изучить фильтрационные вопросы анкеты, то есть вопросы, специально предназначенные для отсеивания не подходящих под требования выборки респондентов. Несмотря на то, что такие вопросы позволяют исключить не нужные для конкретного исследования целевые группы, знание доли исключенных категорий позволит впоследствии составить общее представление о параметрах всей генеральной совокупности.
Приведем пример. Методом телефонного опроса исследуется потребительский спрос на московском рынке творожной массы. При этом опрашиваются только лица, покупающие данный продукт, — для чего в анкету добавлен соответствующий фильтрационный вопрос. Однако в дальнейшем потребуется рассчитать емкость рынка исследуемого продукта. Решением данной задачи будет подсчет количества отсеянных респондентов (лиц, не покупающих творожную массу). Таким образом, впоследствии мы сможем определить долю покупателей творожной массы от общей численности населения Москвы.
Еще одна важная для исследователя характеристика выборки — это распределение респондентов по месту опроса (личные интервью). Позже эти данные могут помочь при определении различий между респондентами, опрошенными в разных местах. (Очевидна разница в доходах между посетителями рынков и бутиков.)
Имея в своем распоряжении указанную выше информацию, можно приступать к определению представительности (или репрезентативности) выборки. Прежде всего необходимо установить уровень доверия к результатам опроса. Обычно в маркетинговых исследованиях используется уровень доверия 95 % и 99 %. Мы рекомендуем остановиться именно на первом варианте как на наиболее релевантном по отношению к маркетинговым исследованиям.
В зависимости от выбранного доверительного уровня определяется специфическая константа г, участвующая в формуле расчета статистической ошибки выборки. Константы доверительных уровней, наиболее часто используемых в маркетинговых исследованиях, представлены в табл. 1.1.

Таблица 1.1. Константы доверительных уровней
Доверительный уровеньКонстанта z90 %
95 %
99 %±1,64
±1,96
±2,58
Максимальная статистическая ошибка выборки рассчитывается по следующей формуле:
EMBED Equation.3 EMBED Equation.3

где — статистическая константа для соответствующего доверительного уровня; p= q = 50 % — вероятность наступления/ненаступления исследуемого события (то есть попадания/непопадания респондента в выборку); для случайных выборок данная вероятность равна 1/2 или 50 %; n — размер выборки (общее количество опрошенных).
Таким образом, для выборки в 1000 респондентов и при уровне доверия к результатам опроса 95 % статистическая ошибка выборки будет равна:

EMBED Equation.3

Эта же статистическая ошибка используется для характеристики всех значений в выборке, выраженных в относительных величинах. То есть если в дальнейшем при построении линейных распределений по вопросам анкеты мы выясним, что 32 % респондентов покупают газеты в киосках на улице, — это будет означать, что данное значение варьируется в пределах от 28,9 % (32 % - 3,1 %) до 35,1 % (32 % + 3,1 %).
Для расчета статистической ошибки значений переменных, выраженных в абсолютных величинах, применяется другая формула. При этом ошибка варьируется в зависимости от конкретной анализируемой величины. Ее расчет основан на построении линейных распределений и показан в разделе 2.1.

1.3. Составление схемы кодировки анкеты

Схема кодировки анкеты представляет собой таблицу соответствия вопросов и вариантов ответа анкеты внутреннему представлению переменных в базе данных SPSS. Впоследствии ввод анкет в компьютер и кодирование ответов респондентов производятся согласно данной формализованной структуре. Пример таблицы кодировки представлен в табл. 1.2.
Как вы видите, различные типы вопросов анкеты кодируются в схеме кодировки (и в базе данных SPSS) по-разному. Существует три основных типа кодирования вопросов анкеты.
1. Закрытые вопросы, в которых респондент может указать только один вариант ответа (одновариантные), кодируются одной переменной (например, q). Тип шкалы в данном случае может быть любым.
2. Закрытые вопросы, в которых респондент может дать несколько вариантов ответа (многовариантные), кодируются несколькими одновариантными переменными (например, q3_, q3_2). Тип шкалы одновариантных переменных может быть только номинальным (дихотомическим).
3. Открытые вопросы, независимо от количества возможных вариантов ответа на них, кодируются одной переменной. Тип шкалы в данном случае может быть либо интервальным (для числовых данных, например q5_t), либо номинальным (для нечисловых данных, например q4_t).

Таблица 1.2. Кодировка различных типов вопросов
Вопрос анкетыКод и тип переменной в базе данныхНомер анкеты________n_resp – интервальная шкала1. Покупаете ли Вы мясные полфобриканты?
Да
Нет q1 – номинальная шкала
Вариант ответа 1
Вариант ответа 22. Как часто Вы покупаете эти продукты?
Почти каждый день
2-3 раза в неделю
Примерно раз в неделю
2-3 раза в месяц
Примерно раз в месяц
Реже раза в месяцq2 – порядковая шкала
вариант ответа 1
вариант ответа 2
вариант ответа 3
вариант ответа 4
вариант ответа 5
вариант ответа 63. Где Вы обычно покупаете мясные продукты? (возможно несколько ответов)
В магазине
На рынке
В супермаркете
Другое (укажите где именно)
___________________________Все варианты ответа являются номинальными переменными
q3_1
q3_2
q3_3
q3_4
q3_4t4. Каких производителей мясных продуктов Вы знаете?
_____________________________q4_1t – номинальная шкала5. Укажите Ваш возраст: _________летq5_1t – интервальная шкала
1.4. Ввод данных в компьютер и кодирование переменных

Ввод данных в компьютер является четвертым шагом первого (подготовительного) этапа статистического анализа данных (см. рис. В.2). Он неразрывно связан со следующим шагом — кодированием переменных. В этом разделе мы последовательно рассмотрим эти две взаимосвязанные и взаимообусловленные процедуры.

1.4.1. Способы ввода данных в SPSS

Существует три основных способа формирования базы данных в формате SPSS (перечислены в порядке убывания популярности).
1. Импорт базы данных из других программных источников (Microsoft Access, Microsoft Exce, текстовых файлов и других).
2. Ввод данных непосредственно в SPSS при помощи специализированного программного обеспечения (SPSS Data Entry).
3. Ручной ввод данных в SPSS.
Теперь рассмотрим каждый способ более подробно.

1.4.1.1. Импорт данных из других источников

Данный способ создания базы данных в формате SPSS является наиболее распространенным. Чаще всего он предполагает использование SPSS в качестве вспомогательного средства для статистического анализа данных. При этом построение линейных распределений в графическом виде (диаграмм по общим распределениям) может производиться, например, в Microsoft Exce. Также данный метод применим и если у вас есть программное обеспечение для автоматически сканируемого ввода бумажных анкет в компьютер. В этом случае специализированная программа (например, ABBYY FormReader) создает особую базу данных в собственном формате (во внутреннем представлении).
Рассмотрим пример создания базы данных в SPSS при помощи перекачки данных из другой программы — Microsoft Access, как одной из наиболее распространенных систем управления базами данных (СУБД).
Чтобы осуществить импорт данных в SPSS, необходимо сформировать в соответствующей программе (из которой будет осуществляться импорт) таблицу данных, отформатированную определенным способом. Файл данных SPSS напоминает рабочую книгу Microsoft Exce (электронную таблицу). Однако SPSS, к сожалению, не обладает функциональностью электронной таблицы, и схожесть этих двух программных продуктов заканчивается на внешнем виде. Общая схема построения файла SPSS выглядит примерно так, как на рис. 1.1.
Таблица данных в сторонней программе, из которой будет осуществляться импорт, должна соответствовать именно такой схеме (заголовок переменной -> значения переменной). Примеры таблиц из Microsoft Access Base.mdb, Microsoft Exce Base.xs, простого текстового файла MS DOS Base.txt и текстового файла с разделителями Base.csv представлены на рис. 1.2-1.5. Независимо от вида разделителей данных в таблицах их объединяет общая структура: заголовок переменной -> данные (значение переменной). Представим, что была создана база данных Microsoft Access Base.mdb, содержащая Таблицу данных.
После того как была создана подходящая для импорта таблица данных, следует открыть SPSS и вызвать диалоговое окно импорта данных при помощи меню Fie ? Open Database ? New Query. Откроется мастер Database Wizard (рис. 1.6); в его окне необходимо указать источник данных, из которого будет производиться импорт данных. Выберите в списке справа База данных MS Access и щелкните на кнопке Далее.
Следует отметить, что SPSS поддерживает импорт из любых источников данных, совместимых с технологией ODBC (соответствующие драйверы для них должны быть предварительно установлены в Microsoft Windows). Например, чтобы добавить возможность импорта из базы данных Microsoft Paradox (файлы типа *.db), необходимо щелкнуть на кнопке Add Data Source в диалоговом окне Database Wizard. На экране появится стандартное окно Microsoft Windows Администратор источников данных ODBC (рис. 1.7). В этом диалоговом окне представлен список уже установленных в SPSS источников данных. Чтобы добавить новый источник, отсутствующий в данном перечне, следует щелкнуть на кнопке Добавить.

Рис. 1.3. Таблицы данных, подходящие для импорта
в SPSS: лист MS Exce

Рис. 1.4. Таблицы данных, подходящие для импорта в SPSS: текстовый файл с фиксированными столбцами

В открывшемся диалоговом окне Создание нового источника данных (рис. 1.8) содержится список всех источников данных, установленных в вашей системе Microsoft Windows. Кроме названий источников, в данном перечне вы можете увидеть номер версии и название файла соответствующего драйвера. Выберите драйвер Microsoft Paradox Driver (*.db) и щелкните на кнопке Готово.

При этом будет открыто новое диалоговое окно Установка драйвера ODBC для Paradox (рис. 1.9). Здесь в строке Имя источника данных следует ввести то название, которое будет в дальнейшем отображаться в диалоговом окне Database Wizard в SPSS (например, База данных Paradox). В этом диалоговом окне можно установить дополнительные параметры. Чтобы вернуться в SPSS, следует закрыть все использованные диалоговые окна установки источника данных ODBC. Вы увидите, что в списке доступных источников в окне Database Wizard появится база данных Paradox.

Вернемся к рис. 1.6. Выберите соответствующий источник данных и щелкните на кнопке Далее, после чего на экране откроется диалоговое окно ODBC Driver Login (рис. 1.10). В этом окне следует указать полный путь к базе данных, из которой будет производиться импорт таблицы (в нашем случае это C:Base.mdb). Щелкните на кнопке 0К для продолжения работы.

Откроется новое диалоговое окно (рис. 1.11). В нем из левого списка всех таблиц, доступных в указанном источнике данных, выберите ту, которая содержит импортируемые данные (в нашем случае Таблица данных), и переместите ее в правый список. Затем щелкните на кнопке Готово, после чего в окне SPSS Data Editor появится импортированная таблица.
Следует отметить, что процедуры импорта данных для разных источников отличны друг от друга. Однако эти различия несущественны, и поэтому мы не будем описывать все типы импорта. Как правило, для таблицы из базы данных Microsoft Access действия, показанные при помощи вышеописанных шагов, достаточны.

1.4.1.2. Ввод данных в SPSS при помощи Data Entry

Данная программа призвана упростить ввод данных в SPSS. При работе с ней генерируются пользовательские формы, содержащие поля анкеты, куда и вводятся данные. Модуль SPSS Data Entry Buider позволяет создавать формы и правила для их заполнения, а модуль SPSS Data Entry Station — вводить анкеты в компьютер в распределенном режиме (то есть с нескольких компьютеров одновременно). Детальное описание работы с программой Data Entry выходит за рамки настоящего пособия. Отметим лишь, что данная программа является самостоятельным приложением Microsoft Windows и не входит в комплект поставки SPSS. Кроме того, программные продукты SPSS достаточно дороги для большинства российских компаний, и поэтому рассматриваемый способ ввода данных не получил должного распространения в нашей стране.

1.4.1.3. Ручной ввод данных в SPSS

Ручной ввод наиболее эффективен при малых размерах выборки, а также для достижения некоторых специфических целей (например, при вводе ранжированных списков в ходе расчета корреляции Спирмана; см. раздел 4.2.1). Как и в случае использования программы Data Entry, существует возможность распределенного ввода анкет с несколькими операторами. Когда все операторы закончат ввод своей части анкет, полученные базы данных сливаются в одну при помощи меню SPSS Data ? Merge fies, в котором следует выбрать объект добавления анкеты (Add Cases) или переменных (Add Variabes).

1.4.2. Кодирование переменных

После того как в файл SPSS помещена таблица с данными по исследованию, следует перейти к очередному этапу формирования базы данных — кодированию переменных.
Если данные вводились в SPSS методом импорта, вы увидите только имена переменных и их значения. В этом случае кодирование переменных является обязательным шагом и должно проводиться сразу после процедуры импорта. Если для
ввода данных в SPSS использовалась программа Data Entry, все переменные и их значения окажутся, скорее всего, уже закодированными (на этапе генерирования пользовательских форм). При ручном вводе картина может быть такой, как при импорте данных из других источников (если вы предварительно не производили кодирование), либо аналогичной использованию Data Entry. Тем не менее, независимо от способа ввода, на этапе кодирования необходимо произвести ревизию имеющихся переменных и меток их значений — чтобы удостовериться, что в будущем при проведении статистического анализа все используемые величины будут названы осмысленными именами.
Основное рабочее окно SPSS (см. рис. 1.1) содержит специальные вкладки для перемещения между видом файла данных (Data View) и таблицы переменных (Variabe View). Кодирование переменных осуществляется на вкладке Variabe View. Общий вид окна программы после щелчка на вкладке Variabe View показан на рис. 1.121.

Если в данную таблицу ввести какую-либо переменную (поле Name), все остальные ее поля будут заполнены автоматически значениями по умолчанию. После импорта данных из другой программы все полученные переменные будут представлены также значениями по умолчанию (сохранятся только имена переменных). Рассмотрим более детально структуру таблицы Variabe View.
Первое поле таблицы Name предназначено для ввода имени переменной, которое должно состоять только из латинских букв и цифр; имя переменной не может начинаться с цифры. При импорте данных из другого источника данное поле заполняется теми значениями, которые были указаны в исходной базе данных. Все остальные поля рассматриваемой таблицы заполняются программой автоматически, причем SPSS сама определяет, к какому типу относится та или иная переменная, а в качестве меток дублирует имена переменных.
Поле Туре служит для указания типа переменной. Установленный по умолчанию тип Numeric можно изменить, установив курсор в данную ячейку и щелкнув на появившейся кнопке со значком .... Доступные типы переменных представлены на рис. 1.13. Для некоторых из них (например, Numeric) необходимо задать количество используемых разрядов (или букв — для текстовых переменных) и цифр после запятой, а для других (например, Date) — шаблон, по которому отражаются значения.

Поле Width служит для указания количества разрядов (для числовых переменных) или букв (для текстовых переменных), если они не были указаны в диалоговом окне указания типа переменной. Следующее поле Decimas позволяет указать количество цифр после запятой для числовых переменных.
Поле Labe служит для задания метки переменной. Данное поле важно, так как именно указанные в нем значения появляются на графиках и в таблицах при проведении всех видов статистического анализа. В анкетах, используемых при проведении маркетинговых исследований, содержатся как одновариантные вопросы (респонденты могут указать только один вариант ответа), так и многовариантные (респонденты могут указать несколько вариантов ответа). При этом если одновариантные вопросы обычно представляются одной переменной, которая может принимать столько значений, сколько имеется вариантов ответа, то многовариантные вопросы, как правило, кодируются количеством одновариантных переменных, равным числу вариантов ответа. Каждая такая одновариантная переменная всегда принимает только два значения (дихотомии) — отмечено/не отмечено, которые кодируются соответственно двумя цифрами (обычно 1 и 0). Более подробно схема работы с многовариантными переменными описана в разделе 2.2, мы отметим лишь способ кодирования различных переменных.
Так, при кодировании одновариантных переменных поле Labe используется для указания формулировки вопроса анкеты (варианты ответа кодируются в другом поле). При кодировании многовариантных переменных, представленных вариантами ответа, формулировка самого вопроса не отражается в рассматриваемой таблице: кодируются только варианты ответа (дихотомические переменные).
Приведем пример. У нас есть одновариантный вопрос Укажите пол респондента — это формулировка данного вопроса, и она отражается в поле Labe, а переменной присваивается имя по принципу q. Формулировка многовариантного вопроса Что для Вас наиболее важно при выборе велосипеда? не будет фигурировать в таблице Variabe View. Вместо нее будет указан набор одновариантных дихотомических переменных (по числу вариантов ответа). В поле Labe будут указаны названия вариантов ответа, а в поле Name — имена переменных, кодирующие каждый из вариантов ответа (например, переменная q2_ — Цена велосипеда; q2_2 — Качество велосипеда и т. д.).
Поле Vaues предназначено для указания вариантов ответа в одновариантных вопросах. Общий вид соответствующего диалогового окна представлен на рис. 1.14. Данное поле не заполняется для многовариантных переменных. В окне Vaue Labes в поле Vaue указываются числовые коды вариантов ответа, а в поле Vaue Labe — вербальные формулировки вариантов ответа. При задании меток необходимо предлагать разумные варианты ответов, учитывая, что впоследствии именно эти названия (в том же виде) будут фигурировать на графиках и в аналитических таблицах. Например, вариант ответа на вопрос о половой принадлежности респондента следует называть не Мужской или Женский, а Мужчины или Женщины. Также при наименовании переменных и вариантов ответа следует избавляться от лишних слов, как то: предлоги в начале предложения, междометия, вводные слова. Это, с одной стороны, позволит сократить само название, что в дальнейшем облегчит его восприятие, а с другой стороны, избавит таблицы и диаграммы от массы ненужной информации. Итак, наша основная рекомендация при наименовании переменных — формализация названий.

Поле Missing используется редко, так как не несет существенной смысловой нагрузки. В нем можно указать, какие коды следует исключить из анализа (присвоить им статус System Missing). По умолчанию все отсутствующие значения (пропущенные одновариантные вопросы или неотмеченные варианты ответа многовариантных вопросов) представляются в SPSS как System Missing и отражаются для числовых переменных символом,.
Также при помощи поля Missing можно наглядно продемонстрировать разницу между различными типами пропущенных значений — типа «user missing» (значения, специально пропущенные исследователем) и типа «system missing» (значения, которые в принципе должны были присутствовать, но которых не оказалось в базе данных в связи с причинами случайного характера, — в том числе и динамически, не меняя структуры базы данных. Предположим, что для исследования нам нужны только люди с доходом свыше $ 500. Тогда в начале анкеты мы зададим респондентам фильтрационный вопрос (закрытый): Укажите Ваш примерный среднемесячный доход в расчете на 1 члена семьи. При этом респондент может выбрать один из пяти вариантов ответа:
1. до 0;
2. от $ 500 до $ 1000;
3. от 00 до 00;
4. свыше 00;
5. отказываюсь отвечать.
Очевидно, что для дальнейшего анализа нам подходят только те респонденты, которые указали варианты ответа 2-4. Теперь эти три варианта ответа, которые необходимы нам для построения линейных и перекрестных распределений, мы заносим в поле Vaues, а оставшиеся два — 1 и 5 — в поле Missing. Два последние варианта исключаются из дальнейшего анализа и будут представляться как значение System Missing. Впоследствии, если мы захотим, например, построить общее линейное распределение по всему фильтрационному вопросу (включая все категории), нужно будет просто убрать два пропущенных (в терминологии SPSS — User Missing) значения из поля Missing и добавить их в поле Vaues. Поле Coumns служит для указания ширины столбца при отображении переменной в окне Data View. Следующее поле Aign предназначено для выбора выравнивания значений переменной в столбце: по правому краю (Right), по левому краю (Left) или по центру (Center).
Поле Measure является для SPSS единственной возможностью определить тип шкалы имеющихся переменных: номинальная (Nomina), порядковая (Ordina) или интервальная (Scae). Как показано далее в разделе 2.5 «Статистический анализ данных», важно знать, к какому типу шкалы относится та или иная переменная в базе данных. От этого во многом зависит выбор используемой статистической процедуры. Ниже приведена краткая характеристика трех типов шкалы переменных, используемых в SPSS.
1. Номинальные переменные (Nomina) могут принимать дискретные, не связанные друг с другом значения. Вопросы анкеты, кодируемые номинальными переменными, могут быть как закрытыми (с вариантами ответов), так и открытыми (с текстовым полем вместо прямого указания вариантов ответа). Например, вопрос анкеты Каких производителей мясных полуфабрикатов Вы знаете? с вариантами ответа Царицыно, Черкизовский, Браво и Другое будет закодирован в базе данных SPSS номинальной переменной, так как между вариантами ответа на данный вопрос не существует логического порядка, это просто названия компаний-производителей.
2. Особое место среди номинальных переменных занимают переменные, являющиеся вариантами ответа на многовариантные вопросы или имеющие только два варианта ответа. Тип шкалы данных переменных называется дихотомическим (Dichotomous). Данным переменным в SPSS отводится особая роль, так
как их варианты ответа могут рассматриваться в статистических процедурах как вероятность выбора одной категории или не выбора другой. В качестве вопросов анкеты дихотомические переменные могут кодировать как открытые, так и закрытые вопросы.
3. Порядковые переменные (Ordina) кодируют такие закрытые вопросы, варианты ответа на которые подчиняются логическому числовому порядку. То есть варианты ответа на такие вопросы представляют собой связанные между собой группы значений. Например, вопрос Как часто Вы покупаете мясные полуфабрикаты? с вариантами ответа: Чаще раза в неделю, Примерно раз в неделю и Реже раза в неделю — кодируется переменной с порядковой шкалой.
4. Интервальными (Scae) являются переменные, не имеющие выделенных категорий. Они содержат числовые данные (например, номер анкеты в базе данных) и кодируют чаще всего открытые вопросы. Интервальные переменные (или другие типы переменных, приводимые к интервальному виду) используются практически во всех статистических процедурах. Они являются основным ресурсом для SPSS.

1.5. Модификация и отбор данных

Этап модификации и отбора данных объединяет целый ряд процедур, используемых для манипуляции с имеющимися данными: условный отбор данных, формирование случайной выборки, сортировка данных, перекодирование переменных, вычисление новых переменных и т. д. В настоящем разделе мы рассмотрим наиболее часто используемые методы автоматизированного управления переменными и их значениями в базах данных SPSS.

1.5.1. Условный отбор данных и случайная выборка

В настоящем параграфе мы рассмотрим такие методы манипуляций с данными, как отбор респондентов по определенному условию (например, выбор из всей базы данных только анкет мужчин), а также формирование случайной выборки.

1.5.1.1. Отбор анкет по условию

Часто при анализе данных в SPSS возникает необходимость отбора только тех респондентов, которые соответствуют определенным требованиям (например, имеют среднемесячный доход свыше $ 1000). В этом случае используют условный отбор данных. Соответствующее диалоговое окно вызывается при помощи меню Data ? Seect Cases.
Как вы видите на рис. 1.15,.это диалоговое окно не только позволяет осуществлять условный отбор данных, но и разрешает многие другие манипуляции. При проведении маркетинговых исследований наиболее часто применяются только два параметра: If condition is specified (Условный отбор данных) и Random sampe of cases (Формирование случайной выборки). По умолчанию установлен параметр A cases, что означает выбор всех без исключения респондентов.

Выберите параметр If condition is specified и щелкните на кнопке If. Откроется новое диалоговое окно Seect Cases: If, позволяющее задать условие, согласно которому будет производиться отбор респондентов (рис. 1.16). Основная рекомендация относительно работы с данным диалоговым окном — заключайте все уравнения (название переменной и ее значение) в круглые скобки. Соблюдение данного требования весьма полезно при составлении длинных последовательностей условий.

В табл. 1.3 представлена расшифровка всех логических и арифметических операндов, используемых при составлении условных выражений. Такие же операнды используются и в других диалоговых окнах, описываемых в разделе 1.5. Это стандартные операнды для составления логических выражений.
Необходимо отметить, что все логические операторы, кроме = и ~=, применимы только для числовых переменных (не для текстовых).
Помимо представленных стандартных логических операторов, существуют специальные предустановленные функции (область Functions) — при щелчке правой кнопкой мыши на любой из них появляется описание соответствующей функции.

Таблица 1.3. Стандартные логические операторы, используемые в SPSS
АрифметическиеЛогическиеОператорЗначениеОператорЗначение+Сложение (x + y)<меньше (x < y)-вычисление (x - y)>больше (x > y)*умножение (x * y)<=меньше или равно (x <= y)/деление (x / y)>=больше или равно (x >= y)**возведение в степень (x ** y)=равно (x = y)()приоритет вычислений~=не равно (x ~ y)|или (x | y)&и (x & y)~отрицание (~ x)
В приведенном примере мы выбрали все анкеты, полученные от респондентов, являющихся мужчинами (вопрос q37, вариант ответа 1) в возрасте от 26 до 30 лет (вопрос q39, вариант ответа 2). Щелкнув на кнопке Continue и завершив операцию при помощи щелчка на кнопке 0К в главном диалоговом окне, мы увидим, что респонденты, не соответствующие данному условию, оказались исключенными из рассмотрения (их номера перечеркнуты). Можно не только временно исключить из рассмотрения респондентов, не подходящих под определенное условие, но и полностью удалить такие нерелевантные анкеты из базы данных SPSS. Для этого в диалоговом окне Seect cases (рис. 1.15) необходимо заменить выбранный по умолчанию параметр Fitered (в области Unseected Cases Are) на Deeted.

1.5.1.2. Отбор анкет случайным образом

Иногда при обработке данных маркетинговых исследований возникает необходимость отбора респондентов не по конкретному условию, а случайным образом (то есть формирование случайной выборки). Эта возможность весьма полезна для уменьшения размера исходной выборки — например, для выполнения статистических процедур, предъявляющих повышенные требования к вычислительным ресурсам компьютера. Также случайная выборка применяется при проверке корректности работы некоторых статистических процедур (например, факторного анализа): сначала процедура проводится для общей выборки, а затем — для случайной выборки из n-го количества респондентов.
Для формирования случайных выборок в диалоговом окне Seect Cases, (см. рис. 1.15) предусмотрен параметр Random sampe of cases. Выберите этот параметр и щелкните на кнопке Sampe. Открывшееся диалоговое окно (рис. 1.17) содержит два способа формирования случайной выборки: с указанием доли респондентов, которых необходимо отобрать из исходной выборки (Approximatey), либо с указанием конкретного количества респондентов, которое необходимо отобрать (Exacty). При этом в последнем случае необходимо также указать в поле from the first ... cases количество респондентов, из которого следует осуществить выбор. Для формирования случайной выборки из общего числа опрошенных в данном поле следует указать совокупный размер выборки.
В нашем случае мы случайным образом отобрали 50 % респондентов из исходной выборки.

1.5.2. Сортировка и группировка данных

Сортировка и группировка данных — наиболее часто применяющиеся операции с данными. Причем эти операции могут производиться как перед началом проведения статистического анализа, так и на других этапах работы.
1.5.2.1. Сортировка файла данных SPSS
При помощи функции сортировки в SPSS можно упорядочить значения переменных по одному или нескольким ключевым полям анкеты. Вызов диалогового окна сортировки осуществляется последовательностью меню Data ? Sort Cases.

Как указано на рис. 1.18, левый список содержит все доступные в текущей базе данных переменные. В область Sort by помещаются переменные, по которым следует произвести сортировку. Порядок следования переменных в данной области соответствует порядку сортировки, то есть сначала сортировка происходит по первой переменной, затем — по второй и т. д. Группа переключателей Sort Order позволяет выбрать направление сортировки: по возрастанию (Ascending) или убыванию (Descending). При этом для каждой переменной можно выбрать свой тип сортировки.
В нашем случае мы отсортировали базу данных по возрастанию номера анкеты.

1.5.2.2. Группировка значений переменных

SPSS позволяет автоматически разделять значения интервальных переменных на заданное число групп. Разделение производится на основании процентилей, то есть образующиеся группы содержат примерно одинаковое количество значений. Результатом работы этой процедуры является новая порядковая переменная, которая содержит столько категорий, сколько было указано групп. Диалоговое окно группировки данных вызывается при помощи меню Transform ? Categorize Variabes (рис. 1.19). В область Create Categories for переносятся переменные, значения которых необходимо сгруппировать. Поле Number of categories служ&heip;

Интеллектуальные развлечения. Интересные иллюзии, логические игры и загадки.

Log-in.ru© - мир необычных и интеллектуальных развлечений. Интересные оптические иллюзии, обманы зрения, логические флеш-игры.

Интересно