Как строится репрезентативная выборка в психологии. Причины возникновения систематических ошибок

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

Репрезентативность выборки

Наименование параметра	Значение
Тема статьи:	Репрезентативность выборки
Рубрика (тематическая категория)	Психология

Требования к выборке

К выборке применяется ряд обязательных требований, определенных, прежде всего, целями и задачами исследования. Планирование эксперимента должно включать в себя учет, как объёма выборки, так и ряда ее особенностей. Так, в психологических исследованиях важно требование однородности выборки. Оно означает, что психолог, изучая, к примеру, подростков, не может, включать в эту же выборку взрослых людей. Напротив, исследование, выполненное методом возрастных срезов, принципиально предполагает наличие разновозрастных испытуемых. При этом и в данном случае должна соблюдаться однородность выборки, но уже по другим критериям, в первую очередь таким, как возраст, пол. Основаниями для формирования однородной выборки могут служить разные характеристики, такие, как уровень интеллекта͵ национальность, отсутствие определенных заболеваний и т.д., исходя из целей исследования.

В общей статистике имеется понятие повторной и безповторной выборки, или, иначе говоря, выборки с возвратом и без возврата. В качестве примера приводится, как правило, выбор шара, доставаемого из какой-либо емкости. В случае выборки с возвратом каждый выбранный шар опять возвращается в емкость и, следовательно, должна быть выбран снова. При бесповторном выборе однажды выбранный шар откладывается в сторону и больше не может участвовать в выборке. В психологических исследованиях можно найти аналоги подобного рода способам организации выборочного исследования, поскольку психологу нередко приходится несколько раз тестировать одних и тех же испытуемых при помощи одной и той же методики. При этом, строго говоря, повторной в данном случае является процедура тестирования. Выборка испытуемых при полной тождественности состава в случае повторных исследований всегда будет иметь некоторые отличия, обусловленные функциональной и возрастной изменчивостью, присущей всем людям. Подобная выборка по характеру проведения процедуры является повторной, хотя смысл термина здесь, очевидно, иной, чем в случае с шарами.

Важно подчеркнуть, что все требования, предъявляемые к любой выборке, сводятся к тому, что на ее базе психологом должна быть получена наиболее полная, неискаженная информация об особенностях генеральной совокупности, из которой взята эта выборка. Иными словами, выборка должна как можно более полно отражать характеристики изучаемой генеральной совокупности.

Состав экспериментальной выборки должен представлять (моделировать) генеральную совокупность, поскольку выводы, полученные в эксперименте, предполагается в дальнейшем перенести на всю генеральную совокупность. По этой причине выборка должна обладать особым качеством - репрезентативностью, позволяющим распространить полученные на ней выводы на всю генеральную совокупность.

Репрезентативность выборки очень важна, тем не менее, по объективным причинам соблюдать её крайне сложно. Так, хорошо известен факт, что от 70% до 90% всех психологических исследований поведения человека проводились в США в 60-х годах XX века с испытуемыми-студентами колледжей, причем большинство из них были студентами психологами. В лабораторных исследованиях, выполняемых на животных, наиболее распространенным объектом изучения являются крысы. По этой причине неслучайно психологию называли раньше ʼʼнаукой о студентах-второкурсниках и белых крысахʼʼ. Студенты психологических колледжей составляют всего 3% от общей численности населения США. Очевидно, что выборка студентов нерепрезентативна в качестве модели, претендующей на представительство всего населения страны.

Репрезентативная выборка, или, как еще говорят, представительная выборка, - это такая выборка, в которой все основные признаки генеральной совокупности представлены приблизительно в той же пропорции и с той же частотой, с которой данный признак выступает в данной генеральной совокупности. Иными словами, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно с большой долей уверенности считать применимыми ко всей генеральной совокупности. Это распространение результатов принято называть генерализуемостью.

В идеале репрезентативная выборка должна быть такой, чтобы каждая из базовых изучаемых психологом характеристик, черт, особенностей личности и т.п. была бы представлена в ней пропорционально этим же особенностям в генеральной совокупности. Согласно этим требованиям процедура формирования выборки должна иметь внутреннюю логику, способную убедить исследователя, что при сравнении с генеральной совокупностью она действительно окажется репрезентативной, представительной.

В своей конкретной деятельности психолог действует следующим образом: устанавливает подгруппу (выборку) внутри генеральной совокупности, подробно изучает эту выборку (проводит с ней экспериментальную работу), а затем, в случае если это позволяют результаты статистического анализа, распространяет полученные выводы на всю генеральную совокупность. Это и есть основные этапы работы психолога с выборкой.

Начинающий психолог должен иметь в виду часто повторяющуюся ошибку: каждый раз, когда он осуществляет сбор любых данных любым методом и из любого источника, у него всегда появляется соблазн распространить свои выводы на всю генеральную совокупность. Для того чтобы избежать подобной ошибки, нужно не просто обладать здравым смыслом, но, прежде всего, хорошо владеть основными понятиями математической статистики.

Репрезентативность выборки - понятие и виды. Классификация и особенности категории "Репрезентативность выборки" 2017, 2018.

Свойство выборки, благодаря которому результаты выборочного исследовании позволяют делать выводы о генеральной совокупности и эмпирическом объекте в целом, называется репрезентативностью.

Репрезентативность (представительность) выборки - это способность выборки воспроизводить определенные характеристики генеральной совокупности в пределах допустимых погрешностей. Выборку называют репрезентативной, если результат измерения определенного параметра для данной выборки совпадает с учетом допустимой погрешности с известным результатом измерения генеральной совокупности. Если выборочное измерение отклоняется от известного параметра генеральной совокупности больше выбранного уровня погрешности, то такая выборка считается нерепрезентативной.

Предложенное определение прежде всего устанавливает связь между выборочной и генеральной совокупностью исследования. Именно генеральную совокупность представляет выборка, и только на генеральную совокупность могут быть распространены выявленные в выборочном исследовании тенденции. Теперь должно быть понятно, почему ранее такое внимание было уделено задачам корректного определения генеральной совокупности и ее описания в исследовательской документации и публикациях. Выборка не может представлять иную совокупность, отличную от той, из которой фактически проводился отбор единиц для измерения. Если исследователь заблуждается относительно фактических границ генеральной совокупности, то его выводы будут некорректны. Если он по ошибке или намеренно расширяет или искажает границы генеральной совокупности в отчетных материалах, публикациях, презентациях по результатам исследования, то это вводит в заблуждение пользователей и может рассматриваться в качестве фальсификации результатов.

Проверка репрезентативности осуществляется посредством сравнения отдельных параметров выборки и генеральной совокупности. Распространенным заблуждением является существование репрезентативных выборок «вообще».

Репрезентативность или нерепрезентативность выборки может быть установлена исключительно в отношении отдельных переменных. Более того, одна и та же выборка может быть репрезентативна по одним параметрам и нерепрезентативна - по другим.

Как правило, в профессиональном дискурсе социологов репрезентативность представляется как дихотомическое свойство - выборка либо репрезентативна, либо нет. Но это не вполне корректный подход. В действительности выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие - менее точно. Поэтому корректнее (хотя с практической точки зрения и менее удобно) вести речь о мере репрезентативности конкретной выборки по конкретным параметрам.

Как и в случае с выборкой в целом, ключевым моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной для целей исследования. Возможно и обратное - фиксация размера фактических ошибок и констатация факта, что выборка представляет генеральную совокупность с определенными погрешностями. И опять-таки ключевую роль в этом играет характер использования результатов исследования. Следовательно, одна и та же выборка может быть признана достаточно репрезентативной для одних целей (например, для прогноза явки избирателей на предстоящих выборах), но недостаточно репрезентативной для других (например, для определения рейтингов кандидатов и прогноза результатов голосования).

По каким параметрам следует проверять репрезентативность выборки? Во-первых, таких параметров в большинстве исследовательских ситуаций немного. Ведь сопоставить результаты выборочного измерения с данными о генеральной совокупности можно только при наличии последних. А исследования проводятся потому, что таких данных как раз не хватает. Поэтому еще на этапе моделирования объекта и последующей разработки инструментария целесообразно предусмотреть измерение одного или нескольких контрольных параметров, по которым доступны данные, характеризующие генеральную совокупность. Это создаст необходимую эмпирическую базу для проверки репрезентативности.

Во-вторых, нужно стремиться проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. В современной практике широкое распространение получил контроль репрезентативности по основным демографическим параметрам - полу, возрасту, образованию и пр. Эти данные, как правило, доступны для любого территориального объекта, так как фиксируются во время переписей населения и впоследствии пересчитываются статистическими учреждениями с применением обоснованных математических моделей. По этой причине обязательное включение нескольких демографических переменных в «паспортичку» стало общепринятой профессиональной нормой. Однако такая практика может быть отнесена к разряду наивных и подвергнута обоснованной критике. Дело в том, что основные и общедоступные для сравнения демографические параметры далеко не всегда играют роль структурирующих факторов в отношении предметов социологических исследований. Их природа сама по себе не является социальной, а влияние на объекты исследований часто достаточно опосредованно. Поэтому репрезентативные по демографическим параметрам выборки на деле могут скрывать значительные проблемы в виде системных ошибок и неконтролируемых смещений. Напротив, демографическая репрезентативность эффективных с точки зрения целей и задач исследования выборок может оказаться невысокой.

Вот интересный пример из практики. В 2009 г. одна из исследовательских компаний, работающих на Урале, выполнила опрос в г. Ки- зеле Пермского края. В ходе проведения полевых работ исследователи столкнулись с серьезными препятствиями для набора предусмотренной планом исследования выборки - отсутствием достаточного количества доступных респондентов, ухудшением погодных условия. Судя по всему, исследовательская компания не была в полной мере готова к осуществлению работ в таком масштабном проекте. Ее производственные мощности работали на пределе возможностей, чтобы в течение недели обеспечить опрос 6000 респондентов на достаточно обширной территории. В результате фактическая выборка во многих местах проведения опроса была, по признанию самих исследователей, наполнена всеми, кого удалось привлечь к участию в исследовании. Установленные техническим заданием демографические квоты были нарушены в большинстве районов опроса. В некоторых районах искажение пропорций наполнения выборки по отношению к квотному заданию достигали для отдельных категорий населения 2,5 раза, что фактически ставило под сомнение сам факт применения квотной выборки. Казалось, заказчик исследования имеет все основания для предъявления обоснованных претензий к исследователям.

Однако проведенная по поручению арбитражного суда экспертиза установила, что такие значительные искажения квот и, соответственно, явная нерепрезентативность полученной выборки по основным демографическим параметрам практически не привели к искажению данных исследования! Путем перевзешивания массива данных эксперты получили эффект репрезентативной по контролируемым параметрам выборки. Практически все проверенные экспертами частотные распределения данных показали статистически не значимые различия между результатами обработки фактического и перевзвешенного массивов. Де-факто это означает, что, несмотря на грубейшие нарушения технологии опроса и практическое игнорирование квотных заданий, исследователи предоставили заказчику те же самые данные, на которые он мог рассчитывать, если бы процедуры формирования выборки были полностью соблюдены и демографическая репрезентативность была обеспечена.

Как такое могло произойти? Ответ прост - использованные для контроля репрезентативности демографические параметры практически не имели (и это подтвердил корреляционный анализ) влияния на предметные переменные исследования - оценки населением социально- экономического положения и параметры его общественно-политической активности. К тому же размер выборки был весьма велик относительно генеральной совокупности (фактически исследование охватывало четверть взрослого населения муниципального округа), что в результате действия закона больших чисел привело к стабилизации наблюдаемых распределений задолго до того, как требуемое число респондентов было опрошено.

Практический вывод из этой поучительной истории состоит в том, что усилия и ресурсы следует направлять на обеспечение и контроль репрезентативности в отношении таких параметров выборки, которые, как предполагает исследователь, оказывают существенное влияние на предмет исследования. Это означает, что параметры для контроля репрезентативности должны выбираться специально для каждого исследовательского проекта соответственно его предметной специфике. Например, оценки социально-экономического положения всегда сильно связаны с реальным благосостоянием семьи респондента, его позициями на рынке труда и в бизнес-сфере. Соответственно, именно эти параметры целесообразно использовать для контроля репрезентативности. Другое дело, что получить объективные данные, характеризующие по ним генеральную совокупность, может быть непросто. Здесь нужен творческий подход и, возможно, компромисс. Например, уровень благосостояния можно проконтролировать по наличию автомобиля в семье респондента, ведь статистика зарегистрированных автомашин в регионе может быть доступна.

Интересно, что в исследовательских отчетах и публикациях практически всегда упоминаются именно репрезентативные выборки. Неужели нерепрезентативные выборки настолько редки? Конечно нет. Выборок, которые являются проблемными с точки зрения репрезентативности по тем или иным параметрам, в исследовательской практике встречается достаточно. Скорее их даже больше, чем выборок, репрезентативность которых может быть оценена не формально (по демографическим параметрам), а по существу. Однако их публичное упоминание в профессиональной социологической среде, к сожалению, табуировано. И никто из исследователей не готов признать, что репрезентативность его выборки по существенным для предметной области измерения параметрам проблематична либо не проверяема.

На самом деле обнаружение признаков нерепрезентативности выборки не является катастрофой. Во-первых, существующие технологии «ремонта» (перевзвешивания) выборки во многих случаях позволяют полностью исключить эффект нерепрезентативности относительно беспокоящего социолога или его клиента параметра. Суть метода перевзвешивания состоит в присваивании различным категориям наблюдений (в случае опроса - респондентов) определенных весовых коэффициентов , компенсирующих недостаточное или избыточное фактическое представительство данных категорий в выборке. В дальнейшем эти веса учитываются при проведении всех расчетных операций с массивом данных, что позволяет получать распределения, полностью соответствующие сбалансированному (соответствующему расчетным квотам) массиву данных. Современные статистические программы, такие как БРвв, позволяют производить расчеты с учетом весовых коэффициентов в автоматическом режиме, что делает эту процедуру достаточно легкой для исполнения.

Во-вторых, даже если получить «хорошую» репрезентативную выборку не получается, «умеренной» репрезентативности может оказаться достаточно для решения многих исследовательских задач. Напомним, что репрезентативность - это скорее мера соответствия, чем дихотомический маркер. И только отдельные исследовательские задачи - в основном связанные с точным прогнозированием определенных событий - требуют от выборок действительно высокой (статистически подтвержденной) репрезентативности.

Например, для того, чтобы прогнозировать рыночную долю нового продукта в маркетинговом исследовании требуется выборка, охватывающая и репрезентирующая потенциальных клиентов. Однако чаще всего маркетологи не имеют достаточных данных о том, кто на самом деле образует круг их клиентов, тем более - потенциальный. В этой ситуации проверить репрезентативность выборки вообще невозможно - ведь неизвестно, какие параметры она должна воспроизводить. Тем не менее многие маркетинговые задачи успешно решаются, так как для выявления клиентских предпочтений, реакции на рекламные материалы, анализа отзывов на новый продукт статистически репрезентативные выборки не нужны - достаточно обеспечить охват типичной клиентуры, которую легко найти прямо в магазинах. Нерепрезентативные выборки вполне подходят для решения поисковых задач, выявления сильно выраженных тенденций, анализа специфики отдельных категорий (представленных маленькими самостоятельными подвыборками), сравнения таких категорий между собой (двумерный анализ), анализа взаимосвязей между переменными и других задач, в которых точность полученных статистических распределений имеет второстепенное значение.

4.1 Что говорится в стандарте

Раздел 8 стандарта ИСО 9001: 2000 охватывает «измерение, анализ и улучшение». Хотя формирование выборки не регулируется данным стандартом, тем не менее, в пункте 8.1, являющемся общим введением ко всему разделу, посвященному измерениям, сказано, что деятельность, связанная с измерением, анализом и улучшением (должна включать определение применимых методов, в том числе статистические методы и степень их применения). Точное измерение удовлетворенности потребителя может быть осуществлено только тогда, когда оно основано на хорошей выборке потребителей. В данной главе дан обзор методов формирования выборки, используемых для достижения этой цели.

4.2 Теория выборки

Принцип формирования выборки прост. Большинство организаций имеют большое число потребителей, но для того чтобы получить точные результаты ИУП, нет необходимости проводить исследования со всеми, достаточно сделать это для небольшой выборки, при условии, что эта выборка представляет большую группу людей. Существует несколько различных типов выборки, которые приведены на рисунке 4.1.

Рис. 4.1 Возможные выборки

4.2.1 Вероятностная и невероятностная выборки

Фундаментальное различие между выборками состоит в их принадлежности к вероятностным или невероятностным выборкам. Вероятностную выборку еще часто называют случайной выборкой, и только в отношении случайных, или вероятностных, выборок можно быть уверенными, что они лишены тенденциозности. В соответствии с определением все члены генеральной совокупности случайной выборки имеют равные шансы быть в ней представленными, и самый очевидный пример случайной выборки - это обычная лотерея. Все шары или числа, остающиеся в розыгрыше, сохраняют равные шансы быть выбранными в следующий раз. Ясно, что никакая тенденция не влияет на выбор чисел в лотерее.

4.2.2 Невероятностные выборки

4.2.2.1 Нерепрезентативные выборки

Простейшей формой выборки является нерепрезентативная выборка. Представьте, что вы проводите опрос общественного мнения. Вы можете пойти на улицу и опросить первых встретившихся вам 50 человек, насколько они удовлетворены действиями правительства. Это будет быстро, просто и дешево, но это будет не слишком репрезентативно. Это может звучать тривиально, но для явно более сложных случаев, как мы увидим дальше, очень легко скатиться к нерепрезентативной выборке.

4.2.2.2 Преднамеренные выборки

Еще одной формой невероятностной выборки является преднамеренная выборка. Это та самая форма, которую мы предлагали для поискового исследования, и, хотя преднамеренная выборка хороша для качественного исследования, не имеющего целью достижение хорошей статистики, она не подходит для проведения основного, так же как любого другого исследования, ставящего своей целью получение статистически надежного результата.

4.2.2.3 Выборка на основании квот

Третий тип невероятностной выборки - это выборка на основании квот, и она часто используется для исследования больших генеральных совокупностей. Представьте себе, что муниципальный совет желает измерить степень удовлетворенности населения теми услугами и службами, которые этот совет им предоставляет. Предположим, что решено взять интервью на улице у членов выборки на основании квот, состоящей из 500 человек, проживающих в городе. Можно назначить пять интервьюеров, дав задание каждому взять интервью у 100 человек на главной торговой площади. Однако интервьюерам не разрешается пользоваться иереарезентативной выборкой, т.е. брать интервью у первых встретившихся им 100 человек. При выборке на основании квот необходимо, чтобы каждый интервьюер соблюдал множество тщательно определенных норм, чтобы выборка была репрезентативной для местного населения. Нормы могут быть основаны на статистических данных, имеющихся в распоряжении муниципального совета и показывающих, на какие группы делится население. Так, например, эти данные могут свидетельствовать, что 15 % составляет население в возрасте от 21 до 30 лет, 18 % - от 31 до 40 лет и т. п. Разделение может быть и по другим признакам, например, по полу, уровню доходов, этническому происхождению. Если муниципальный совет хочет, чтобы выборка была репрезентативной, в ней должны быть представлены все эти группы в той же пропорции, в какой они представлены во всем населении. Для достижения этого интервьюеры должны определить группы и квоты для них. В приведенном примере 15 из каждых 100 интервьюируемых человек должны быть в возрасте от 21 до 30 лет, 18 должны иметь возраст от 31 до 40 лет, и это должно сочетаться с квотами для других групп, введенных по полу, доходу и т. п.

Предположим, что интервьюеры работали всю неделю, с понедельника по пятницу, с 9-ти утра и до 5-ти вечера каждый день брали интервью в торговом пассаже, так что к концу недели каждый из них взял 100 интервью при соблюдении всех норм. На выходе получится выборка, размером 500, которая будет полностью представлять население города, но она будет отобрана не случайно, поэтому она не будет свободна от тенденции. В соответствии с определением случайной выборки, все жители города должны иметь равные шансы быть представленными в выборке. В приведенном примере только те люди имели такой шанс, которые в эти дни недели посещали торговый пассаж с 9-ти утра до 5-ти вечера. Таким образом, выборка неизбежно будет иметь тенденцию, возможно, в сторону пожилых людей, безработных, а также людей, работающих неподалеку. На самом деле, конечно, исследователи стремятся минимизировать тенденции, присущие выборке на основании квот, беря интервью в различных местах и в различное время, но они никогда не смогут полностью от нее избавиться, поскольку в выборке могут быть представлены только те люди, которые в данное время оказались в данном месте, поэтому теоретически такая выборка никогда не будет случайной, полностью свободной от тенденции.

Это не означает, что выборка на основании квот никогда не должна использоваться. Если вы не знаете людей, являющихся вашими потребителями, вы не можете осуществить случайную выборку, поскольку нет возможности составить список всей генеральной совокупности, из которой ее нужно делать. Например, многие розничные торговцы не знают, кто является их потребителями. В таких ситуациях организации прибегают к выборке на основании квот.

4.2.3 Вероятностные выборки

Если у вас имеется база данных ваших потребителей, то вы можете и должны сделать случайную выборку, и первый шаг состоит в определении ее основы. Основа - это список потребителей, из которого вы собираетесь делать выборку, и определение этого списка является стратегическим решением. Обычно организации измеряют удовлетворенность потребителей один раз в год, и основу выборки составляют те потребители, которые имели дело с организацией за последние двенадцать месяцев. Однако не для всех это может оказаться приемлемым. Например, не слишком эффективно при изучении удовлетворенности потребителя справочной системой какой-либо информационной технологии задавать вопросы об опыте использования этой системы за последние 11 месяцев. В таком случае лучше использовать более короткие временные рамки, например, учитывать всех потребителей, пользовавшихся справочной системой за последний месяц. Для этого может потребоваться постоянный контроль, при котором опрос потребителей проводится каждый месяц, а его результаты накапливаются для составления периодического отчета, например, ежеквартального или даже ежегодного, если количество потребителей в течение квартала невелико.

Таким образом, вы видите, что исследуемые "потребители" могут быть различными для различных организаций, и их определение является стратегическим решением, и вы должны четко их определить, ибо это будут те потребители, которые будут составлять основу исследования, т. е. генеральную совокупность выборки.

4.2.3.1 Простая случайная выборка

Вероятностная, или случайная, выборка лишена тенденции, поскольку все члены генеральной совокупности будут иметь равные шансы войти в выборку. Как было сказано ранее, лотерея дает хороший пример простой случайной выборки - каждый раз при выборе нового числа, оно отбирается случайно из всех оставшихся в «генеральной совокупности». Однако это довольно долгий процесс, если вам требуется большая выборка из большой генеральной совокупности, поэтому во времена, предшествовавшие применению компьютеров для получения сложных выборок, исследователи рынка изобрели менее трудоемкий способ получения простой случайной выборки, известной под названием «систематической случайной выборки».

4.2.3.2 Систематическая случайная выборка

Для получения систематической случайной выборки для проведения ИУП вы, прежде всего, распечатываете список ваших потребителей. Пусть там будет, скажем, 1000 потребителей, и вы хотите отобрать 100, что будет составлять 1 на 10 человек из генеральной совокупности. Сначала нужно с помощью генератора случайных чисел получить число от 1 до 10. Если получится 7, то вы включаете в свой список 7-е имя из списка, 17-е, 27-е и т.д., что в результате даст систематическую случайную выборку в 100 потребителей. До получения случайного числа все потребители имеют равные шансы быть включенными в список. Таким образом, это будет случайная выборка, но она может оказаться не репрезентативной, особенно на деловом рынке. В этом случае хорошо использовать стратифицированную случайную выборку.

Рис. 4.2 Пример стратифицированной случайной выборки

4.3 Выборка потребителей

Мы покажем на примере, как можно было бы осуществить выборку для типичного случая рынка business- to - business . Первый шаг для этого делового рынка состоит в формировании базы данных потребителей и сортировке ее по степени ценности потребителей, начиная с более высокой с постепенным переходом к наиболее низкой. Затем вы обычно делите полученный перечень на три части - сегменты, соответственно, с высокой, средней и низкой ценностью потребителей. И, наконец, определяете величину выборки в каждом сегменте. Результаты такого процесса суммированы на рис. 4.2.

4.2.3.3 Стратифицированная случайная выборка

Нередко на деловых рынках некоторые потребители являются гораздо более ценными, чем другие. Иногда очень большая часть деятельности компании, например 40 или 50 %, бывает связана с первыми пятью или шестью потребителями. Если применяется простая или систематическая случайная выборка, то вполне вероятно, что ни один из этих пяти или шести потребителей в нее не попадет. Ясно, что нет смысла проводить исследование с измерением удовлетворенности потребителя, если полностью игнорируется 40 или 50 % всей деятельности компании. На деловом рынке, где большинство компаний имеют небольшое число высокоценных потребителей и большее число малоценных потребителей, в простой или систематической случайной выборке неизбежно будут преобладать малоценные потребители. Для получения выборки, которая одновременно является репрезентативной и лишенной тенденции, применяется стратифицированная случайная выборка. Получение стратифицированной случайной выборки включает в себя, во-первых, разделение потребителей на сегменты, или типы, а затем - случайную выборку внутри каждого сегмента. Показанная на рисунке 4.2 выборка будет репрезентативной для потребительской базы в соответствии с тем вкладом в деловую активность, который дает каждый сегмент потребителей. На потребительских рынках разделение на сегменты может быть другим, например по возрасту или полу.

4.3.1 Пример выборки

В показанном примере компания получает 40 % своего оборота от высокоценных потребителей. Фундаментальный принцип выборки на деловом рынке заключается в том, что если сегмент ценных потребителей дает 40 % оборота (или прибыли) они должны составлять 40% и в выборке. Если компания решила исследовать выборку из 200 респондентов, 40% от выборки, т. е. 80 респондентов, должны быть от высокоценных потребителей. Поскольку там имеется 40 высокоценных потребителей, отбираемая доля будет 2: 1, значит, от каждого потребителя отбирается 2 респондента в высокоценном сегменте. На деловых рынках общепринято при проведении исследований отбирать более одного респондента от крупных потребителей.

Потребители средней ценности также дают 40 % оборота, так что они также должны составлять 40% в выборке. Это означает, что компания должна отобрать 80 респондентов от своих потребителей средней ценности. Поскольку таких потребителей насчитывается 160, отбираемая доля будет 1: 2, т. е. один респондент от каждых двух потребителей средней ценности. Это приводит к необходимости проведения случайной выборки одного представителя от каждых двух потребителей. Это может быть легко проведено с помощью процедуры систематической случайной выборки, описанной ранее. Сначала генерируется одно из двух случайных чисел: 1 или 2. Пусть это будет 2. В этом случае вы отбираете 2-го, 4-го, 6-го и т.д. потребителя средней ценности.

Наконец, 20 % оборота компании приходится на потребителей низкой ценности, таким образом, они должны составлять 20 % в выборке, т. е. в приведенном примере - 40 респондентов. Всего там насчитывается 400 потребителей низкой ценности, что соответствует отбираемой доле 1:10. Это может быть реализовано с применением той же продедуры систематической случайной выборки. По окончании процесса компания получит типизированную случайную выборку потребителей, которая будет репрезентативной для их деловой активности и благодаря случайному отбору будет свободна от тенденции.

4.3.2 Выборка контактных лиц

Хотя описанная выше процедура дает случайную и репрезентативную выборку потребителей, в конце концов, исследование проводится не с компаниями, а с конкретными лицами, так что если вы работаете на business - to - business рынке, вы должны, наряду с выборками потребителей, делать выборку среди личных контактов. На практике организации часто выбирают лиц по принципу удобства - людей, с которыми они имеют больше контактов, чьи имена у них есть под рукой. Если лица будут отбираться по такому принципу, то как бы тщательно не проводилась типизированная выборка компаний, в результате она будет низведена до нереггрезентативной выборки лиц, которых кто-то знает. Чтобы избежать появления подобной тенденции, вы должны проводить случайный отбор лиц. Путь к реализации такого отбора лежит в составлении списка лиц, связанных с вашей продукцией или услугой для каждого потребителя, и затем в случайном отборе лиц из этого списка. Если вы хотите осуществить более сложную и более точную процедуру, вы должны разделить список всех лиц на секторы, что позволит избежать включения слишком большого числа второстепенных лиц. Пусть, например, вы проводите анализ деятельности администрации и решили, что для более точного отражения процесса принятия решения, ваша выборка должна содержать 40% контактов по закупкам, 40% технических контактов и 20 % всех остальных контактов. В этом случае вы должны провести случайную выборку лиц в данной пропорции.

4.4 Размер выборки

Другой вопрос, требующий решения, - количество потребителей, которое вам необходимо иметь в выборке. Некоторые компании, преимущественно на business - to - business рынках, имеют очень небольшое число ценных потребителей. Другие компании имеют более миллиона потребителей. На деловых рынках размер генеральной совокупности в точности соответствует количеству лиц у каждого потребителя, влияющих на суждение о удовлетворенности этого потребителя, и это не обязательно равно количеству лиц, с которыми вы постоянно контактируете. Обычно, чем выше ценность потребителя, тем больше лиц должно быть включено. Для поставщика программного обеспечения компьютеров у одного потребителя может быть несколько сотен пользователей. Даже в этом случае некоторые организации будут иметь гораздо большую генеральную совокупность, чем другие, однако это не будет влиять на количество исследуемых потребителей, которое необходимо для обеспечения надежной выборки.

4.4.1 Надежность выборки в связи с ее размером

Статистическая точность выборки связана с ее абсолютным размером, независимо от того, какое количество людей имеется во всей генеральной совокупности. Вопрос о том, какая часть потребителей должна быть исследована - неверно поставленный вопрос. Выборка большего размера всегда более надежна, чем меньшая выборка, каким бы ни был размер генеральной совокупности. Лучше всего это видно из кривой нормального распределения (см. рис. 4.3), из которой можно заключить, что когда мы исследуем множество данных, оно стремится следовать нормальному распределению. Это применимо не только к данным исследований.

Экстремальные данные Нормальные данные Экстремальные данные

Рис. 4.3 Кривая нормального распределения

Например, если вы записываете выпадение июньских дождей в Манчестере в течение пяти лет, когда три года выпадали нормальные для июня дожди, но два года июнь был чрезвычайно дождливым, то расчетное среднее выпадение дождей будет сильно смещено за счет этих двух не по сезону дождливых месяцев. Если же данные собирались в течение 100 лет, то два исключительно дождливых или сухих месяца будут слабо влиять на результат расчета среднего количества дождей в июне в Манчестере. То же самое относится к исследованию. Если вы исследуете только 10 человек, и два из них имеют крайние точки зрения, они сильно исказят конечный результат. Они окажут гораздо меньше влияния при размере выборки в 50 и практически не окажут никакого влияния при размере выборки 500, так что чем больше размер выборки, тем меньше риск получения неверных результатов. На рисунке 4.4 показано, что при возрастании размера выборки возрастает и ее надежность. Сначала, при очень малых размерах, надежность растет очень быстро, но с ростом размера выборки влияние ее размера на надежность выборки уменьшается. Вы можете видеть, что кривая начинает выравниваться в зоне от 30 до 50 респондентов, и это обычно считается порогом между качественными и количественными исследованиями. Когда размер выборки достигает 200, увеличение надежности с ростом количества респондентов чрезвычайно мало. Соответственно, размер выборки в 200 респондентов считается минимальным размером выборки для обеспечения надежного ИУП. Компании с очень малой потребительской базой (около или менее 200 контактов) должны просто исследовать всех переписанных потребителей.

В какие-то годы, возможно, в июне не было дождей (даже в Манчестере), в некоторые годы интенсивность дождей была невероятно высока, но в большинстве лет выпадение дождей лежит где-то между этими двумя пределами, в «нормальной» зоне. Рассматриваем ли мы данные исследований или выпадение дождей в Манчестере, ключевой вопрос состоит в следующем: «Каков риск получения ненормальных данных, искажающих результат?» Чем меньше выборка, тем выше риск.

4.4.2 Глубинный анализ

Как отмечалось ранее, при проведении коммерческих исследований обычно полагается, что выборка размером в 200 членов дает необходимую надежность общей меры удовлетворенности потребителя, независимо от того, составляет ли генеральная совокупность 500 или 600 ООО. Здесь, однако, есть одно важное исключение, и оно проявляется в том случае, когда у вас имеются различные сегменты, и вы хотите провести глубинный анализ результатов, сравнивая удовлетворенности в различных сегментах. Если вы разделите выборку в 200 элементов на множество сегментов, вы столкнетесь с проблемой малого и поэтому ненадежного размера выборки в каждом сегменте. Поэтому общепринятым считается, что минимальный размер общей выборки составляет 200, а минимум для сегмента равен 50.

Вследствие всего сказанного размер общей выборки часто определяется тем, какое количество сегментов вы хотите проанализировать. Если вы хотите разделить ваш результат на шесть сегментов, вам понадобится выборка размером не менее 300 членов, чтобы в каждом сегменте их было не менее 50. Это может иметь большое значение для компаний со многими подразделениями или рынками сбыта. Исходя из цифры в 50 респондентов на сегмент, розничному торговцу, имеющему 100 магазинов, потребуется выборка, как минимум, в 5000 членов, если удовлетворенность потребителя требуется измерить на уровне магазина. По нашему мнению, однако, если между магазинами должно проводиться сравнение, и на основании результатов исследования будет приниматься управленческое решение, то абсолютный минимум должен быть 100 потребителей на магазин, а еще лучше - 200. Для розничного торговца, имеющего 100 магазинов, это приведет к необходимости выборки в 20 000 потребителей для получения очень надежных результатов на уровне магазина.

4.4.3 Размер выборки и процент ответов

Необходимо отметить еще один фактор. Рекомендованный размер пыборки в 200 респондентов для обеспечения соответствующей надежности относится к ответам, а не к числу отобранных и приглашенных потребителей. Более того, для обеспечения статистической надежности, это означает 200 отобранных потребителей и те же 200 участников, ответивших на вопросы интервью или вернувших анкеты. Если процент ответов низок, то статистически ненадежно компенсировать его простой рассылкой большего количества анкет до тех пор, пока вы не получите 200 ответов. Проблема тенденции, вызванной недостатком ответов, может быть очень существенной при исследованиях ИУП, и эта проблема будет более детально рассмотрена в следующей главе.

4.5 Выводы

(а) В стандарте ИСО 9000: 2000 говорится, что для получения надежной выборки при проведении измерений, связанных с потребителем, должны применяться признанные статистические методы.

(б) Невероятностные выборки увеличивают риск влияния тенденции на получаемый результат и должны применяться только теми организациями, у которых отсутствует база данных потребителей.

(в) Для большинства организаций лучшим способом получения репрезентативной и лишенной тенденции выборки является случайная выборка на основании квот.

(г) Основу выборки должны составлять значимые лица. На деловых рынках может потребоваться включать много респондентов (иногда - очень много) от крупных потребителей.

(д) 200 респондентов составляют минимальное число респондентов, необходимое для надежного измерения удовлетворенности потребителя в масштабе целой организации. Это число не зависит от количества имеющихся у вас потребителей.

(е) Организации, имеющие менее 200 потребителей или контактов, должны проводить исследование всех переписанных потребителей.

(ж) Если необходимо получить результаты по сегментам, то минимальный размер выборки на сегмент составляет 50 респондентов. В этих случаях, требуемый минимальный размер всей выборки будет равен числу сегментов, умноженному на 50.

Фактически мы начнем не с одного, а с трех вопросов: что такое выборка? когда она является репрезентативной? что она собой представляет?
Совокупность – это любая группа людей, организаций, интересующих нас событий, относительно которых мы хотим сделать выводы, а случай, или объект, – любой элемент такой совокупности1. Выборка – любая подгруппа совокупности случаев (объектов), выделенная для анализа. Если мы захотим изучить деятельность законодателей штата по принятию решений, мы могли бы исследовать такую деятельность в законодательных органах штатов Виргиния, Северная Каролина и Южная Каролина, а не во всех пятидесяти штатах и, исходя из этого, распространить полученные данные на генеральную совокупность, из которой были выбраны эти три штата. Если мы хотим исследовать систему предпочтений избирателей Пенсильвании, мы могли бы сделать это, опросив 50 рабочих компании “Ю. С. Стил” в Питсбурге, и распространить результаты опроса на всех избирателей штата. Аналогично, если мы хотим измерить умственные способности студентов колледжей, мы могли бы протестировать всех игроков защиты, зарегистрированных в штате Огайо в данном футбольном сезоне, и затем распространить полученные результаты на генеральную совокупность, частью которой они являются. В каждом примере мы действуем следующим образом: устанавливаем подгруппу внутри генеральной совокупности, довольно подробно изучаем эту подгруппу, или выборку, и распространяем наши результаты на всю совокупность. Это и есть основные этапы формирования выборки.
Однако представляется совершенно очевидным, что каждая из этих выборок имеет существенный недостаток. К примеру, хотя законодательные органы Виргинии, Северной Каролины и Южной Каролины и являются частью совокупности законодательных органов штатов, они в силу исторических, географических и политических причин, скорее всего, будут действовать очень схожим образом и совсем иначе, чем законодательные органы таких отличающихся от них штатов, как Нью-Йорк, Небраска и Аляска. Хотя пятьдесят рабочих-сталелитейщиков в Питсбурге действительно могут быть избирателями штата Пенсильвания, они в силу социально-экономического статуса, образования и жизненного опыта, вполне возможно, будут иметь взгляды, отличные от взглядов многих других людей, точно так же являющихся избирателями. И точно так же, хотя футболисты штата Огайо и являются студентами колледжей, они в силу самых разных причин вполне могут отличаться от других студентов. Иными словами, хотя каждая из этих подгрупп действительно является выборкой, члены каждой из них систематически отличаются от большинства остальных членов совокупности, из которой они выбраны. В качестве отдельной группы ни одна из них не является типичной с точки зрения распределения признаков мнений, мотивов поведения и характеристик в генеральной совокупности, с которой она ассоциируется. Соответственно, политологи сказали бы, что ни одна из этих выборок не является репрезентативной.
Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Таким образом, если 50% всех законодательных органов штатов собираются лишь раз в два года, приблизительно половина состава репрезентативной выборки законодательных органов штатов должна быть такого типа. Если 30% избирателей Пенсильвании принадлежат к “синим воротничкам”, около 30% репрезентативной выборки для этих избирателей (а не 100%, как в приведенном выше примере) должны быть из числа “синих воротничков”. И если 2% всех студентов колледжей являются спортсменами, приблизительно та же самая часть репрезентативной выборки студентов колледжей должна приходиться на спортсменов. Иными словами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно без всяких опасений считать применимыми к исходной совокупности. Это распространение результатов и есть то, что мы называем генерализуемостью.
Возможно, пояснить это поможет графическая иллюстрация. Предположим, мы хотим изучать модели членства в политических группах среди взрослого населения США.

Рис. 5.1. Формирование выборки из генеральной совокупности
На рис.5.1 изображено три круга, разделенных на шесть равных секторов. Рис.5.1а представляет всю рассматриваемую совокупность. Члены совокупности расклассифицированы в соответствии с политическими группами (такими, как партии и группы интересов), к которым они относятся. В этом примере каждый взрослый принадлежит по меньшей мере к одной и не более чем к шести политическим группам; и эти шесть уровней членства в одинаковой степени распространены в совокупности (отсюда равные сектора). Предположим, мы хотим исследовать мотивы вступления людей в группу, выбор группы и модели участия, однако из-за ограниченности ресурсов мы в состоянии обследовать только одного из каждых шести членов совокупности. Кого же отобрать для анализа?
Одну из возможных выборок заданного объема иллюстрирует заштрихованная область на рис.5.1б, однако она явно не отражает структуру совокупности. Если бы мы делали обобщения на основе этой выборки, мы пришли бы к выводу: (1) что все взрослые американцы принадлежат к пяти политическим группам и (2) что все групповое поведение американцев совпадает с поведением тех, кто принадлежит именно к пяти группам. Однако мы знаем, что первый вывод не верен, и это может зародить в нас сомнение относительно валидности второго. Таким образом, выборка, изображенная на рис.5.1б, нерепрезентативна, поскольку она не отражает распределение данного свойства совокупности (часто называемого параметром) в соответствии с его реальным распространением. Про такую выборку говорят, что она смещена в направлении к членам пяти групп или смещена в направлении от всех остальных моделей членства в группах. Опираясь на такую смещенную выборку, мы обычно приходим к ошибочным выводам относительно генеральной совокупности.
Ярче всего это может быть продемонстрировано на примере катастрофы, постигшей в 30-е годы журнал “Литэрари дайджест”, который организовал опрос общественного мнения относительно результатов выборов. “Литэрари дайджест” представлял собой периодическое издание, в котором перепечатывались редакционные статьи из газет и другие материалы, отражавшие общественное мнение; этот журнал был очень популярен в начале века. Начиная с 1920 г. журнал проводил широкомасштабный общенациональный опрос, в ходе которого более чем миллиону человек по почте рассылались избирательные бюллетени с просьбой отметить, чья кандидатура на предстоящих президентских выборах для них предпочтительнее. В течение ряда лет результаты опроса, проводившиеся журналом, оказывались настолько точными, что опрос, проведенный в сентябре, казалось, делал ноябрьские выборы малосущественными. Да и как при такой большой выборке могла произойти ошибка? Однако в 1936 г. именно это и случилось: с большим перевесом голосов (60:40) победа была предсказана кандидату от республиканской партии Альфу Ландону. На выборах Ландон проиграл инвалиду – Франклину Д. Рузвельту – практически с тем же результатом, с которым должен был победить. Доверие к “Литэрари дайджест” было столь сильно подорвано, что вскоре после этого журнал перестал выходить. Что же произошло? Все очень просто: в голосовании, проведенном “Дайджест”, использовалась смещенная выборка. Почтовые открытки рассылались людям, чьи имена были извлечены из двух источников: телефонных справочников и списков регистрации автомобилей. И хотя прежде этот метод отбора не слишком отличался от других методов, совсем по-другому обстояло дело теперь, во время Великой депрессии 1936 г., когда менее состоятельные избиратели, наиболее вероятная опора Рузвельта, не могли позволить себе иметь телефон, не говоря уж об автомобиле. Таким образом, фактически выборка, использовавшаяся в опросе, организованном “Дайджест”, была смещена в сторону тех, кто, скорее всего, должен был выступать за республиканцев, и при этом еще удивительно, что у Рузвельта был такой хороший результат.
Как же решить эту проблему? Возвращаясь к нашему примеру, сравним выборку на рис.5.1б с выборкой на рис.5.1в. В последнем случае для анализа также отобрана шестая часть совокупности, однако каждый из основных типов совокупности представлен в выборке в той пропорции, в которой он представлен во всей совокупности. Такая выборка демонстрирует, что один из каждых шести взрослых американцев принадлежит к одной политической группе, один из шести – к двум и т.д. Такая выборка позволит также выявить другие различия между ее членами, которые могли бы соотноситься с участием в разном числе групп. Таким образом, выборка, представленная на рис.5.1в, является репрезентативной выборкой для рассматриваемой совокупности.
Конечно, данный пример является упрощенным по крайней мере с двух чрезвычайно важных точек зрения. Во-первых, большинство совокупностей, интересующих политологов, более разнообразно, чем та, что приведена в примере. Люди, документы, правительства, организации, решения и т.п. отличаются друг от друга не по одному, а по гораздо большему числу признаков. Таким образом, репрезентативная выборка должна быть такой, чтобы каждая из основных, отличная от других область была представлена пропорционально ее доле в совокупности. Во-вторых, ситуация, когда реальное распределение переменных, или признаков, которые мы хотим измерить, заранее неизвестно, встречается гораздо чаще, чем противоположная, – возможно, оно не измерялось в предшествующей переписи населения. Таким образом, репрезентативная выборка должна быть построена так, чтобы она могла точно отражать существующее распределение даже тогда, когда мы не в состоянии прямо оценить ее валидность. Процедура формирования выборки должна иметь внутреннюю логику, способную убедить нас, что, будь мы в состоянии сравнить выборку с переписью, она действительно оказалась бы репрезентативной.
Чтобы обеспечить возможность точного отражения сложной организации данной совокупности и определенную степень уверенности в том, что предлагаемые процедуры способны сделать это, исследователи обращаются к методам статистики. При этом они действуют по двум направлениям. Во-первых, используя определенные правила (внутреннюю логику), исследователи решают вопрос о том, какие именно конкретные объекты им изучать, что именно включать в конкретную выборку. Во-вторых, используя совсем другие правила, они решают, сколько объектов выбрать. Мы не будем подробно изучать эти многочисленные правила, рассмотрим лишь их роль в политологическом исследовании. Начнем рассмотрение со стратегий выбора объектов, образующих репрезентативную выборку.