Репрезентативная выборка
Репрезентативная выборка
Репрезентативная выборка - выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность.
По-английски: Representative sample
См. также: Выборочные совокупности
Финансовый словарь Финам .
Смотреть что такое "Репрезентативная выборка" в других словарях:
Репрезентативная выборка - Группа участников, бюлее или менее точно представляющая состав изучаемой популяцши. Выборка может отражать распределение по возрастным и пошовым признакам, а также любые другие характеристики, влияюпцие на результат эксперимента с точки зрения… …
репрезентативная выборка - — [Англо русский глоссарий основных терминов по вакцинологии и иммунизации. Всемирная организация здравоохранения, 2009 г.] Тематики вакцинология, иммунизация EN representative sampling … Справочник технического переводчика
РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА - (representative sample) выборка, которая является (или считается) истинным отражением родительской популяции, то есть имеет тот же профиль признаков, например, возрастную структуру, классовую структуру, уровень образования. Репрезентативная… … Большой толковый социологический словарь
РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА - См. выборка, репрезентативная … Толковый словарь по психологии
РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА - такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности … Энциклопедический словарь по психологии и педагогике
Репрезентативная выборка - это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной… … Социологический словарь Socium
Репрезентативная выборка - (representative sample). Выборка, точно отражающая состояние и свойства всей популяции … Психология развития. Словарь по книге
выборка представительная - (выборка репрезентативная) выборка, произведенная по правилам, то есть так, что она отражает специфику совокупности генеральной и по составу, и по индивидуальным характеристикам включаемых субъектов. Словарь практического психолога. М.: АСТ,… … Большая психологическая энциклопедия
Англ. sampling, representative; нем. Stichprobe, reprasentative. Выборка, имеющая, по сути дела, такое же распределение относительных характеристик, как и генеральная совокупность. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии
Representative sample Выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность Словарь бизнес терминов. Академик.ру. 2001 … Словарь бизнес-терминов
Есть два основных типа выборок: репрезентативные и нерепрезентативные. Что это означает и почему важно их различать?
Репрезентативной выборочной совокупности (от англ, represent - представлять) такова, что дает нам возможность распространить как качественные, так и количественные результаты ее исследования на определенную большую совокупность. В контексте опросов общественного мнения репрезентативная выборка - это та, что дает нам возможность расширить количественные результаты интервью не только на участников исследования, но и на многих других людей.
Например, на основе опроса мы узнали, что мнение X имеют 18% респондентов, которые попали в нашей выборки, репрезентативной для взрослого населения Украины. Итак, можем сказать, что примерно 18% взрослого населения Украины имеет мнению X. Если бы выборка была нерепрезентативной, то мы могли бы разве что предположить: "меньшинство взрослого населения Украины имеет мнение X", "менее трети имеет мнение X "," менее четверти имеет мнение X ". Но эти предположения смогли бы проверить только благодаря репрезентативном опросу. Итак, в контексте исследования взглядов людей нерепрезентативная выборка - это и выборка, количественные результаты исследования которой НЕ можно распространять на других людей, кроме тех, которые приняли участие в исследовании. Или более общее: нерепрезентативная выборочная совокупность - это та, что не дает возможности распространить количественные результаты ее исследования на определенную большую совокупность.
Представим, что теплого летнего дня мы выходим на улицу и опрашиваем 10 прохожих у нашего дома или офиса, нравится ли им такая погода, как сейчас. Пусть 7 скажут, что нравится; 1 колебаться с ответом, 2 укажут, что не любят такую погоду и чувствуют себя комфортнее при более низкой температуре. На основе этого опроса мы НЕ сможем утверждать, что 70% людей нравится такая погода, как сейчас. И даже НЕ сможем быть уверенными, что большинству людей нравится такая погода, как сейчас. Мы можем выразить предположение, что большинству она нравится, но не можем знать наверняка. Это была нерепрезентативная выборка.
Одно из ошибочных представлений о выборки: любая большая выборка является репрезентативной; чем больше опросим, тем она более репрезентативна. Это не так. Если мы продолжим наше уличный опрос о погоде, пока не опросим 100 или даже 1000 человек, все равно не сможем ничего с уверенностью сказать о тех, кого не спросили. Почему так? Разве 100, а тем более 1000 человек недостаточно, чтобы сделать определенные выводы о предпочтениях других?
Дело в том, что для обеспечения репрезентативности важно не только количество респондентов, но и то, как и"х было отобрано. В приведенном выше примере мы не продумывали, кого, где и как отбираем, а просто начали общаться с прохожими. Оглянемся вокруг. Возможно, мы находимся вблизи университета в учебный день? Тогда среди прохожих в основном молодые люди, которые в целом легче переносят высокую температуру, чем старшие, и поэтому процент довольных погодой может оказаться искусственно завышенным. Или, возможно, мы попали туда, где среди прохожих больше пожилых людей, которым, вероятно, трудно переносить духоту жарких летних дней? Тогда процент довольных погодой может оказаться заниженным по сравнению со всеми жителями населенного пункта.
Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям. Одно из главных условий - репрезентативность (представительность) выборки . Как обсуждалось ранее, выделяют качественную и количественную репрезентативность.
Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):
1. Каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку.
2. Отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака.
3. Отбор должен проводиться из однородных групп.
Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:
1. Выборки, не требующие разделения генеральной совокупности на части (собственно, случайная повторная или бесповторная выборка).
2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).
Собственно, случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора лежит перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.
При составлении случайной выборки после того, как объект выбран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть, или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность) или бесповторной (объект не возвращается в генеральную совокупность). Поскольку в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует, то априорно принимается условие, что выборка повторная.
Оценка необходимой численности выборки
Для того, чтобы выборочная совокупность была количественно репрезентативной по отношению к генеральной, необходимо первоначально оценить количество данных, которое требуется включить в выборочную совокупность.
При неизвестной величине генеральной совокупности величину повторной выборки, гарантирующую репрезентативные результаты, если результат отражается показателем в виде относительной величины (доли) , определяют по формуле:
где р – величина показателя изучаемого признака, в %; q = (100- p ) ;
t – доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t = 2, что обеспечивает 95% вероятность безошибочного прогноза);
- предельная ошибка показателя.
Например: одним из показателей, характеризующих здоровье рабочих промышленных предприятий, является процент не болевших в течение года работников. Предположим, что для промышленной отрасли, к которой относится обследуемое предприятие, этот показатель равен 25%. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, 5%. При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t = 2, получаем
В том случае, если показатель - средняя величина , то число наблюдений можно установить по формуле:
где σ - среднее квадратическое отклонение, которое можно получить из предыдущих исследований, либо на основании пробных (пилотажных) исследований.
При бесповторном отборе и при условии известной генеральной совокупности для определения необходимого размера случайной выборки в случае использования относительных величин (доли) применяется формула:
для средних величин используется формула:
где N - численность генеральной совокупности.
Исходя из условий приведенного выше примера и принимая численность генеральной совокупности N =500 рабочих, получаем:
Нетрудно заметить, что необходимая численность выборки при бесповторном отборе меньше, чем при повторном (соответственнo, 188 и 300 рабочих).
В целом, число наблюдений, необходимое для получения репрезентативных данных, изменяется обратно пропорционально квадрату допустимой ошибки.
Механическая выборка - выборка, когда из обследуемой совокупности единицы наблюдения отбираются механически. Например: отбор каждого пятого или каждого десятого рабочего по карточкам отдела кадров предприятия или по амбулаторным картам поликлиники МСЧ.
Типическая, типологическая или районированная выборка предполагает разбивку генеральной совокупности на ряд качественно однородных групп. Например: при изучении заболеваемости студентов вуза для углубленного обследования на каждом курсе выбираются типичные по своему составу студенческие группы. Часто этот способ отбора комбинируется с другими способами. Например: территория города делится в зависимости от степени загрязнения на типичные районы, в этих районах путем случайного отбора формируются группы наблюдения.
Когортный отбор относится к целенаправленным отборам. При этом способе из генеральной совокупности отбираются лица (распределение на подгруппы при этом является неслучайным), объединенные моментом появления какого-либо признака или изучаемого воздействия, играющего существенную роль в исследовании (год рождения, начало болезни, прием препарата и т.п.).
Исследование по типу случай-контроль (СК) – тип эпидемиологического исследования, в котором распределение фактора риска сравнивается в группе пациентов с заболеванием и контрольной группе. Исследование (СК) относится к ретроспективным, поскольку исследователь, разделив пациентов на группы, по тому, есть или нет у них заболевание, выясняет у них информацию из прошлого.
Следует отдельно остановиться на использовании выборочного метода в санитарной статистике при изучении общей заболеваемости населения. Теоретические предпосылки выборочного метода были проверены в ходе специальных исследований. Так, В.С. Быховский и соавт. в 1928 году сделали параллельную обработку 132,8 тыс. карт с данными о заболеваниях сплошным методом и методом механического отбора каждой пятой карты. Анализ результатов этой обработки показал высокую репрезентативность данных выборочного исследования заболеваемости. Однако, вплоть до сегодняшнего дня, отсутствуют единые методические подходы проведения в широкой практике выборочных санитарно-статистических исследований.
Фактически мы начнем не с одного, а с трех вопросов: что такое выборка? когда она является репрезентативной? что она собой представляет?
Совокупность – это любая группа людей, организаций, интересующих нас событий, относительно которых мы хотим сделать выводы, а случай, или объект, – любой элемент такой совокупности1. Выборка – любая подгруппа совокупности случаев (объектов), выделенная для анализа. Если мы захотим изучить деятельность законодателей штата по принятию решений, мы могли бы исследовать такую деятельность в законодательных органах штатов Виргиния, Северная Каролина и Южная Каролина, а не во всех пятидесяти штатах и, исходя из этого, распространить полученные данные на генеральную совокупность, из которой были выбраны эти три штата. Если мы хотим исследовать систему предпочтений избирателей Пенсильвании, мы могли бы сделать это, опросив 50 рабочих компании “Ю. С. Стил” в Питсбурге, и распространить результаты опроса на всех избирателей штата. Аналогично, если мы хотим измерить умственные способности студентов колледжей, мы могли бы протестировать всех игроков защиты, зарегистрированных в штате Огайо в данном футбольном сезоне, и затем распространить полученные результаты на генеральную совокупность, частью которой они являются. В каждом примере мы действуем следующим образом: устанавливаем подгруппу внутри генеральной совокупности, довольно подробно изучаем эту подгруппу, или выборку, и распространяем наши результаты на всю совокупность. Это и есть основные этапы формирования выборки.
Однако представляется совершенно очевидным, что каждая из этих выборок имеет существенный недостаток. К примеру, хотя законодательные органы Виргинии, Северной Каролины и Южной Каролины и являются частью совокупности законодательных органов штатов, они в силу исторических, географических и политических причин, скорее всего, будут действовать очень схожим образом и совсем иначе, чем законодательные органы таких отличающихся от них штатов, как Нью-Йорк, Небраска и Аляска. Хотя пятьдесят рабочих-сталелитейщиков в Питсбурге действительно могут быть избирателями штата Пенсильвания, они в силу социально-экономического статуса, образования и жизненного опыта, вполне возможно, будут иметь взгляды, отличные от взглядов многих других людей, точно так же являющихся избирателями. И точно так же, хотя футболисты штата Огайо и являются студентами колледжей, они в силу самых разных причин вполне могут отличаться от других студентов. Иными словами, хотя каждая из этих подгрупп действительно является выборкой, члены каждой из них систематически отличаются от большинства остальных членов совокупности, из которой они выбраны. В качестве отдельной группы ни одна из них не является типичной с точки зрения распределения признаков мнений, мотивов поведения и характеристик в генеральной совокупности, с которой она ассоциируется. Соответственно, политологи сказали бы, что ни одна из этих выборок не является репрезентативной.
Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Таким образом, если 50% всех законодательных органов штатов собираются лишь раз в два года, приблизительно половина состава репрезентативной выборки законодательных органов штатов должна быть такого типа. Если 30% избирателей Пенсильвании принадлежат к “синим воротничкам”, около 30% репрезентативной выборки для этих избирателей (а не 100%, как в приведенном выше примере) должны быть из числа “синих воротничков”. И если 2% всех студентов колледжей являются спортсменами, приблизительно та же самая часть репрезентативной выборки студентов колледжей должна приходиться на спортсменов. Иными словами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно без всяких опасений считать применимыми к исходной совокупности. Это распространение результатов и есть то, что мы называем генерализуемостью.
Возможно, пояснить это поможет графическая иллюстрация. Предположим, мы хотим изучать модели членства в политических группах среди взрослого населения США.
Рис. 5.1. Формирование выборки из генеральной совокупности
На рис.5.1 изображено три круга, разделенных на шесть равных секторов. Рис.5.1а представляет всю рассматриваемую совокупность. Члены совокупности расклассифицированы в соответствии с политическими группами (такими, как партии и группы интересов), к которым они относятся. В этом примере каждый взрослый принадлежит по меньшей мере к одной и не более чем к шести политическим группам; и эти шесть уровней членства в одинаковой степени распространены в совокупности (отсюда равные сектора). Предположим, мы хотим исследовать мотивы вступления людей в группу, выбор группы и модели участия, однако из-за ограниченности ресурсов мы в состоянии обследовать только одного из каждых шести членов совокупности. Кого же отобрать для анализа?
Одну из возможных выборок заданного объема иллюстрирует заштрихованная область на рис.5.1б, однако она явно не отражает структуру совокупности. Если бы мы делали обобщения на основе этой выборки, мы пришли бы к выводу: (1) что все взрослые американцы принадлежат к пяти политическим группам и (2) что все групповое поведение американцев совпадает с поведением тех, кто принадлежит именно к пяти группам. Однако мы знаем, что первый вывод не верен, и это может зародить в нас сомнение относительно валидности второго. Таким образом, выборка, изображенная на рис.5.1б, нерепрезентативна, поскольку она не отражает распределение данного свойства совокупности (часто называемого параметром) в соответствии с его реальным распространением. Про такую выборку говорят, что она смещена в направлении к членам пяти групп или смещена в направлении от всех остальных моделей членства в группах. Опираясь на такую смещенную выборку, мы обычно приходим к ошибочным выводам относительно генеральной совокупности.
Ярче всего это может быть продемонстрировано на примере катастрофы, постигшей в 30-е годы журнал “Литэрари дайджест”, который организовал опрос общественного мнения относительно результатов выборов. “Литэрари дайджест” представлял собой периодическое издание, в котором перепечатывались редакционные статьи из газет и другие материалы, отражавшие общественное мнение; этот журнал был очень популярен в начале века. Начиная с 1920 г. журнал проводил широкомасштабный общенациональный опрос, в ходе которого более чем миллиону человек по почте рассылались избирательные бюллетени с просьбой отметить, чья кандидатура на предстоящих президентских выборах для них предпочтительнее. В течение ряда лет результаты опроса, проводившиеся журналом, оказывались настолько точными, что опрос, проведенный в сентябре, казалось, делал ноябрьские выборы малосущественными. Да и как при такой большой выборке могла произойти ошибка? Однако в 1936 г. именно это и случилось: с большим перевесом голосов (60:40) победа была предсказана кандидату от республиканской партии Альфу Ландону. На выборах Ландон проиграл инвалиду – Франклину Д. Рузвельту – практически с тем же результатом, с которым должен был победить. Доверие к “Литэрари дайджест” было столь сильно подорвано, что вскоре после этого журнал перестал выходить. Что же произошло? Все очень просто: в голосовании, проведенном “Дайджест”, использовалась смещенная выборка. Почтовые открытки рассылались людям, чьи имена были извлечены из двух источников: телефонных справочников и списков регистрации автомобилей. И хотя прежде этот метод отбора не слишком отличался от других методов, совсем по-другому обстояло дело теперь, во время Великой депрессии 1936 г., когда менее состоятельные избиратели, наиболее вероятная опора Рузвельта, не могли позволить себе иметь телефон, не говоря уж об автомобиле. Таким образом, фактически выборка, использовавшаяся в опросе, организованном “Дайджест”, была смещена в сторону тех, кто, скорее всего, должен был выступать за республиканцев, и при этом еще удивительно, что у Рузвельта был такой хороший результат.
Как же решить эту проблему? Возвращаясь к нашему примеру, сравним выборку на рис.5.1б с выборкой на рис.5.1в. В последнем случае для анализа также отобрана шестая часть совокупности, однако каждый из основных типов совокупности представлен в выборке в той пропорции, в которой он представлен во всей совокупности. Такая выборка демонстрирует, что один из каждых шести взрослых американцев принадлежит к одной политической группе, один из шести – к двум и т.д. Такая выборка позволит также выявить другие различия между ее членами, которые могли бы соотноситься с участием в разном числе групп. Таким образом, выборка, представленная на рис.5.1в, является репрезентативной выборкой для рассматриваемой совокупности.
Конечно, данный пример является упрощенным по крайней мере с двух чрезвычайно важных точек зрения. Во-первых, большинство совокупностей, интересующих политологов, более разнообразно, чем та, что приведена в примере. Люди, документы, правительства, организации, решения и т.п. отличаются друг от друга не по одному, а по гораздо большему числу признаков. Таким образом, репрезентативная выборка должна быть такой, чтобы каждая из основных, отличная от других область была представлена пропорционально ее доле в совокупности. Во-вторых, ситуация, когда реальное распределение переменных, или признаков, которые мы хотим измерить, заранее неизвестно, встречается гораздо чаще, чем противоположная, – возможно, оно не измерялось в предшествующей переписи населения. Таким образом, репрезентативная выборка должна быть построена так, чтобы она могла точно отражать существующее распределение даже тогда, когда мы не в состоянии прямо оценить ее валидность. Процедура формирования выборки должна иметь внутреннюю логику, способную убедить нас, что, будь мы в состоянии сравнить выборку с переписью, она действительно оказалась бы репрезентативной.
Чтобы обеспечить возможность точного отражения сложной организации данной совокупности и определенную степень уверенности в том, что предлагаемые процедуры способны сделать это, исследователи обращаются к методам статистики. При этом они действуют по двум направлениям. Во-первых, используя определенные правила (внутреннюю логику), исследователи решают вопрос о том, какие именно конкретные объекты им изучать, что именно включать в конкретную выборку. Во-вторых, используя совсем другие правила, они решают, сколько объектов выбрать. Мы не будем подробно изучать эти многочисленные правила, рассмотрим лишь их роль в политологическом исследовании. Начнем рассмотрение со стратегий выбора объектов, образующих репрезентативную выборку.
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.
Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).
Сегодня многие трудные расчеты берет на себя техника, а статистические программы можно получить по Интернету. Вот и с расчетом выборки ленивому социологу предоставили такую возмож-
ность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».
Контроль и ремонт выборки
Качество социологической информации может снизить множество факторов: неправильно сформулированные анкетные вопросы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др.
Практика эмпирических исследований - зарубежных и отечественных, фундаментальных и прикладных - свидетельствует, что ошибки, в том числе при составлении выборки, встречаются почти в каждом исследовании. Другой вопрос - значимые или незначимые смещения такого рода. А поскольку ошибки, накладки и смещения происходят всегда, то для специалистов, занятых контролем и ремонтом выборки, работа всегда найдется. Да и саму эту область методической науки преждевременная старость не ожидает. Не только в науке, но и в любой другой сфере профессия контролеров и ремонтников всегда была хлебной и престижной.
Контролем выборки будем называть процесс научного сравнения генеральной и выборочной совокупностей, выявление степени их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле - это уравнивание выборочных и генеральных распределений социально-демографических характеристик респондентов.
Под ремонтам выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.
Таким образом, второй прием выступает практической реализацией первого, аналитического, а оба они составляют два обязательных этапа проведения социологического исследования.
Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистической обработки данных, включающей коррекцию: а) выборочной совокупности; б) распределений социально-демографических характеристик респондентов; в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных. Указанные виды коррекции призваны отремонтировать самое главное - выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой
Основная цель ремонта выборки - повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций 40 .
Коррекция выборочной совокупности. Далеко не всегда отобранные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.
Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов: выбор следующего по списку респондента (например, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем случае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, найденных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к примеру, в вашу выборку попал работающий пенсионер такой-то национальности и овдовевший, то желательно подыскать ему в качестве замены другого пенсионера сходного возраста, национальности, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если список генеральной совокупности невелик и найти замену не удается, следует отказаться от эквивалентного метода и перейти к другому.
Коррекция распределений демографических характеристик респондентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной совокупности, то можно применить три способа: 1) удалить те группы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представ-
ленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить - представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все можно оставить и так.
Взвешивание исходных данных - математический способ повышения или понижения значения ответов конкретной группы респондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респонденту определенного веса (коэффициента, на который нужно умножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова 41 , взвешивание - единственный способ восстановления репрезентативности в панельных исследованиях без потери точности. Поскольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний решить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невозможно контролировать со стороны, другим исследователям. Самый простой способ - численность конкретной социально-демографической группы, например подростков от 13 до 17 лет, из генеральной совокупности (N) делят на количество респондентов, представляющих данную возрастную группу (п), полагая, что один респондент представляет мнение jVчеловек генеральной совокупности.
Сотрудники Института социологии АН СССР А.А. Давыдов и А. О. Крыштановский в свое время установили любопытные факты 42 . Оказывается, демофафические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жизнью, оценкой темпов перестройки, одобрением деятельности политических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических событиях. Для этих индикаторов перевзвешивание проводить не нужно. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.
Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста.
Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из общего массива.
Коррекция пропущенных ответов. Пропуски чаще всего возникают в открытых и табличных вопросах. Самый простой способ коррекции - исключить их или всю анкету из научного анализа. При пропуске не содержательного вопроса, а того, что. имеется в паспортичке, поступают так. Если социально-демографические характеристики не связаны с содержательными ответами, то анкете с пропущенными значениями следует присвоить наиболее часто встречающиеся в выборке социально-демографические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак 44 .
Если данных получено много, то ремонт выборки может осуществляться за счет сокращения выборочной совокупности. Это, по мнению А.А. Давыдова и А.О.Крыштановского, наиболее рациональный подход к ремонту выборки, поскольку данная стратегия не опирается ни на какие дополнительные допущения. Если объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следуют из собранного материала и истинность которых трудно проверить.
Переформирование выборки осуществляется тогда, когда проверка показала, что выборка не представляет совокупность в целом. В этом случае выбираются новые респонденты, и они добавляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.
Далеко не все социологи, организующие эмпирическое исследование, включают данные о контроле и ремонте выборки в его «паспортичку». Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществлялся ремонт выборки 45 . Для сравнения отметим: за рубежом ремонт выборки уже давно стал распространенным методом повышения качества социологической информации.
Раньше причины отставания таились в отсутствии вычислительной техники, специализированного программного обеспечения, методических пособий, недостаточной квалификации исследователей. Сегодня есть и техника, и нужные программы, но проблема не решена. Видимо, ее нельзя свести лишь к техническим аспектам.
На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, предшествующих опросов на том же объекте. В качестве контрольных параметров обычно применяются социально-демографические признаки (пол, возраст, национальность, семейное положение). Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.
Например, институт Дж. Гэллапа, использующий выборки объемом 1500 чел., контролирует репрезентативность по имеющимся в национальных цензах данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности (белый - цветной), месту проживания, величине населенного пункта 46 . В исследованиях, проводимых ВЦИОМ, надежность выборочных данных определяется методом апостериорного контроля. В анкету мониторинга обязательно включают несколько вопросов, по которым имеется надежная информация в Госкомстате РФ. К ним обычно относятся пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента. Четыре показателя - пол, возраст, образование и место жительства респондента используются для выделения контролируемых групп при определении весов
опрошенных - они должны соответствовать аналогичным группам в генеральной совокупности 47 . Поскольку из официальной статистики известно, сколько в России мужчин и женщин, то легко сравнить по этим цифрам данные мониторинга и определить погрешность.
В обследованиях Центра «Социо-Экспресс» Института социологии РАН репрезентативность всероссийской выборки (проектный объем 2 тыс. чел.) контролируется по региональным пропорциям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов. Опрос производится методом формализованного интервью по месту жительства. В основе размещения выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50-500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские населенные пункты. Авторы полагают, что предельная ошибка их выборки не превышает 3% 48 .
Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик исследования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммерческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не могут являться объектом коммерческой тайны. Более того, отсутствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях 49 .
Паспортичка выборки
При написании научного отчета и публикации статьи в академическом журнале от авторов исследования всегда требуют четких разъяснений относительно самого исследования и выбороч-
ной совокупности: кто и когда проводил исследование, какие методы исследования использовались, каковы тип, объем и характер выборки, ошибка репрезентативности, состав выборочной совокупности по главным параметрам (например, пол, возраст, национальность, образование), контроль данных и др. Если эти сведения отсутствуют, то статью в журнал обычно не принимают, а если они присутствуют лишь частично, то им не доверяют серьезные исследователи. Таким образом, паспортичка исследования и паспортичка выборки необходимы авторам не меньше, чем редакторам и читателям.
Паспортичка выборки появляется у социолога дважды. Первый раз характеристику типа выборки с кратким обоснованием целесообразности ее использования в соответствии с целями исследования, требованиями репрезентативности и организационными возможностями исследования социологу приходится давать в Методическом разделе программы своего исследования. Раздел о выборке содержит ответы на следующие вопросы:
♦ Каков эмпирический объект исследования?
♦ Является ли исследование сплошным или выборочным?
♦ Если оно является выборочным, то претендует ли оно на репрезентативность?
♦ Если оно претендует на репрезентативность, то какова генеральная совокупность?
♦ Сколько ступеней отбора применяется в выборке?
♦ Какова единица отбора на каждой ступени?
♦ Какая стратегия отбора применяется на каждой ступени (случайная, квотная)?
♦ Какая конкретно разновидность случайного отбора применяется?
♦ Какие параметры используются при квотной выборке?
♦ Что является основой выборки (список, картотека, карта)?
♦ Какова единица наблюдения на последней ступени отбора?
Принципы выборки описываются не только для метода опроса, но и для каждого метода, используемого в исследовании: анализ документов, наблюдение и т.д.
Условный пример описания выборки. В исследовании эффективности бригадных форм организации труда возможна такая стратегия. 1. В качестве эмпирического объекта принимаются рабочие, объединенные в бригадную форму организации труда. 2. Исследование выборочное. 3. Генеральной совокупностью выступают все рабочие, объединенные в бригадную форму. 4. Применяются три ступени отбора. 5. На первой ступени выделяются бригады, занятые в основном и вспомогательном произвол-
стве. Для последних применяется сплошной опрос (в связи с их малочисленностью), а для первых - выборочный. 6. Вторая ступень - отбор бригад, занятых в основном производстве. По показателям, характеризующим конечные результаты, бригады разделяются на три группы: а) передовые; б) средние; в) отстающие. В зависимости от числа бригад на каждую группу составляют список, и по нему делается случайный непропорциональный отбор (например, по три бригады в каждой) с помощью опреде-ленного «шага выборки». 7. Третья ступень - в отобранных бригадах проводится сплошной опрос. Единицей наблюдения выступает отдельный работник 50 .
Второй раз с описанием выборки социолог встречается уже после проведения исследования - когда пишет научный отчет или научную статью в журнал.
Неполное описание паспортных данных исследования, к сожа-лению, самая распространенная болезнь российских ученых. Не-которые не знают, как именно их составлять, другие считают та-кие сведения необязательными или неважными. А есть и такая ка-тегория исследователей, которым сообщить просто нечего, поскольку, описав все сведения о выборке, они разоблачат свою неграмотность. Распространенный случай - социолог как-то про-вел исследование, каким-то образом построил выборку и что-то там получил. Но сформулировать паспортичку, выразить на научном языке свои действия он не может.
Хроническая болезнь отечественных социологов - отсутствие или недостаточно высокая методическая культура. Она касается не только организации и проведения полевого исследования, но и публикации его результатов в открытой печати. Подобный факт известен всем и о нем переодически говорят с 1960-х по 2000-е гг. Иногда наших социологов и психологов удается, что называется, застичь на месте преступления.
Согласно данным исследования В.В. Солодникова, который провел вторичный анализ публикаций в трех академических жур- налах: «Социологические исследования», «Вопросы психологии»
и «Психологический журнал» за 1986-1992 гг., ни социологи, ни психологи не утомляют себя выдвижением, обоснованием и проверкой гипотез. Большинство ученых (от 61 % у психологов до 92% у социологов) обходится без такого познавательного инструмента, нарушая все каноны научного метода. Только в 8% социологических публикаций гипотезы формулируются в явном виде. Плохо обстоит дело у социологов и психологов с описанием объекта исследования: мало кто указывает количество опрошенных, пол и возраст респондентов, редко сообщается уровень образования опрошенных, место проживания, продолжительность семейной жизни (для состоящих в браке), доход и профессиональный статус. Проблема репрезентативности, т.е. сравнение выборочной и генеральной совокупностей по указанным признакам, почти совсем не обсуждается. Кроме того, единичны упоминания социологов о пилотаже инструментария, об использовании ранее апробированных методик. Хотя самым распространенным методом сбора эмпирической информации выступает опрос, редко кто описывает, какой именно его вид применялся в зависимости от места, времени или способа заполнения анкеты.
2.12. Репрезентативность
Репрезентативность (франц. representatif - показательный) - свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность выборки означает, что с некоторой наперед заданной или вычисленной на фактической выборке погрешностью установленное на выборочной совокупности можно отождествить с генеральной совокупностью или, если использовать язык статистики, найти оценки параметров генеральной совокупности. Во-первых, каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку. Во-вторых, во избежание направленного отбора выбор единиц генеральной совокупности нужно производить независимо от изучаемого признака. В-третьих, отбор должен производиться по возможности из однородных совокупностей. В-четвертых, число единиц генеральной совокупности, отобранных для обследования, должно быть достаточно большим.
Процесс непосредственного определения репрезентативности выборки складывается из этапов: сопоставление средних показателей распределений выборочной и генеральной совокупностей; сопоставление форм распределения этих показателей. Средний показатель распределения обычно берется как средняя 144
арифметическая или средневзвешенная арифметическая этого распределения.
В случае изучения совокупностей с альтернативными признаками вместо средней арифметической вычисляется доля единиц, обладающих рассматриваемой характеристикой, относительно всей совокупности. Если обозначить объем совокупности символом N, а явление с данным признаком - М, то Р - доля явлений с этим признаком определяется:
где Q - доля явлений с альтернативным признаком.
Пользоваться выводами, полученными на основании исследо-вания выборочной совокупности, можно в том случае, если раз-ность между средними арифметическими (или средними долями)" признаков выборочной и генеральной совокупностей стремится к нулю. Предполагается, что это требование удовлетворяется при выполнении четырех условий, оговоренных выше. Правда, зная только выборочные средние показатели, нельзя дать точные оцен-ки их разности, так как неизвестны средние показатели генераль-ной совокупности. Кроме того, сами значения выборочных средних могут колебаться в зависимости от того, какие единицы генеральной совокупности попадут в выборку. Поэтому оценка репрезентативности выборочной совокупности по средним показателям ее распределения сводится к поиску ошибки репрезентативности.
Сравнение выборочной и генеральной совокупностей по средним показателям не дает полного представления о генеральной совокупности. Так, в двух совокупностях с одинаковыми средними показателями расхождения между максимальным и минимальным значением признака, определяющие форму его распределения, могут быть различны. Если представить такое распределение графически, то оно образует симметричную колоколообразную (нормальную) кривую, отражающую тот факт, что сумма многих независимых произвольно распределенных случайных переменных приближенно распределяется по нормальному закону. Ордината у, которая определяет высоту кривой для каждой точки х, представляет собой плотность вероятности для значения х г
Максимум плотности вероятности приходится на среднее значение переменной и равен единице. Это означает, что чем меньше
случайное значение переменной отличается от ее среднего значения, тем больше вероятность его проявления. И наоборот, чем больше отклонение значений переменной от ее средней величины, тем вероятность их появления меньше. Таким образом, значения отклонений от средних величин, т.е. значения вида х (- х, несут информацию о вариации изучаемых переменных. Если бы все значения признака были одинаковы и совпадали с его средней величиной, то совокупность значения этого признака была бы предельно однородной.
Обычно число положительных отклонений от среднего арифметического значения совокупности примерно равно числу отрицательных отклонений, т.е. сумма всех отклонений неизбежно стремится к нулевому значению. Поэтому, если бы потребовалось просуммировать все отклонения признака в совокупности, эта сумма всегда была бы равна нулю:
Во избежание этого каждое отклонение возводят в квадрат и находят сумму квадратов - дисперсию.
Нормальное распределение в полной мере характеризуется параметрами: jc - среднее значение признака и а - среднее квадратичное (стандартное) отклонение. Среднее х определяет положение распределения относительно оси х; стандартное отклонение показывает форму кривой; чем больше значение а, тем шире кривая и тем ниже ее максимум.
Площадь под нормальной кривой располагается таким образом, что в границах х ± о находится 68% всего распределения признака, в границах х ± 2<т - 95,5, в пределах х ± Зет - 99,7%. Вероятность того, что разность между случайной переменной, распределенной примерно по нормальному закону, и ее средним значением по абсолютной величине превосходит Зет, меньше 0,3%. Отсюда следует, что практически со стопроцентной точностью можно утверждать:
Оценка репрезентативной выборочной совокупности по форме распределения показателей представляет собой сравнение мер вариации этих показателей в выборочной и генеральной совокупностях. Дисперсия генеральной совокупности известна далеко не в сегда, однако в математической статистике доказано, что меж-
ду генеральной и выборочной дисперсиями существует соотношение вида:
где п - объем выборки.
Проблема репрезентативности выборки имеет важное значение как проблема правомерности экстраполяции выводов, полученных при анализе выборочной совокупности, на всю генеральную со-вокупность 52 .
Глава 3. ПРОГРАММА
Похожая информация.