ИССЛЕДОВАТЕЛЬСКАЯ

КОМПАНИЯ

ИНФОРМЭС Екатеринбург

О ВЫБОРКАХ НА ПАЛЬЦАХ: ЧАСТЬ I


Признаюсь, с трудом написал этот пост. Тяжело рассказывать о совершенно очевидных вещах. Вроде бы каждый студент специальности «экономика», «менеджмент», и тем более «маркетинг», изучал статистику. О выборках преподаватели всем рассказывали. Полно справочников и учебников, в сети куча материалов. Странно, что после этого вопросы о выборках регулярно задают на переговорах. Приходится проводить оперативный ликбез, объяснять на пальцах, какие бывают выборки, от чего зависит их величина. Вот и решил написать пост, к которому можно отослать интересующихся товарищей. Старался, по возможности, «без науки» - чтобы занятой менеджер прочитал по диагонали, и составил самое общее представление…

Что такое выборка

Первое, что придется сделать, это понять сам принцип выборочного наблюдения. Представьте простую ситуацию. Некий предприниматель решил купить конфеты оптом, но столкнулся с проблемой: какой-то умник пересыпал конфеты из разных мешков в одну большую коробку. Теперь на ясно, сколько в ней дорогих шоколадных конфет, а сколько дешевых карамелек. Как определить, сколько заплатить за эту коробку конфет? В старину проблему решили бы просто – заставили какого-нибудь подневольного человека все конфеты пересчитать и разложить по кучкам. Но со временем люди поняли, что можно поступать проще. Сначала тщательно перемешать конфеты, а потом ведерком зачерпнуть небольшое количество. И пересчитывать не все конфеты в коробе, а только в ведерке. Соотношение шоколадных конфет и карамелек в ведерке будет примерно таким же, как среди всех конфет в коробке. Например, если в ведерке карамелек окажется 27%, то и в коробке их тоже около 27%. «Около» - потому что существует статистическая погрешность измерения (правильно она называется «предельная ошибка выборки»). Чем больше конфет мы зачерпнем ведерком, тем меньше будет погрешность, но об этом потом. Главное - сам принцип выборочного наблюдения: нет необходимости пересчитывать все конфеты в коробке. Достаточно отобрать часть из них, и пересчитать. Результат будет такой же, как если бы мы пересчитали все конфеты в коробке.


Та кучка конфет, которую мы зачерпнули и пересчитали, называется выборкой, а все конфеты в коробке – генеральной совокупностью. Точно также, когда мы опросим 800 человек из числа жителей города, то эти восемьсот будут выборкой из генеральной совокупности «все население города». Если они отобраны не абы как, а с соблюдением определенных принципов, то эти 800 человек по всем признакам будут соответствовать всем жителям города. Среди них точно такой же процент мужчин и женщин, студентов и пенсионеров, потребителей чупа-чупсов и владельцев BMW, что и в целом в городе. Такая «правильная» выборка, соответствующая генеральной совокупности, называется репрезентативной.


Зачем я вообще об этом пишу, если Google на запрос «выборка» выдает 837 тысяч результатов? Да и так вроде бы все представляют, что такое выборка. Представлять то представляют, но регулярно на переговорах какой-нибудь взрослый дяденька с высшим образованием изрекает что-нибудь вроде «а если вы других 800 опросите, результат же будет другой». Нет, он будет отличаться от предыдущего только в пределах погрешности измерения. Но лишь при условии, что вы правильно построили выборку.


Именно правильно построили, потому что с этим связано еще одно заблуждение – полностью противоположного плана. Типа «да это все ваши научные тонкости, я сейчас выйду на улицу, опрошу прохожих и получу примерно тот же результат» и вечное «нам не надо так научно и так точно, нас примерно устроит». Дело в том, что если опросить первых попавшихся прохожих на улице или у ближайшего супермаркета, получится не примерно то же, а абсолютно не то. Рекорд, свидетелем которого мне довелось быть – результаты такого опроса «любых прохожих» отличались от реальности в 9,7 раза… Поэтому хочешь - не хочешь, а выборку приходится строить с соблюдением хотя бы самых элементарных принципов отбора.



Какие бывают выборки


В разной литературе классификации отличаются, но в целом типов выборок немного. Все они делятся на две большие категории – вероятностные и невероятностные. К вероятностным относится, в первую очередь, «простая вероятностная выборка» - это как раз наш пример с конфетами. Если помните, мы перемешали конфеты перед тем, как отбирать, и тем самым обеспечили равную вероятность отбора каждой конфеты, т.к. ведерком могли зачерпнуть любую. Простая вероятностная выборка возможна тогда, когда можно обеспечить именно равную вероятность отбора. В практике маркетинговых исследований это, например, случай построения выборки для телефонного опроса. Мы знаем на какие цифры начинаются номера телефонов абонентов определенной компании сотовой связи. Специальная программка берет первые 3 или 4 цифры и добавляет к ним комбинацию последних цифр телефонного номера, сформированную генератором случайных чисел. Т.е. существует равная вероятность опроса любого абонента этой компании. Вообще простая вероятностная выборка сводит к минимуму риск систематических ошибок в отборе, способных привести к искажению результатов исследования. Хотя идеального, конечно, ничего не бывает.


Теперь рассмотрим другой пример. Стоит задача опросить бухгалтеров предприятий об их предпочтениях в отношении бухгалтерских программ. В адресном справочнике нашли список предприятий города, допустим, 6000 предприятий, а нам надо сформировать выборку, например, 400 единиц. Все очень просто: выбираем произвольно любое предприятие на первой странице, отсчитывает от него 14 предприятий и выбираем 15-е, потом выбираем 30-е, 45-е и так до конца списка. В итоге у нас получится выборка из 400 предприятий. Такая выборка называется «систематическая» (или «пошаговая»). Она тоже способна обеспечить равную вероятность отбора любого представителя генеральной совокупности.


Но иногда эти два типа выборок не подходят для задачи исследования. Опять же пример: надо определить среднюю по городу цену воды в 5-литровых ПЭТ-бутылках. Т.е. необходимо построить выборку магазинов для обследования цен. Основной вклад в продажи воды в ПЭТ вносят крупные магазины – супермаркеты и гипермаркеты. Это естественно, поскольку в них огромный поток покупателей. Если же мы используем одну из двух описанных выше выборок, то в них крупных магазинов окажется очень мало. Потому что эти выборки обеспечивают равную вероятность отбора любого магазина из списка, а в списках во много раз больше именно мелких магазинов (в крупном городе их тысячи, а гипермаркетов десятки). Получается, что большие магазины, на которые приходится основной объем продаж воды в ПЭТ, будут меньше всего охвачены обследованием. И в этом случае выборка строится иначе. Все магазины в городском списке разделяют на несколько категорий. Например, гипермаркеты, супермаркеты и магазины формата «у дома». И в каждом из списков отдельно проводят пошаговый отбор. Получаются как бы три отдельные выборки, по которым проводится обследование. После его окончания результаты сводят вместе с учетом объема продаж в различных форматах розничной торговли. Такая выборка называется «стратифицированная» (другое название - «районированная»). Она достаточно широко применяется в исследованиях. Хотя и имеет один очень серьезный недостаток: необходимо знать, как сводить данные воедино. В нашем примере мы должны знать, какая доля воды продается в гипермаркетах, какая в супермаркетах, а какая в магазинах формата «у дома». Хорошо если эта информация есть в начале исследования. Но так, к сожалению, бывает не всегда.


Существует еще несколько типов вероятностых выборок, но здесь нет смысла описывать их все. Будет слишком сложно, а я уже не укладываюсь в обещание рассказать «на пальцах». Главное, что следует запомнить – только вероятностные выборки могут рассматриваться как репрезентативные. Если результаты получены с их помощью, можно рассчитать погрешность измерения и понять, на сколько полученные результаты могут отличаться от реальности. Другие типы выборок не позволяют рассчитать погрешность. Однако, далеко не во всех случаях возможно исследование по вероятностным выборкам. Тогда используют невероятностные выборки.


Типичный пример – уличный опрос. Построить вероятностную выборку на улице крайне проблематично. Те, кто чаще ездит на машине, реже оказываются в роли пешеходов, и вероятность опросить их тоже в разы меньше. В разное время суток разное соотношение прохожих разного возраста. В офисном районе на улице больше служащих, а в спальных районах в рабочее время – пенсионеров, домохозяек и временно неработающих граждан. Поэтому уличный опрос уместно проводить по «квотной» выборке. Ее суть очень проста. Например, если в городе 55% женщин и 45% мужчин, то в выборке из 100 респондентов должно быть 55 женщин и 45 мужчин, если выборка 1000, то соответственно 550 женщин и 450 мужчин. На практике немного сложнее – кроме пола придется учитываться возраст, уровень доходов или еще какие-то признаки. Но принцип тот же: какой процент людей с этим признаком в генеральной совокупности, такой же процент респондентов должен быть в выборке.


Квотная выборка применяется в исследованиях очень широко. Нередко ей просто сложно найти альтернативу, как в нашем примере с уличным опросом. Но иногда ее выбирают из-за того, что исследователям так просто удобнее. Хотя у квотной выборки очень много недостатков. Первый – как определить, кого и сколько опрашивать, если, например, одной из типичных целей исследования является как раз описание состава потребителей. Получается, что до начала работы мы должны знать то, ради чего она проводится… Второй недостаток – нужную пропорцию респондентов иногда можно отобрать где угодно. Напомню приведенный выше упрощенный пример: если в городе 55% женщин и 45% мужчин, то в выборке из 100 респондентов должно быть 55 женщин и 45 мужчин. Но такую пропорцию можно выдержать при опросе возле проходной умирающего завода с соответствующим уровнем зарплат, а можно в районе элитных новостроек. Причем с учетом не только пола, но и возраста, и еще каких-то критериев отбора. Понятно, что мы получим два совершенно разных результата. Поэтому надпись в отчете «квотная выборка репрезентует население по полу и возрасту» абсолютно не гарантирует достоверность результатов исследования.


Иногда необходимо отобрать респондентов, обладающих определенным признаком. Например, чтобы изучить поведение покупателей какого-то продукта, отбирают любых людей, кто его потребляет с определенной частой - так называемая «целевая» выборка, широко применяемая в исследовательской практике. Считать проценты и средние величины в таком случае конечно же нельзя. Это, по сути, произвольный бессистемный отбор, и ошибиться можно «в разы». Но она вполне подходит, если необходимо выяснить, какие модели покупательского поведения вообще встречаются на рынке, сформировать список самых важных для потребителей характеристик продукта, выявить недостатки рекламных материалов и т.п. В общем, получить какую-то неколичественную информацию. Ее разновидность – метод «снежного кома». Когда одного респондента просят порекомендовать кого-нибудь из его знакомых, которого опрашивают и тоже просят кого-то порекомендовать. Так по цепочке строится выборка. Это очень хороший подход, например, при опросе экспертов: находят одного эксперта, который рекомендует, кто еще из его коллег сможет рассказать об интересующем исследователей вопросе.



Что в итоге


Я не ставил своей целью написать обо всех типах выборок и методах отбора. Задача в другом. Хотелось, чтобы менеджеры, работа которых очень далека от маркетинговых исследований, могли получить общее представление об этом. А еще – понимали два очень существенных момента, которые не раз приходилось объяснять на переговорах.


A. Серьезное отношение к построению выборок – это не академические причуды исследователей. Это необходимость. Иначе результаты исследования не будут иметь к реальности просто никакого отношения.


B. Не бывает «общепринятых» выборок. Тип выборки и методы отбора требуют проработки в каждом отдельном исследовании. Учитываются особенности исследуемого рынка, допустимые затраты на проведение опроса, целый ряд других факторов. И, конечно, требования к точности полученных результатов, но об этом в следующем посте.