ИССЛЕДОВАТЕЛЬСКАЯ

КОМПАНИЯ

ИНФОРМЭС Екатеринбург

О ВЫБОРКАХ НА ПАЛЬЦАХ: ЧАСТЬ II


В прошлом посте я писал о выборочном отборе и типах выборок. Далось мне это непросто: поклялся объяснять «на пальцах», а пальцы – не лучший инструмент маркетинговых исследований. Но, вроде как, справился. Теперь о том, от чего зависит размер выборки.

Точность – наше все


Первое, от чего зависит размер выборки – требования к погрешности измерения (научно погрешность называется «предельная ошибка выборки», и чем больше выборка, тем меньше погрешность). Эти требования зависят от задачи исследования. Проще всего объяснить на примере. Допустим, некая фирма закончила рекламную кампанию. Результаты их не очень устраивают – продажи выросли недостаточно. И вот решили провести опрос, чтобы выяснить, что не так. То ли люди вообще не видели рекламу, то ли не так поняли, то ли предложение в рекламе показалось им неинтересным… Простенькая такая исследовательская задача. Для ее решения, например, в пределах города-миллионника вполне достаточно выборки 400 единиц. Погрешность не превысит 5%, а такая точность в данном случае вполне приемлема: надо лишь понять причины неудачи рекламной кампании. Какая из них главная, какие второстепенные.


Теперь усложним пример. Допустим, фирма-заказчик проводит на протяжении года рекламную кампанию, и планирует каждый квартал отслеживать достигнутые результаты. Т.е. в конце каждого квартала надо проводить новую волну опроса. В этом случае опрашивать каждый раз по 400 человек будет недостаточно. Почему? Потому, что нам надо сравнивать результаты с результатами предыдущего квартала, а погрешность в плюс/минус 5% может запросто «съесть» все различия. Например, опрос после первого квартала показал, что известность марки 52%, а опрос после второго – 58%. Но 52 + 5 = 57, а 58 – 5 = 53. Так что еще вопрос, после какого квартала известность была выше… Поэтому в данном случае выборку надо увеличить, чтобы погрешность была меньше. Я бы предложил по окончании каждого квартала опрашивать как минимум по 1000 человек. Меняется задача исследования – меняются и требования к допустимой погрешности измерения. Исходя из них для каждого исследования рассчитывается размер выборки. Для этого есть несколько несложных формул. Те, кто любит формулы, могут найти их где-нибудь в сети. Кто не очень любит – читайте дальше.


Это очень важный момент, который следует запомнить. Не бывает никаких «нормативов» выборок. В каждом случае оптимальная величина выборки рассчитывается индивидуально. Это только у преподавателей двухдневных курсов маркетинга бывают нормативы типа «на город-миллионник выборка всегда должна быть 1000 единиц»…


Снова вернемся к первому примеру. Усложним задачу: посмотреть, как запомнили рекламу не только все жители города, но и в чем различия между запоминанием рекламы людьми с разным доходом. Отдельно считаем для бедных, отдельно для среднего класса, отдельно для богатых. Теперь, если мы снова опросим 400 человек, нам придется разделить их на три соответствующие группы, и в каждой проводить расчеты отдельно. Богатых может оказаться, например, всего лишь 30-40 из 400 наших респондентов. Не важно сколько именно, но в любом случае слишком мало для анализа: погрешность для подвыборки в 40 единиц составит почти 16%, что конечно же неприемлемо. Значит, выборку придется увеличивать. Поэтому второе, от чего зависит размер выборки – какое количество групп мы хотим выделить в отчете.


Как правило, в исследовательских отчетах выделяют несколько групп потребителей. С этим связан один нюанс: в начале отчета многие исследователи пишут что-нибудь вроде «погрешность измерения не превышает 5%». Это правда, но только в целом по выборке – для группы «все потребители». В отдельных же группах будет куда меньше респондентов, поэтому и погрешность будет совершенно другая. Об этом заказчик обычно не знает, и с удовольствием сравнивает: вот среди богатых на семь процента больше, среди бедных на четыре процента меньше… И не подозревает, что эти различия укладывают в погрешность измерения, которая в отдельных группах может быть очень высока.



От Урюпинска до Лондона


Очень типичный вопрос – как размер выборки зависит от размера генеральной совокупности. Например, сколько опрашивать в Омске, а сколько в Москве. Начну не с мегаполисов, а с небольших поселков. Назовем их условно Малое Кукуево (население 600 человек) и Большое Кукуево (население 1500 человек). Чтобы получить данные с погрешностью не более 5%, в Малом Кукуеве надо опросить 240 жителей. Но чтобы получить ту же точность в Большом Кукуеве, придется опрашивать уже 320 человек. Т.е. чем больше население, тем больше должна быть выборка. Однако, эта закономерность действует только до тех пор, пока размер генеральной совокупности (в наших примерах генеральная совокупность – это все население) не превысит примерно 10 тыс. единиц. Дальше численность населения уже не влияет на выборку. Например, выборка в 1000 единиц даст предельную ошибку не более 3,2% хоть при опросе в Ельце (население 106 тыс. жителей), хоть в Омске (1,2 млн. жителей), хоть в Москве (12,2 млн. жителей).


Понимаю, что это не укладывается в бытовую логику. Очень часто приходится слышать «провели опрос по всей России 1600 человек, значит, на наш город пришлось 2-3 человека, как могут быть достоверны эти результаты?». Дело в том, что полученные результаты отражают ситуацию по стране в целом, а не в вашем городе. В вашем какой-то показатель может быть выше, в другом городе ниже, но по стране в целом получится именно то, что показало исследования. Если есть задача посмотреть конкретно ваш город, значит, надо проводить в нем опрос отдельно. Или увеличивать выборку по стране в десятки раз, чтобы на ваш город пришлось достаточно много респондентов, и эти данные можно было анализировать отдельно (о выделении групп – см. выше). К сожалению, законы статистики - объективные законы, и оценивать их с точки зрения бытовой логики не совсем верно.


Все, что написано выше, относится к требованиям к величине выборки, и, соответственно, к точности данных, когда измерения проводятся в процентах. В статистике показатели, которые измеряют в процентах, называются «альтернативный признак». Например, это известность марки, доля рынка, доля потребителей, которые считают вашу марку предпочтительной и т.п. Чаще всего исследовательские отчеты включают в себя множество показателей, которые можно измерить в процентах. Но есть и показатели, которые исчисляются в рублях, килограммах, метрах и т.д. Например, средняя величина покупки, емкость рынка, средний чек и т.п. Такие показатели в статистике называются «количественным признаком». И тут есть принципиальное различие. Если показатель измеряется в процентах, погрешность всегда можно оценить заранее. Например, так же упоминавшаяся выборка 400 единиц даст погрешность не более 5,0%, выборка 1500 единиц – не более 2,6%. Но если показатель измеряется не в процентах, а в каких-то других единицах (допустим, в тех же рублях), то на разных рынках одинаковая выборка даст результаты с разной погрешностью.


Проще всего это пояснить опять же на примере. Стоит задача узнать среднее потребление хлебопродуктов на душу населения (в килограммах) и, одновременно, среднедушевое потребление алкоголя (в литрах). При одинаковой величине выборки данные о потреблении алкоголя могут обладать большей погрешностью, чем о потреблении хлебопродуктов. Почему? Потому что потребление хлебопродуктов не слишком сильно варьируется. Одни люди едят хлеба несколько больше, другие меньше. Тех, кто вообще не ест хлеб или наоборот – сидит только на хлебе и воде, сравнительно немного. Т.е. среднедушевое потребление хлебопродуктов в разных семьях хотя и различается, но оно относительно однородно. С алкоголем все обстоит иначе. Многие не пьют совсем. Есть те, кто выпивает пару бутылок пива или рюмку водки в неделю. Но есть господа, у кого недельное потребление спиртного измеряется литрами. К сожалению, их тоже достаточно много. Таким образом, потребление спиртного населением куда менее однородно, чем потребление хлебопродуктов. А чем менее однородно потребление продукта, тем выше погрешность измерения. Об этом тоже надо помнить.



Итак, что надо учитывать, когда речь заходит о величине выборки


1. Чем больше выборка, тем меньше погрешность, но тем дороже исследование. Поэтому есть понятие «оптимальной выборки», в которой сочетается точность полученных результатов, допустимая для определенной исследовательской задачи, и приемлемые затраты на опрос. Это соотношение «цена – качество» в области маркетинговых исследований…


2. Не бывает «нормативов» выборок. В каждом исследовании размер выборки рассчитывается индивидуально.


3. Если генеральная совокупность (например, население города) свыше 10 тыс. человек, ее размер уже не влияет на величину выборки. Выборка одной величины даст одинаковую погрешность хоть в Лондоне, хоть в Урюпинске.


4. Если при обработке результатов опроса выделяют какие-то группы (богатые, бедные, молодые, старые, мужчины, женщины и т.п.), то погрешность в каждой из них будет больше, чем в целом по выборке. Причем может быть больше в разы. Необходимо требовать, чтобы исследователи отражали это в отчете.


5. Заранее оценить, какой будет погрешность измерения при определенной величине выборки можно только для показателей, которые измеряются в процентах. Если показатель измеряется в рублях, килограммах, метрах и т.п., погрешность можно будет оценить только по результатам опроса.


6. Все, что написано выше, относится только к вероятностным выборкам, обеспечивающим равную вероятность опроса любого представителя генеральной совокупности (например, опрос любого жителя города) – см. предыдущий пост. Для других видов выборок рассчитать погрешность не получится.