Формулы для расчета ошибки выборки при различных способах формирования выборочной совокупности. Ошибки выборки. Задачи, решаемые при применении выборочного наблюдения Предельная ошибка выборки формула

Понятие о выборочном наблюдении.

Выборочным называется такое наблюдение, при котором характеристика всей совокупности единиц дается по некоторой их части, отобранной в случайном порядке.

Причины применения выборочного наблюдения:

1. Экономия материальных, трудовых, финансовых ресурсов и времени.

2. Выбранное наблюдение часто приводит к повышению точности данных, т.к. уменьшение числа единиц наблюдения резко снижает ошибки регистрации величин признака (описки, недоучет, двойной счет…).

3. Выборочное наблюдение является единственно возможным, если наблюдение сопровождается полной или частичной порчей наблюдаемых объектов (качество партий яиц, прочность тканей и т.д.).

Ту часть единиц, которые отобраны для наблюдения, принято называть выборочной совокупностью или просто выборкой , а всю совокупность единиц, из которых производится отбор, - генеральной совокупностью .

Принята следующая система обозначения показателей для выбранной и генеральной совокупности.

В зависимости от применения техники отбора разделяют выборку серийную (гнездовую) и типологическую.

· В случае типологической выборки генеральная совокупность разделяется на типы (группы, районы), а затем производится случайный отбор единиц из каждого типа.

· При серийной выборке выбирают не единицы, а определенные серии, группы, районы, внутри которых производится сплошное наблюдение.

Существуют два способа отбора единиц в выборочную совокупность:

- повторный отбор

каждая попавшая в выборку единица возвращается в генеральную совокупность и имеет шанс вторично попасть в выборку.

- бесповторный отбор

отобранная единица не возвращается в генеральную совокупность, а для оставшихся единиц вероятность попасть в выборку увеличивается. Бесповторный отбор дает более точные результаты, но иногда его провести нельзя (исследование потребительского спроса).

Качество результатов выборочного наблюдения зависит от того, насколько состав выборки представляет генеральную совокупность, иначе говоря, от того, на сколько выборка репрезентативна (представительна). Для обеспечения репрезентативности выборки необходимо соблюдение принципа случайности отбора единиц.

Ошибка выборки

Понятие и виды ошибок выборки

Поскольку изучаемая статистическая совокупность состоит из единиц с варьирующими признаками, то состав выборочной совокупности может в той или иной мере отличаться от состава генеральной совокупности.

Расхождение между характеристиками выборки и генеральной совокупности составляет ошибку выборки .

Виды ошибок выборки

Основная задача выборочного метода – изучение случайных ошибок репрезентативности.

Средняя ошибка выборки

Случайная ошибка репрезентативности зависит от следующих фактов (при этом считается, что ошибок регистрации нет):

1. Чем больше численность выборки при прочих равных условиях, тем меньше величина ошибки выборки, т.е. ошибка выборки обратно пропорциональна ее численности.

2. Чем меньше варьирование признака, тем меньше ошибка выборки. Если признак совсем не варьирует, а, следовательно, величина дисперсии равна нулю, то ошибки выборки не будет, т.к. любая единица совокупности будет совершенно точно характеризовать всю совокупность по этому признаку. Таким образом, ошибка выборки прямо пропорциональна величине дисперсии.

В математической статистике доказывается, что величина средней ошибки случайной повторной выборки может быть определена по формуле

Однако следует иметь в виду, что величина дисперсии в генеральной совокупности s 2 нам не известна, т.к. наблюдение выборочное. Мы можем рассчитать лишь дисперсию в выборочной совокупности S 2 . Соотношение между дисперсиями генеральной и выборочной совокупности выражается формулой:

(6.2)

Если n велико, следовательно

s 2 = S 2

И формула средней ошибки повторной выборки (6.1.) примет вид:

Но здесь мы рассмотрели только ошибку выборки для средней величины интересующего признака. Существует также показатель доли единиц с интересующим признаком. Расчет ошибки этого показателя имеет свои особенности.

Дисперсия для показателя доли признака определяется по формуле:

S 2 =w(1-w) (6.4)

Тогда средняя ошибка повтора выборки для показателя доли признака будет равна:

(6.5)

Доказательство формул (6.3) и (6.5) исходит из схемы повторной выборки. Обычно же выборку организуют бесповторным способом. Т.к. при бесповторном отборе численность генеральной совокупности N в коде выборки сокращается, то в формулы ошибки выборки включают дополнительный множитель , и формулы принимают вид:

(6.6)

(6.7)

Пример 1. Определим, на сколько отличаются выборочные и генеральные показатели по данным 10%-ной бесповторной выборки успеваемости студентов.

Расчет ошибки бесповторной выборки для средней величины:

n = 100 N = 1000

Найдем выборочную дисперсию по формуле:

Здесь не известна величина , которую можно найти как обычную среднюю взвешенную величину:

Таким образом,

Т.е. можно сказать, что средний балл всех студентов () равен 3,65±0,07

Теперь рассчитаем долю студентов в генеральной совокупности, обучающихся на «4» и «5».

Найдем по выборке долю студентов, получивших оценки «4» и «5».

(или 64%)

Расчет ошибки бесповторной выборки для доли производится по формуле:

(или 4,5%)

Таким образом, доля студентов, обучающихся на «4» и «5» по генеральной совокупности (P )составляет 0,64±0,045 (или 64%±4,5%).

Предельная ошибка выборки

То, что генеральная средняя и генеральная доля не выйдут за определенные пределы можно утверждать не с абсолютной достоверностью, а лишь с определенной степенью вероятности.

В математической статистике доказано, что генеральные характеристики отклоняются от выборочных на величину ошибки выборки (±m) , лишь с вероятностью 0,683. Применительно к выборочным исследованиям это понимается так, что значения пределов можно гарантировать лишь в 683 случаях из 1000. В остальных же 317 случаях значения этих пределов будут иными.

Вероятность суждения можно повысить, если расширить пределы отклонений, приняв в качестве меры среднюю ошибку выборки, увеличенную в t раз.

Т.е. с определенной степенью вероятности мы можем утверждать, что отклонения выборочных характеристик от генеральных не превысят некоторой величины, которая называется предельной ошибкой выборки D (дельта):

где t – коэффициент доверия (коэффициент кратности ошибки), определяемый в зависимости от того, с какой доверительной вероятностью надо гарантировать результаты выборочного исследования.

На практике пользуются таблицами, где вычислены вероятности для различных значений t . Приведем некоторые из них.

t Вероятность t Вероятность
0,5 0,383 2,0 0,954
1,0 0,683 2,5 0,988
1,5 0,866 3,0 0,997

Например, если в нашем примере мы хотим увеличить вероятность суждения до 0,954, то мы берем t = 2 и таким образом изменяем пределы отклонений среднего балла всех студентов и доли студентов, обучающихся на «4» и «5».

То есть, (6.9)

То есть, (6.10)

Основное преимущество выборочного наблюдения среди прочих других - возможность рассчитать случайную ошибку выборки.

Ошибки выборки бывают систематические и случайные.

Систематические - в том случае, когда нарушен основной принцип выборки - случайности. Случайные - возникают обычно ввиду того, что структура выборочной совокупности все­гда отличается от структуры генеральной совокупности, как бы правильно ни был произведен отбор, то есть, несмотря на принцип случайности отбора единиц совокупности, все же имеются расхо­ждения между характеристиками выборочной и генеральной сово­купности. Изучение и измерение случайных ошибок репрезента­тивности и является основной задачей выборочного метода.

Как правило, чаще всего рассчитывают ошибку средней и ошиб­ку доли. При расчетах используются следующие условные обо­значения:

Средняя, рассчитанная в пределах генеральной совокупности;

Средняя, рассчитанная в пределах выборочной совокупно­сти;

р - доля данной группы в генеральной совокупности;

w - доля данной группы в выборочной совокупности.

Используя условные обозначения, ошибки выборки для средней и для доли можно записать следующим образом:

Выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать любые значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок μ.

В отличие от систематической, случайную ошибку можно опре­делить заранее, до проведения выборки, согласно предельных теорем, рассматриваемых в математической статистике.

Средняя ошибка определяется с вероятностью 0,683. В случае другой вероятности говорят о предельной ошибке.

Средняя ошибка выборки для средней и для доли определяется следующим образом:


В этих формулах дисперсия признака является характеристикой генеральной совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными xapaктеристиками выборочной совокупности на основании закона больших чисел, по которому выборочная совокупность большом объеме точно воспроизводит характеристики генеральной совокупности.

Формулы определения средней ошибки для различных способ отбора:

Способ отбора Повторный Бесповторный
ошибка средней ошибка доли ошибка средней ошибка доли
Собственно-случайный и механиче­ский
Типический
Серийный

μ - средняя ошибка;

∆ - предельная ошибка;

п - численность выборки;

N - численность генеральной совокупности;

Общая дисперсия;

w - доля данной категории в общей численности выборки:

Средняя из внутригрупповых дисперсии;

Δ 2 - межгрупповая дисперсия;

r - число серий в выборке;

R - общее число серий.


Предельная ошибка для всех способов отбора связана со сред­ней ошибкой выборки следующим образом:

где t - коэффициент доверия, функционально связанный с веро­ятностью, с которой обеспечивается величина предельной ошиб­ки. В зависимости от вероятности коэффициент доверия t принимает следующие значения:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Например, вероятность ошибки равна 0,683. Это значит, что генеральная средняя отличается от выборочной средней по абсолютной величине не более чем на величину μ с вероятностью 0,683, то если - выборочная средняя, - генеральная средняя, то с вероятностью 0,683.

Если мы хотим обеспечить большую вероятность выводов, тем самым мы увеличиваем границы случайной ошибки.

Таким образом, величина предельной ошибки зависит от сле­дующих величин:

Колеблемости признака (прямая связь), которую характеризует величина дисперсии;

Численности выборки (обратная связь);

Доверительной вероятности (прямая связь);

Метода отбора.

Пример расчета ошибки средней и ошибки доли.

Для определения среднего числа детей в семье методом случайной бесповторной выборки из 1000 семей отобраны 100. Результаты приведены в таблице:

Определите: .

- с вероятностью 0,997 предельную ошибку выборки и границы, в которых находится средне число детей в семье;

- с вероятностью 0,954 границы, в которых находится удельный вес семей с двумя детьми.

1. Определим предельную ошибку средней с вероятностью 0,977. Для упрощения расчетов воспользуемся способом моментов:

p = 0,997 t = 3

средняя ошибка средней, 0,116 - предельная ошибка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Следовательно, с вероятностью 0,997 среднее число детей в семье в генеральной совокупности, то есть среди 1000 семей, находится в интервале 2,004 - 2,236.

Как известно, в статистике существует два способа наблюдения массовых явлений в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное наблюдение.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным образом.

Выборочное наблюдение ставит перед собой задачу – по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

Совокупность отобранных для обследования единиц в статистике принято называть выборочной совокупностью , а совокупность единиц, из которых производится отбор, называют генеральной совокупностью . Основные характеристики генеральной и выборочной совокупности представлены в таблице 1.

Таблица 1 - Основные характеристики генеральной и выборочной совокупности
Показатель Обозначение или формула
Генеральная совокупность Выборочная совокупность
Число единиц N n
Число единиц, обладающих каким-либо признаком M m
Доля единиц, обладающих этим признаком p = M/N ω = m/n
Доля единиц, не обладающих этим признаком q = 1 - p 1 - ω
Средняя величина признака
Дисперсия признака
Дисперсия альтернативного признака (дисперсия доли) pq ω (1 - ω)

При проведении выборочного наблюдения возникают систематические и случайные ошибки. Систематические ошибки возникают в силу нарушения правил отбора единиц в выборку. Изменив правила отбора, от таких ошибок можно избавиться.

Случайные ошибки возникают в силу несплошного характера обследования. Иначе их называют ошибками репрезентативности (представительности). Случайные ошибки разделяют на средние и предельные ошибки выборки, которые определяются как при расчете признака, так и при расчете доли.

Средние и предельные ошибки связаны следующим соотношением : Δ = tμ , где Δ - предельная ошибка выборки, μ - средняя ошибка выборки, t - коэффициент доверия, определяемый в зависимости от уровня вероятности. В таблице 2 приведены некоторые значения t, взятые из теории вероятностей.

Величина средней ошибки выборки рассчитывается дифференцированно в зависимости от способа отбора и процедуры выборки. Основные формулы для расчета ошибок выборки представлены в таблице 3.

Таблица 3 - Основные формулы для расчета ошибок выборки при повторном и бесповторном отборе
Показатель Обозначение и формула
Генеральная совокупность Выборочная совокупность
Средняя ошибка признака при случайном повторном отборе
Средняя ошибка доли при случайном повторном отборе
Предельная ошибка признака при случайном повторном отборе
Предельная ошибка доли при случайном повторном отборе
Средняя ошибка признака при случайном бесповторном отборе
Средняя ошибка доли при случайном бесповторном отборе
Предельная ошибка признака при случайном бесповторном отборе
Предельная ошибка доли при случайном бесповторном отборе

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности .

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

Пределы доли признака в генеральной совокупности р.

Примеры решения задач по теме «Выборочное наблюдение в статистике»

Задача 1 . Имеется информация о выпуске продукции (работ, услуг), полученной на основе 10% выборочного наблюдения по предприятиям области:

Определить: 1) по предприятиям, включенным в выборку: а) средний размер произведенной продукции на одно предприятие; б) дисперсию объема производства; в) долю предприятий с объемом производства продукции более 400 тыс. руб.; 2) в целом по области с вероятностью 0,954 пределы, в которых можно ожидать: а) средний объем производства продукции на одно предприятие; б) долю предприятий с объемом производства продукции более 400 тыс. руб.; 3) общий объем выпуска продукции по области.

Решение

Для решения задачи расширим предложенную таблицу.

1) По предприятиям, включенным в выборку, средний размер произведенной продукции на одно предприятие

110800/400 = 277 тыс. руб.

Дисперсию объема производства вычислим упрощенным способом σ 2 = 35640000/400 – 277 2 = 89100 - 76229 = 12371.

Число предприятий, объем производства продукции которых превышает 400 тыс. руб. равно 36+12 = 48, а их доля равна ω = 48:400 = 0,12 = 12%.

2) Из теории вероятности известно, что при вероятности Р=0,954 коэффициент доверия t=2. Предельная ошибка выборки

2√12371:400 = 11,12 тыс. руб.

Установим границы генеральной средней: 277-11,12 ≤Хср≤ 277+11,12; 265,88 ≤Хср≤ 288,12

Предельная ошибка выборки доли предприятий

2√0,12*0,88/400 = 0,03

Определим границы генеральной доли: 0,12-0,03≤ р ≤0,12+0,03; 0,09≤ р ≤0,15

3) Поскольку рассматриваемая группа предприятий составляет 10% от общего числа предприятий области, то в целом по области насчитывается 4000 предприятий. Тогда общий объем выпуска продукции по области лежит в пределах 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Задача 2 . По результатам контрольной проверки налоговыми службами 400 бизнес-структур, у 140 из них в налоговых декларациях не полностью указаны доходы, подлежащие налогообложению. Определите в генеральной совокупности (по всему району) долю бизнес-структур, скрывших часть доходов от уплаты налогов, с вероятностью 0,954.

Решение

По условию задачи число единиц в выборочной совокупности n=400, число единиц, обладающих рассматриваемым признаком m=140, вероятность Р=0,954.

Из теории вероятностей известно, что при вероятности Р=0,954 коэффициент доверия t=2.

Долю единиц, обладающих указанным признаком, определим по формуле: p=w+∆p, где w = m/n=140/400=0,35=35%,
а предельную ошибку признака ∆p получим из формулы: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Тогда р = 35±5%.

Ответ : Доля бизнес-структур, скрывших часть доходов от уплаты налогов с вероятностью 0,954 равна 35±5%.

Представляет из себя такое расхождение между средними выборочной и генеральной совокупностями, которое не превышает ±б (дельта).

На основании теоремы Чебышева П. Л. величина средней ошибки при случайном повторном отборе рассчитывается по формуле (для среднего количественного признака):

где числитель - дисперсия признака х в выборочной совокупности;
n - численность выборочной совокупности.

Для альтернативного признака формула средней ошибки выборки для доли по теореме Я. Бернулли рассчитывается по формуле:

где р(1- р) - дисперсия доли признака в генеральной совокупности;
n - объем выборки.

Вследствие, того что дисперсия признака в генеральной совокупности точно не известна, на практике используют значение дисперсии, которое рассчитано для выборочной совокупности на основании закона больших чисел . Согласно данному закону выборочная совокупность при большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Поэтому расчетные формулы средней ошибки при случайном повторном отборе будут выглядеть таким образом:

1. Для среднего количественного признака:

где S^2 - дисперсия признака х в выборочной совокупности;
n - объем выборки.

где w (1 — w) - дисперсия доли изучаемого признака в выборочной совокупности.

В теории вероятностей было показано, что выражается через выборочную согласно формуле:

В случаях малой выборки , когда её объем меньше 30, необходимо учитывать коэффициент n/(n-1). Тогда среднюю ошибку малой выборки рассчитывают по формуле:

Так как в процессе бесповторной выборки сокращается численность единиц генеральной совокупности, то в представленных выше формулах расчета средних ошибок выборки нужно подкоренное выражение умножить на 1- (n/N).

Расчетные формулы для такого вида выборки будут выглядеть так:

1. Для средней количественного признака:

где N - объем генеральной совокупности; n - объем выборки.

2. Для доли (альтернативного признака):

где 1- (n/N) — доля единиц генеральной совокупности, не попавших в выборку.

Поскольку n всегда меньше N, то дополнительный множитель 1 — (n/N) всегда будет меньше единицы. Это означает, что средняя ошибка при бесповторном отборе всегда будет меньше, чем при повторном. Когда доля единиц генеральной совокупности, которые не попали в выборку, существенная, то величина 1 — (n/N) близка к единице и тогда расчет средней ошибки производится по общей формуле.

Средняя ошибка зависит от следующих факторов:

1. При выполнении принципа случайного отбора средняя ошибка выборки определяется во-первых объемом выборки: чем больше численность, тем меньше величины средней ошибки выборки . Генеральная совокупность характеризуется точнее тогда, когда больше единиц данной совокупности охватывает выборочное наблюдение

2. Средняя ошибка также зависит от степени варьирования признака. Степень варьирования характеризуется . Чем меньше вариация признака (дисперсия), тем меньше средняя ошибка выборки. При нулевой дисперсии (признак не варьируется) средняя ошибка выборки равна нулю, таким образом, любая единица генеральной совокупности будет характеризовать всю совокупность по этому признаку.

Предельная ошибка — максимально возможное расхождение средних или максимум ошибок при заданной вероятности ее появления.

1. Предельную ошибку выборки для средней при повторном отборе в рассчитывают по формуле:

где t - нормированное отклонение - «коэффициент доверия», который зависит от вероятности, гарантирующей предельную ошибку выборки;

мю х - средняя ошибка выборки.

2. Предельная ошибка выборки для доли при повторном отборе определяется по формуле:

3. Предельная ошибка выборки для средней при бесповторном отборе:

Предельную относительную ошибку выборки определяют как процентное соотношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности. Она определяется таким образом:

Малая выборка

Теория малых выборок была разработана английским статистиком Стьюдентом в начале 20 века. В 1908 г. он выявил специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При n больше 100 дают такие же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 < n < 100 различия получаются незначительные. Поэтому на практике к малым выборкам относятся выборки объемом менее 30 единиц.