Выборочный метод. Оценка достоверности средних арифметических и

При изучении сплошной (генеральной) совокупности для ее числовой характеристики достаточно рассчитать М и ?.
На практике, как правило, мы имеем дело не с генеральной, а с выборочной совокупностью.
Для выборочного метода очень важен способ отбора части от целого, так как отобранная часть, как уже упоминалось ранее, должна быть репрезентативной.
При выборке возможны ошибки смещения, то есть такие события, появление которых не может быть точно предсказуемым. .Вместе с тем, они являются закономерными, объективными, так и необходимыми. При определении степени точности выборочного исследования оценивается величина ошибки, которая может произойти в процессе выборки. Такие ошибки носят название случайных ошибок репрезентативности (т) и являются фактической разностью между средними или относительными величинами, полученными при выборочном исследовании, и аналогичными величинами, которые были бы получены при изучении всей совокупности.
Средняя ошибка среднего арифметического числа определяется по формуле:

Среднюю ошибку средней арифметической величины можно вычислить как и сигму, по амплитуде вариационного ряда:

S — коэффициент для определения ошибки, соответствующий числу наблюдений (см. табл. 5.10). В приведенном примере (из табл. 5.8) средняя ошибка составила ±0,16 дней.

А при расчете по амплитуде вариационного ряда:

Дней, что достаточно близко к средней ошибке, рассчитанной по обычной формуле.
При оценке полученного результата по размеру средней ошибки пользуются доверительным коэффициентом (t), который дает возможность определить вероятность правильного ответа, то есть он указывает на то, что полученная величина ошибки выборки будет не больше действительной ошибки, допущенной вследствие сплошного наблюдения. Так, если принять t = 2,6, то вероятность правильного ответа составит 99,0%, а это означает, что из 100 выборочных наблюдений только один раз выборочная средняя может оказаться вне пределов генеральной средней. При t = 1 вероятность правильного ответа составит лишь 68,3%, а 31,7% средних могут оказаться вне вычисленных пределов. Следовательно, с увеличением доверительной вероятности увеличивается ширина доверительного интервала, что, в свою очередь повышает достоверность суждения, спорность полученного результата (табл. 5.11).

Таблица 5.10

Вычисление сигмы (?) и средней ошибки (m) по амплитуде

Вычисление сигмы (?) и средней ошибки (m) по амплитуде

Таблица 5.11

Оценка полученного результата по средней ошибке

Оценка полученного результата по средней ошибке

В медико-статистических исследованиях обычно используют доверительную вероятность (надежность); равную 95,5 — 99,9%, а в наиболее ответственных случаях — 99,7%.
Таким образом, если ? является доверительной вероятностью появления необходимых данных в заданных границах, то является доверительным интервалом, с помощью которого определяются границы возможного размера изучаемого явления.
Зная размер ошибки, можно, как отмечалось выше, правильно определить требуемое число наблюдений для выборочного исследования при помощи преобразования формулы предельной ошибки выборки ? (дельта) =

, в которую входит величина п — число наблюдений.
Решая приведенное равенство относительно п, получим формулу для определения числа наблюдений:
Для примера воспользуемся

данными изучения средней длительности пребывания больных в специализированном отделении. Здесь М = 20 дн., ? = ±1,63дн., m = +0,16 дн. Сколько же нужно дополнительно исследовать больных, заведомо оперируя ошибкой выборки больше полученной (? = ±0,5дн.), при доверительной вероятности t = 3.
Определяем требуемое число наблюдений:

Вывод: для того, чтобы оперировать в использованном нами примере с указанной точностью (99,7%), следует подвергнуть изучению 95—96 больных. Нами исследовано 95 больных, что соответствует искомой величине.
Достоверность разности средних величин
На практике нередко приходится иметь дело не с одной, а с двумя средними: надо сравнить среднюю длительность пребывания больных в 2-х стационарах или за отчетный год и предыдущий, результаты, полученные при исследовании 2-х групп больных, лечившихся разными методами, исследуемую группу и контрольную и т.д. Целью сравнения двух средних является оценка существенности их различий, установление их достоверности.
Достоверность разности между двумя средними величинами определяется по формуле:

М 1 и М 2 — две средних арифметических величины, полученные в двух самостоятельных независимых группах наблюдений;
т 1 и т 2 — их средние ошибки (выражение

называют средней ошибкой разности двух средних);
t — доверительный коэффициент для разности средних.
При t

2 разность средних арифметических может быть признана существенной и неслучайной, то есть достоверной. Это значит, что и в генеральной совокупности средние величины отличаются, и что при повторении подобных наблюдений будут получены аналогичные различия. При t = 2 надежность такого вывода будет не меньше 95%. С увеличением t степень надежности также увеличивается, а риск ошибки уменьшается. При t < 2 достоверность разности средних величин считается недоказанной. Например, в больнице «А» средняя длительность пребывания больного на койке равна 16,2 дн., т =

1,5 дн.; в больнице «В» — 14,8 и 1,0 соответственно.

Различие средних арифметических недостоверно, статистически незначительно. Но нельзя в таких случаях говорить о том, что «нет разницы»! Различие есть, но оно может быть недостоверным.
В сопряженных совокупностях (зависимых рядах) оценка достоверности разности средних проводится по формуле:

Алгоритм расчета
1. Составляем два вариационных ряда (например, по уровню артериального давления у больных до и после введения гипотензисного препарата.

= 130
2. Составляется вариационный ряд из разности вариант (Vразн = V1 — V2 )
3. Для нового ряда рассчитываются все его характеристики:
Mразн, ?разн ,mразн.

4.Определяем

5. Так как п < 30, полученное значение t сравниваем с табличным (табл. 5. 12)
Таблица 5.12

Таблица t (критерий Стьюдента)

Таблица t (критерий Стьюдента)

Полученное нами t > t табл. 0,99, следовательно полученная средняя разность в уровнях АД (18 мм рт. ст.) существенна и неслучайна, то есть достоверна.

Достоверность показателей и разности показателей
Достоверность показателя определяется с помощью его средней ошибки по формуле:

, где р — размер показателя, выраженный в долях единицы, в процентах, в промилле; q — равно 1 — р или 100 -р или 1000- р (величина, дополняющая показатель до основания); п — число наблюдений.
Например: обследовано 1800 больных, из них выявлено 90 больных гипертонической болезнью I ст. Процент выявленных больных по данным проведенного осмотра равен:

= 5 случаев на 100 осмотренных.

Следовательно, с вероятностью 95,5% показатель выявляемости больных с ГБ-1 в аналогичных условиях будет колебаться в пределах Р±2т = 5 ± 2 • 0,5 = 5± 1,0, то есть от 4 до 6 случаев на 100 обследованных.
Достоверность различий между сравниваемыми показателями вычисляется по формуле, аналогичной для средних величин:

Оценивается критерий различия показателей так же, как и средних величин.
Для примера сопоставим уровни общей летальности в двух больницах:

Определим средние ошибки показателей:

Вычисляем критерий различия:

Рассчитанный критерий различия равен 2,6, то есть больше 2, что указывает на достоверною, не случайную, статистически значимую разницу уровней летальности в сравниваемых больницах.
Оценка нулевого эффекта. При альтернативном распределении (либо-либо), когда показатель равен нулю (Р = 0) или близок к нулю, a q = 100% или когда показатель равен 100% (Р = 100%) или близок к 100%, a q = 0, следует узнать, а каким бы мог быть показатель изучаемого явления при других условиях отбора (другое число наблюдений, другой состав больных по полувозрасту и т.д.)? Для этого пользуются специальной формулой, по которой можно вычислить, «ожидаемый» уровень показателя:

а — результативный показатель (Р).
Допустим, что в больнице лечилось экспериментальным методом 60 больных (п), среди которых летальных исходов не было (P=0%). Вычисляем «ожидаемый» показатель летальности:

Ошибка такого показателя определяется по формуле:

При t = 2 возможны колебания ожидаемого показателя в пределах от 0% до 4,78% (1,6 ±3,18).
Малая выборка
В клинических и экспериментальных работах довольно часто приходится пользоваться малой выборкой, когда,число наблюдений меньше 30. При такой выборке средние величины и показатели вычисляются по тем же формулам, что и при большой. При вычислении среднего квадратического отклонения и средней ошибки показателя число наблюдений уменьшается на единицу:

Достоверность результатов (t) оценивается по таблице 5.12. Обращаться с таблицей Стьюдента следует по графе 1 -и, в которой указано число степеней свободы (п), равное п—1, то есть числу проведенных наблюдений уменьшенному на единицу. Данные 2, 3, и 4-й граф исчислены для вероятности правильного заключения, равной: 95% — графа 2, при риске : ошибки 5% (Р05); 99% — графа 3, при риске ошибки 1 % (Р01) и 99,9% -графа 4, при риске ошибки 0,1 % (Р001).
Методы измерения между явлениями

Корреляционный анализ
Одной из важных задач исследовательской работы является выявление и измерение связи между признаками, характеризующими изучаемые явления или процессы. Различают функциональную и корреляционную связи.
При наличии функциональной связи изменение величины одного признака неизбежно вызывает совершенно определенные изменения величины другого признака. Примером такой связи может служить зависимость площади круга от его радиуса. Функциональная связь между явлениями присуща неживой природе. В биологических науках чаще приходится иметь дело с иной связью между явлениями, когда одной и той же величине одного признака соответствует ряд варьирующих значений другого признака, что обусловлено чрезвычайным многообразием взаимодействия различных явлений живой природы. Такого рода связь носит название корреляционной (correlation — соответствие, соотносительность). В то время, как функциональная связь имеет место в каждом отдельном наблюдении, корреляционная связь проявляется только при многочисленном сопоставлении признаков.

Рассмотрим, например, связь между возрастом детей-дошкольников и их ростом. Из приведенных данных видно, что с возрастом рост детей увеличивается, и поэтому можно предположить наличие связи между указанными признаками.
Таблица 5.13

Вместе с тем, следует отметить, что одному и тому же возрасту соответствует различный рост детей. Это происходит потому, что рост детей определяется не только возрастом, на него влияют многие другие секторы, в том числе условия жизни, питание, занятия физкультурой и др. Таким образом, можно прийти к выводу, что связь между возрастом и ростом детей является корреляционной.
Исследователю следует помнить, что обнаружение корреляции между сопоставляемыми явлениями не говорит еще о существовании причинной связи между ними. Для установления последней необходим всесторонний логический и специальный анализ существа изучаемых процессов. Статистический же метод позволяет обосновать полученные в результате научного исследования выводы о наличии тех или иных связей между явлениями, выделить самые главные из них.
Сила связи между явлениями, ее теснота и направленность определяются величиной коэффициента корреляции, который колеблется в пределах от 0 до 1. При r = 0 связь отсутствует, при r = 1 — связь полная, функциональная.

По направленности связь между явлениями может быть прямой (положительной), когда с увеличением (уменьшением) значений одного признака увеличиваются (уменьшаются) значения другого (то есть, когда признаки меняются в одном направлении), и обратной (отрицательной), когда с увеличением значений одного признака значения другого уменьшаются и наоборот (то есть, изменения признаков — разнонаправленны).

Таблица 5.14

Схема оценки тесноты корреляционной связи по коэффициенту корреляции

Схема оценки тесноты корреляционной связи по коэффициенту корреляции

Приведем пример вычисления коэффициента корреляции по приведенной формуле (см. табл. 5.15).
• Ход вычислений здесь чрезвычайно прост. Суммируя ряды х и у, получаем х = 119 и у = 105,2. Деля суммы на число членов ряда (п), получаем средние арифметические этих рядов: Мх = 119: 12 = 9,9 и Мх = 105 : 12 = 8,8. Ряды dx и dy, то есть отклонение чисел рядов х и у представляют собой разность между соответствующими значениями х и у и средним арифметическим этих рядов. Так, для ряда х, dx равно для января: х-М = 5-9,9 = -4,9; для февраля: х-М = 2-9,9 = -7,9 и т.д. Возводя поочередно числа рядов dx и dy в квадрат, получаем ряды

и

,a преумножая попарно числа рядов dx и dy между собой, получаем ряд dx • dy.
Таблица 5.15

Корреляция между среднемесячной температурой воздуха
и числом умерших детей до 1 года от кишечных заболеваний

(в одной из стран Центральной Азии)

Корреляция между среднемесячной температурой воздуха и числом умерших детей до 1 года от кишечных заболеваний

Подставляем значения сумм этих рядов в формулу:

получим:

То есть, между среднемесячной температурой воздуха и числом умерших от острых кишечных инфекций существует прямая корреляционная связь.
Это чрезвычайно простое для понимания вычисление требует довольно кропотливой, хотя и несложной математической работы. Вычислительная работа особенно затрудняется тогда, когда члены коррелируемых рядов имеют большие числовые значения, особенно, если варианты коррелируемых рядов приведены в виде сгруппированных интервалов и, следовательно, приходятся вычислять не простую, а взвешенную среднюю.
Средняя ошибка коэффициента корреляции. Поскольку коэффициент корреляции в клинических исследованиях рассчитывается обычно для ограниченного числа наблюдений, нередко возникает вопрос о надежности полученного коэффициента. С этой целью определяют среднюю ошибку коэффициента корреляции. При достаточно большом числе наблюдений (больше 100) средняя ошибка коэффициента корреляции (mr) вычисляется по формуле:

п — число наблюдений.
В том случае, если число наблюдений меньше 100, но больше 30, точнее определять среднюю ошибку коэффициента корреляции, пользуясь формулой:

С достаточной для медицинских исследований надежностью о наличии той или иной степени связи можно утверждать только тогда, когда величина коэффициента корреляции превышает или равняется величине трех своих ошибок (

3mr). Обычно это отношение коэффициента корреляции (

) к его средней ошибке (mr) обозначают буквой t и

Если

3, то коэффициент корреляции достоверен.
Дисперсионный анализ
Дисперсионный анализ позволяет дать обобщенную характеристику трем и более средним величинам или показателям и позволяет:
— измерить силу влияния;
— оценить разность частных средних или показателей;
— определить достоверность разности частных средних или показателей.
Дисперсионный анализ показывает степень рассеивания вариации (дисперсии) измеряемых признаков вокруг среднего типичного уровня, поэтому он дает возможность изучить действие на конечный результат исследования нескольких факторов вместе, роль каждого из них и сравнить действие отдельных факторов между собой.
Изучение действия факторов производится путем сравнения средних значений наблюдаемого признака, полученных в результате воздействия каждого из этих факторов при разном их сочетании.
Различают следующие виды дисперсионного анализа: однофакторный, двухфакторный и многофакторный.
Методика проведения дисперсионного анализа изложена в многочисленных специальных изданиях по медицинской статистике.