Русская Википедия:Анализ выживаемости
Анализ выживаемости (Шаблон:Lang-en) — класс статистических моделей, позволяющих оценить вероятность наступления события.
Описание
Данная группа статистических методов получила соответствующее название вследствие их изначально широкого применения в медицинских исследованиях для оценки продолжительности жизни при изучении эффективности методов лечения. Позднее данные методы стали применяться в страховой сфере, а также в социальных науках.[1]
Анализ выживаемости занимается моделированием процессов наступления терминальных (критических) событий для элементов той или иной совокупности (изначально — «смерти» для элементов совокупности живых существ). Так, в рамках медицинских исследований анализ выживаемости может отвечать на такие вопросы, как «какова будет доля выживших среди пациентов спустя некоторое время после применённых техник лечения?», «какие темпы смертности будут наблюдаться среди выживших?», «какие факторы воздействуют на увеличение или уменьшение шансов на выживание?» и пр.
Для ответа на соответствующие вопросы необходимо иметь возможность чётко определить «время жизни» элемента (период пребывания элемента в совокупности до наступления терминального события). В случае с биологическим выживанием «смерть» однозначна, но в иных случаях наступление терминального события не всегда возможно локализовать в отдельном моменте времени.
В целом анализ выживаемости представляет собой построение моделей, описывающих данные о времени наступления события. Так как живой организм может умереть лишь один раз, то традиционно в рамках данного подхода рассматриваются лишь единичные и единовременные терминальные события.
Цензурирование переменных
Анализ данных методами анализа выживаемости может быть осуществлён только для цензурированных данных. Наблюдения называются цензурированными, если интересующая зависимая переменная представляет момент наступления терминального события, а длительность исследования ограничена по времени.
Механизмы цензурирования
Фиксированное цензурирование
При фиксированном цензурировании выборка из <math>n</math> объектов наблюдается в течение фиксированного времени. Число объектов, для которых наступает терминальное событие, или число смертей, случайно, но общая продолжительность исследования фиксированна. Каждый объект имеет максимально возможный период наблюдения <math>i</math>, <math>i = 1,\ldots, n</math>, который может варьироваться от одного объекта к другому, однако фиксирован заранее. Вероятность того, что объект <math>i</math> будет жив в конце своего периода наблюдения, равна <math>S(i)</math>, а общее число смертей является случайным.
Случайное цензурирование
При случайном цензурировании выборка из <math>n</math> объектов наблюдается так долго, сколько необходимо, чтобы <math>d</math> объектов испытали событие. В этой схеме число смертей <math>d</math>, которое определяет точность исследования, фиксировано заранее, и его можно использовать в качестве параметра. Недостатком данного подхода является то, что в этом случае общая продолжительность исследования случайна и не может быть точно известна заранее.
Направления цензурирования
При цензурировании можно указать направление, в котором производится цензурирование.
Правосторонее цензурирование
Цензурирование справа имеет место, если исследователь знает, в какой момент эксперимент был начат и что он закончится в момент времени, расположенный справа от точки начала эксперимента.
Левостороннее цензурирование
Если исследователь не имеет информации о том, когда эксперимент был начат (так, например, в биомедицинских исследованиях может быть известно, когда пациент поступил в госпиталь и что он выжил в течение определенного времени, однако при этом может отсутствовать информация, когда симптомы его заболевания впервые проявились), то имеет место левое цензурирование.
Цензурирование однократное и многократное
Однократное цензурирование происходит в один момент времени (эксперимент заканчивается спустя некоторое фиксированное время). С другой стороны, в биомедицинских исследованиях естественным образом возникает многократное цензурирование, например, когда пациенты выписываются из госпиталя, пройдя курс лечения в различных объёмах (или разной продолжительности), и исследователь знает, только что пациент дожил до соответствующего момента цензурирования.
Анализ таблиц выживаемости
Данные таблицы можно рассматривать как «расширенные» таблицы частот. Область возможных времён наступления критических событий (смертей, отказов и др.) разбивается на некоторое число временных отрезков (моментов времени). Для момента времени вычисляется число и доля объектов, которые в начале рассматриваемого интервала находились в составе элементов изучаемой совокупности (были «живы»), число и долю элементов, которые совокупность покинули («умерли»), а также число и долю элементов, которые были изъяты или цензурированы в каждом интервале.
Вычисляемые параметры
Функция выживания
Анализируемый объект в функции выживания традиционно условно обозначается как <math>S</math>; он описывается следующей функцией:
<math>S(t) = \mathbb{P}(T > t),</math>
где <math>t</math> — это некоторое время, в ходе которого проводилось наблюдение за совокупностью, <math>T</math> является случайной величиной, обозначающей момент «смерти» (покидания объектом совокупности), и <math>\mathbb{P}</math> означает вероятность «смерти» в заданном временном интервале. То есть функция выживаемости описывает вероятность «смерти» некоторое время спустя после момента <math>t</math>.
Обычно предполагается, что <math>S(0) = 1</math>, хотя это значение может быть и меньше, чем 1, если есть возможность немедленной смерти или неудачи.
Если <math>u \ge t</math>, то функция выживания должна иметь вид <math>S(u) \le S(t)</math>. Это свойство вытекает из того, что условие <math>T > u</math> подразумевает, что <math>T > t</math>. По сути, здесь подразумевается, что выживание для более позднего периода возможно только после выживания в ходе более раннего периода.
Обычно предполагается, что функция выживания стремится к нулю при бесконечном возрастании переменной времени: <math>S(t) \rightarrow 0</math> при <math>t \to\infty </math>.
Также при анализе выживаемости используют кумулятивную функцию распределения <math>F(t)</math> и её производную — функцию плотности распределения <math>f(t)</math>.
Кумулятивная функция распределения имеет вид
<math>F(t) = \mathbb{P} (T \le t) = 1-S(t)</math>
и описывает вероятность того, что терминальное событие наступило к моменту времени <math>t</math>.
Функция плотности распределения (ФПР) имеет вид
<math>f(t)=F'(t)=\frac{\mathrm{d}F(t)}{\mathrm{d}t}.</math>
данная функция показывает частоту наступления терминального события в момент времени <math>t</math>.
Плотность вероятности
Это оценка вероятности выбывания из совокупности («смерти») в соответствующем интервале, определяемая таким образом:
<math>F_i = \frac{P_i - P_{i+1}}{h_i},</math>
где <math>F_i</math> — оценка вероятности отказа в <math>i</math>-м интервале, <math>P_i</math> — кумулятивная доля выживших объектов (функция выживания) к началу <math>i</math>-го интервала, <math>h_i</math> — ширина <math>i</math>-го интервала.
Функция риска (интенсивности отказов)
Функция риска определяется как вероятность того, что элемент, оставшийся в совокупности к началу соответствующего интервала, покинет совокупность («умрёт») в течение этого интервала. Оценка функции интенсивности вычисляется следующим образом:
<math> \lambda(t)\,\mathrm{d}t = \lim\limits_{\Delta t\rightarrow 0} \frac{\mathbb{P} (t<T \le t+\Delta t \mid T>t)}{\Delta t}</math>
Числитель данного выражения — условная вероятность того, что событие произойдёт в интервале <math>(t; t+\Delta t)</math>, если оно не произошло ранее, а знаменатель — ширина интервала.
Медиана ожидаемого времени жизни
Это точка на временной оси, в которой кумулятивная функция выживания равна 0,5. Другие процентили (например, 25- и 75-процентиль или квартили) кумулятивной функции выживания вычисляются по такому же принципу.
Подгонка модели
Модели выживаемости могут быть содержательно представлены в виде моделей линейной регрессии, поскольку все из перечисленных выше семейств распределений могут быть сведены к линейным с помощью подходящих преобразований. В данном случае время жизни будет являться зависимой переменной.
Зная параметрическое семейство распределений, можно вычислить функцию правдоподобия по имеющимся данным и найти её максимум. Такие оценки называются оценками максимального правдоподобия. При весьма общих предположениях эти оценки совпадают с оценками наименьших квадратов. Аналогичным образом находится максимум функции правдоподобия при нулевой гипотезе, то есть для модели, допускающей различные интенсивности на разных интервалах. Сформулированная гипотеза может быть проверена, например, с помощью критерия отношения правдоподобия, статистика которого имеет асимптотическое распределение хи-квадрат.
Используемые семейства распределений
В общем случае таблица времён жизни даёт хорошее представление о распределении отказов или смертей объектов во времени. Однако для прогноза часто необходимо знать форму рассматриваемой функции выживания.
В рамках анализа выживаемости для построения моделей наиболее часто используются следующие семейства распределений:
Множительные оценки Каплана—Мейера
Для цензурированных, но несгруппированных наблюдений времён жизни функцию выживания можно оценить непосредственно (без таблицы времени жизни). Допустим, существует база данных, в которой каждое наблюдение содержит точно один временной интервал. Перемножая вероятности выживания в каждом интервале, получим следующую формулу для функции выживания:
<math> S(t) = \prod\limits_{j=1}^t \left( \frac{n-j}{n-j+1}\right)^{\sigma(j)}</math>
В этом выражении <math>S(t)</math> — оценка функции выживания, <math>n</math> — общее число событий (времён окончания), <math>j</math> — порядковый (хронологически) номер отдельного события, <math>\sigma(j)</math> равно 1, если <math>j</math>-е событие означает отказ (смерть), и 0, если <math>j</math>-е событие означает потерю наблюдения (цензурирование), <math>\prod\limits_{j=1}^t</math> означает произведение по всем наблюдениям <math>j</math>, завершившимся к моменту <math>t</math>.
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).
Примечания
Литература
- Statistica 6. Статистический анализ данных. Второе издание. — М.: Бином, 2009.
- Эконометрический ликбез: некоторые вопросы микроэконометрики // «Квантиль» № 5 (сентябрь 2008).