Фрагмент для ознакомления
2
ВВЕДЕНИЕ
Развитие высоких медицинских технологий приводит к увеличению потока цифровой информации в медицинских учреждениях, при этом часть данных не анализируется, что чревато фатальными последствиями. Одна из основных проблем цифровой медицины - проблема персонификации. В основе нарушения лежат плавающие события функции жизненно важных систем. Так, показатели коагулограммы могут указывать на фазы гипокоагуляции синдрома диссеминированного внутрисосудистого свертывания, у конкретного пациента нет промокания повязок кровью, геморрагических проявлений на коже и слизистых оболочках, а также признаков внутреннего кровотечения. Такая ситуация ставит врача в затруднительное положение, так как стандарты лечения регламентируются количественными показателями. В связи с этим все большее значение приобретает персонализированная медицина, изучающая индивидуальную реакцию на заболевание или патологическое состояние. При таком подходе каждое диагностическое или лечебное действие строго индивидуально для пациента. Предпринимаются попытки применить математические методы для расчета риска осложнений при приеме или прекращении приема лекарств, корректируя функции жизненно важных органов, таких как сердце, печень и иммунная система. Математический анализ и компьютерное моделирование при прогнозировании результатов лечения превосходны, когда биологические параметры ограничены. связанных с законами физики и математики: например, при расчете биофизических параметров, мультифокальные, имплантируемые, окулярные линзы (искусственные линзы глаза). В местах, где такая жесткая связь не прослеживается (критические состояния, полиорганная недостаточность), проблема прогнозирования результатов лечения остается нерешенной.. Одним из способов диагностики заболевания является корреляционный анализ.
Цели: разработка программного приложения на основе языка с++ для расчета коэфициэнта корреляции Пирсона.
Задачи:
1. Изучить области применения корреляционного анализа, изучить формулу для расчета.
2. Разработать программу на языке С++.
ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
Корреляционный анализ - один из самых популярных методов обработки данных в российских биомедицинских исследованиях. Конечная цель научных исследований, в том числе биомедицинских, - найти взаимосвязи между интересующими переменными. Философия науки учит, что нет другого способа представления знания, кроме как в терминах отношения между количествами или качествами, выраженными определенными переменными. По сути, изучение корреляций заключается в непосредственном измерении таких зависимостей. Корреляционный анализ определяет степень взаимосвязи между переменными. Направление корреляции может быть вперед или назад:
Для прямой связи, когда значения первого атрибута увеличиваются, значения второго атрибута увеличиваются, а когда значения первого атрибута уменьшаются, значения второго уменьшаются. При обратной связи значения первого атрибута изменяются под влиянием второго, но в противоположном направлении по сравнению с изменением второго знака.
Сила связи - это степень сопряжения признаков, широта разброса значений каждого из них при изменении значения другого. Связь считается сильной, если каждое значение одной характеристики соответствует таким значениям другой характеристики, которые относительно мало отклоняются от среднего, сгруппированы ближе к нему, и наоборот, связь называется слабой, если значение одной характеристики соответствует к незначительным колебаниям значения второй характеристики. Прочность связи не зависит от ее направления и определяется абсолютным значением коэффициента корреляции( рис.1).
Рисунок 1 - количественные критерии оценки силы корреляционной связи
Полное (функциональное) отношение - это отношение, в котором один и только один атрибут соответствует определенному значению другого атрибута. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемого объекта.
Такой тип связи характерен для объектов, являющихся предметом изучения точных наук. В биомедицинских исследованиях функциональные взаимосвязи встречаются очень редко, поскольку объекты этих исследований очень разнообразны. При изучении корреляции чаще всего используются числовые критерии или коэффициенты.
Коэффициент линейной корреляции Пирсона
Используется для измерения взаимосвязи между двумя количественными наборами X и Y. Коэффициент может быть вычислен только при соблюдении следующих условий:
1. Обе переменные являются количественными и непрерывными.
2. По крайней мере, одна из характеристик имеет нормальное распределение..
3. Связь между переменными линейна.
4. Значения одной переменной не зависят от значений другой переменной.
5. Независимость участников исследования друг от друга.
6. Парность наблюдений (признак X и признак Y изучается у одних и тех же участников.
Расчет коэффициента корреляции Пирсона.
Расчет коэффициента корреляции Пирсона производится по следующей формуле(рис. 2):
Рисунок 2 - коэффициента корреляции Пирсона формула
Рассмотрим пример расчета коэффициента корреляции Пирсона. Цель: выявить, определить близость и статистическую значимость корреляции между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в организме (Y). Исходные данные для выборки из 5 человек (n = 5) приведены в таблице 1:
N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y)
1. 900 73
2. 805 86
3. 930 34
4. 1001 69
5. 905 59
Таблица 1 - Исходные данные для выборки
1.Вычислим суммы значений X и Y:
Σ(X) = 900 + 805 + 930 + 1001 + 905 = 4541
Σ(Y) = 73 + 86 + 34 + 69 + 59 = 321
2. Вычислим средние арифметические для X и Y:
Mx = Σ(X) / n = 4541/ 5 = 908.2
My = Σ(Y) / n = 321/ 5 = 64.2
3. Вычислим величину отклонения от среднего арифметического dx = X - Mx и dy = Y - My(Таблица 2).
N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (dx) Отклонение % мышечной массы от среднего значения (dy)
1. 900 73 -8.2 8.8
2. 805 86 -103.2 21.8
3. 930 34 21.8 -30.2
4. 1001 69 92.8 4.8
5. 905 59 -3.2 -5.2
Таблица 2 - Величина отклонения от среднего арифметического
4.Возведем в квадрат отклонения dx и dy(Таблица 3).
N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (dx) Отклонение % мышечной массы от среднего значения (dy) dx2 dy2
1. 900 73 -8.2 8.8 67.24 77.44
2. 805 86 -103.2 21.8 10650.2 475.24
3. 930 34 21.8 -30.2 475.24 912.04
4. 1001 69 92.8 4.8 8611.84 23.04
5. 905 59 -3.2 -5.2 10.24 27.04
Таблица 3 - квадраты отклонения dx и dy
5. Рассчитаем для каждой пары анализируемых значений произведение отклонений dx x dy(Таблица 4).