Говоря о статистических методах распознавания, мы предполагаем установление
связи между отнесением объекта к тому или иному классу (образу) и вероятностью
ошибки при решении этой задачи. В ряде случаев это сводится к определению апостериорной
вероятности принадлежности объекта образу
при условии, что признаки этого объекта приняли значения
. Начнём с байесовского решающего правила. По формуле Байеса
Здесь
– априорная вероятность предъявления к распознаванию объекта
-го образа:
.
для каждого
,
при признаках с непрерывной шкалой измерений
,
при признаках с дискретной шкалой измерений
.
При непрерывных значениях признаков
представляет из себя функцию плотности вероятностей, при дискретных –
распределение вероятностей.
Распределения, описывающие разные классы, как правило, "пересекаются",
то есть имеются такие значения признаков
, при которых
.
В таких случаях ошибки распознавания неизбежны. Естественно, неинтересны случаи,
когда эти классы (образы) в выбранной системе признаков
неразличимы (при равных априорных вероятностях решения можно выбирать
случайным отнесением объекта к одному из классов равновероятным образом).
В общем случае нужно стремиться выбрать решающие правила так, чтобы минимизировать риск потерь при распознавании.
Риск потерь определяется двумя компонентами: вероятностью ошибок распознавания и величиной "штрафа" за эти ошибки (потерями). Матрица ошибок распознавания:
,
где
– вероятность правильного распознавания;
– вероятность ошибочного отнесения объекта
-го образа к
-му (
).
Матрица потерь
,
где
– "премия" за правильное распознавание;
– "штраф" за ошибочное отнесение объекта
-го образа к
-му (
).
Необходимо построить решающее правило так, чтобы обеспечить минимум математического ожидания потерь (минимум среднего риска). Такое правило называется байесовским.
Разобьём признаковое пространство
на
непересекающихся областей
, каждая из которых соответствует определённому образу.
Средний риск при попадании реализаций
-го образа в области других образов равен
,
.
Здесь предполагается, что все компоненты
имеют непрерывную шкалу измерений (в данном случае это непринципиально).
Величину
можно назвать условным средним риском (при условии, что совершена ошибка
при распознавании объекта
-го образа). Общий (безусловный) средний риск определяется величиной
Решающие правила (способы разбиения
на
) образуют множество
. Наилучшим (байесовским) решающим правилом является то, которое обеспечивает
минимальный средний риск
, где
– средний риск при применении одного из решающих правил, входящих
в
.
Рассмотрим упрощённый случай. Пусть
, а
(
). В таком случае байесовское решающее правило обеспечивает минимум вероятности
(среднего количества) ошибок распознавания. Пусть
. Вероятность ошибки первого рода (объект 1-го образа отнесён ко второму
образу)
,
где
– вероятность ошибки второго рода
.
Средние ошибки
.
Так как
, то
и
. Ясно, что минимум
будет иметь минимум в том случае, если подынтегральное выражение в области
будет строго отрицательным, то есть в
. В области
должно выполняться противоположное неравенство. Это и есть байесовское
решающее правило для рассматриваемого случая. Оно может быть записано иначе:
; величина
, рассматриваемая как функция от
, называется правдоподобием
при данном
, а
– отношением правдоподобия. Таким образом, байесовское решающее
правило можно сформулировать как рекомендацию выбирать решение
в случае, если отношение правдоподобия превышает определённое пороговое
значение, не зависящее от наблюдаемого
.
Без специального рассмотрения укажем, что если число распознаваемых классов
больше двух (
), решение в пользу класса (образа)
принимается в области
, в которой для всех
.
Иногда при невысокой точности оценки апостериорной вероятности (малых объёмах
обучающей выборки) используют так называемые рандомизированные решающие правила.
Они состоят в том, что неизвестный объект относят к тому или иному образу не
по максимуму апостериорной вероятности, а случайным образом, в соответствии
с апостериорными вероятностями этих образов
. Реализовать это можно, например, способом, изображённым на рис. 18.
0 1
Рис. 18. Иллюстрация рандомизированного решающего правила
После вычисления апостериорных вероятностей принадлежности неизвестного объекта
с параметрами
каждому из образов
,
, отрезок прямой длиной единица разбивают на
интервалов с длинами, численно равными
, и каждому интервалу ставят в соответствие этот образ. Затем с помощью
датчика случайных (псевдослучайных) чисел, равномерно распределённых на
, генерируют число, определяют интервал, в который оно попало, и относят
распознаваемый объект к тому образу, которому соответствует данный интервал.
Понятно, что такое решающее правило не может быть лучше байесовского, но при больших значениях отношения правдоподобия ненамного ему уступает, а в реализации может оказаться достаточно простым (например, метод ближайшего соседа, о чём речь пойдёт позже).
Байесовское решающее правило реализуется в компьютерах в основном двумя способами.
1. Прямое вычисление апостериорных вероятностей
,
где
– вектор значений параметров распознаваемого объекта и выбор максимума.
Решение принимается в пользу того образа, для которого
максимально. Иными словами, байесовское решающее правило реализуется
решением задачи
.
Если пойти на дальнейшее обобщение и допустить наличие матрицы потерь общего
вида, то условный риск можно определить по формуле
,
. Здесь первый член определяет "поощрение" за правильное распознавание,
а второй – "наказание" за ошибку. Байесовское решающее правило
в данном случае состоит в решении задачи
2. "Топографическое" определение области
, в которую попал вектор
значений признаков, описывающих распознаваемый объект.
Такой подход используют в тех случаях, когда описание областей
достаточно компактно, а процедура определения области, в которую попал
, проста. Иными словами, данный подход естественно использовать, когда
в вычислительном отношении он эффективнее (проще), чем прямое вычисление апостериорных
вероятностей.
Рис. 19. Байесовское решающее правило
для нормально распределённых признаков
с равными ковариационными матрицами
Так, например (доказательство приводить не будем), если классов два, их априорные
вероятности одинаковы,
и
– нормальные распределения с одинаковыми ковариационными матрицами
(отличаются только векторами средних), то байесовская разделяющая граница –
гиперплоскость. Запоминается она значениями коэффициентов линейного уравнения.
При распознавании какого-либо объекта в уравнение подставляют значения признаков
этого объекта и по знаку (плюс или минус) получаемого решения относят
объект к
или
(рис. 19).
Если у классов
и
ковариационные матрицы
и
не только одинаковы, но и диагональны, то байесовским решением является
отнесение объекта к тому классу, евклидово расстояние до эталона которого минимально
(рис. 20).
Рис. 20. Байесовское решающее правило
для нормально распределённых признаков
с равными диагональными ковариационными матрицами
(элементы диагоналей одинаковы)
Таким образом, мы убеждаемся в том, что некоторые решающие правила, ранее рассмотренные нами как эмпирические (детерминированные, эвристические), имеют вполне чёткую статистическую трактовку. Более того, в ряде конкретных случаев они являются статистически оптимальными. Список подобных примеров мы продолжим при дальнейшем рассмотрении статистических методов распознавания.
Теперь перейдём к методам оценки распределений значений признаков классов.
Знание
является наиболее универсальной информацией для решения задач распознавания
статистическими методами. Эту информацию можно получить двояким образом:
заранее определить (оценить)
для всех
и
;
определять
при каждом акте распознавания конкретного объекта, признаки которого
имеют значения
.
Каждый из этих подходов имеет свои преимущества и недостатки, зависящие от числа признаков, объёма обучающей выборки, наличия априорной информации и т.п.
Начнём с локального варианта (определения
в окрестности распознаваемого объекта).