Теорема о сходимости персептрона. Если существует вектор параметров α, при котором персептрон правильно решает все примеры обучающей выборки, то при обучении персептрона по правилу Хебба решение будет найдено за конечное число шагов.
Теорема о «зацикливании» персептрона. Если не существует вектора параметров α, при котором персептрон правильно решает все примеры обучающей выборки, то при обучении персептрона по правилу Хебба через конечное число шагов вектор весов начнет повторяться.
Доказательства этих теорем в данное учебное пособие не включены.
Целочисленность весов персептронов
В данном разделе будет доказана следующая теорема.
Теорема. Любой персептрон (1) можно заменить другим персептроном того же вида с целыми весами связей.
Доказательство. Обозначим множество примеров одного класса (правильный ответ равен 0) через X>0, а другого (правильный ответ равен 1) через X>1. Вычислим максимальное и минимальное значения суммы в правой части (1):
Определим допуск ε как минимум из s>0 и s>1. Положим δ=s/(m+1) , где m — число слагаемых в (1). Поскольку персептрон (1) решает поставленную задачу классификации и множество примеров в обучающей выборке конечно, то δ>0. Из теории чисел известна теорема о том, что любое действительное число можно сколь угодно точно приблизить рациональными числами. Заменим веса α>i на рациональные числа так, чтобы выполнялись следующие неравенства |α>i-α>i'|<δ.
Из этих неравенств следует, что при использовании весов α>i' персептрон будет работать с теми же результатами что и первоначальный персептрон. Действительно, если правильным ответом примера является 0, имеем .
Подставив новые веса, получим:
Откуда следует необходимое неравенство
(2)
Аналогично, в случае правильного ответа равного 1, имеем
, откуда, подставив новые веса и порог получим:
Откуда следует выполнение неравенства
(3)
Неравенства (2) и (3) доказывают возможность замены всех весов и порога любого персептрона рациональными числами. Очевидно так же, что при умножении всех весов и порога на одно и тоже ненулевое число персептрон не изменится. Поскольку любое рациональное число можно представить в виде отношения целого числа к натуральному числу, получим
(4)
где α>i″ — целые числа. Обозначим через r произведение всех знаменателей . Умножим все веса и порог на r. Получим веса целочисленные α>i'''=rα>i''. Из (2), (3) и (4) получаем
что и завершает доказательство теоремы.
Поскольку из доказанной теоремы следует, что веса персептрона являются целыми числами, то вопрос о выборе шага при применении правила Хебба решается просто: веса и порог следует увеличивать (уменьшать) на 1.
Как уже упоминалось ранее в данной главе возможно использование многослойных персептронов. Однако теоремы о сходимости и зацикливании персептрона, приведенные выше верны только при обучении однослойного персептрона, или многослойного персептрона при условии, что обучаются только веса персептрона, стоящего в последнем слое сети. В случае произвольного многослойного персептрона они не работают. Следующий пример демонстрирует основную проблему, возникающую при обучении многослойных персептронов по правилу Хебба.
Пусть веса всех слоев персептрона в ходе обучения сформировались так, что все примеры обучающего множества, кроме первого, решаются правильно. При этом правильным ответом первого примера является 1. Все входные сигналы персептрона последнего слоя равны нулю. В этом случае первое правило Хебба не дает результата, поскольку все нейроны предпоследнего слоя не активны. Существует множество методов, как решать эту проблему. Однако все эти методы не являются регулярными и не гарантируют сходимость многослойного персептрона к решению даже при условии, что такое решение существует.
В действительности проблема настройки (обучения) многослойного персептрона решается следующей теоремой.
Теорема о двуслойности персептрона. Любой многослойный персептрон может быть представлен в виде двуслойного персептрона с необучаемыми весами первого слоя.
Для доказательства этой теоремы потребуется одна теорема из математической логики.