misle.ru страница 1
скачать файл

ГИБРИДНЫЕ КОННЕКЦИОНИСТСКИЕ МОДЕЛИ ИЗВЛЕЧЕНИЯ ТЕМПОРАЛЬНЫХ ЗНАНИЙ

ИЗ БАЗ ДАННЫХ*



Ковалев С.М., д.т.н., профессор

Ростовский государственный университет путей сообщения

e-mal: ksm@rfniias.ru
1. ВВЕДЕНИЕ

Проблема выявления темпоральных знаний является центральной при решении многих задач в области искусственного интеллекта, связанных с интеллектуальным анализом и обработкой темпоральных данных. На пути ее решения наметилось два принципиально отличающихся друг от друга направления, зависящих от двух разных подходов к представлению времени в моделях знаний.

Первое традиционное направление заключается в явном представлении времени путем ассоциации порядка следования событий в темпоральном образе с вектором упорядоченных во времени событий. Данный подход используется в большинстве известных на сегодня моделей представления темпоральных знаний на основе точечных или интервальных отношений. Несмотря на его распространенность, подход, основанный на явном представления времени, обладает рядом недостатков, связанных с использованием пространственной метафоры для времени. Во-первых, это необходимость буферизации входа модели, что влечет за собой проблему выбора размерности буфера, который для многих задач априори установить невозможно. Во-вторых, необходимость буферизации времени накладывает жесткие ограничения на продолжительность темпоральных образов, обусловленные конечными размерами временного буфера. И, в-третьих, темпоральные образы, хранящиеся во временном буфере, являются чувствительными к относительным смещениям во времени, что усложняет процедуры сравнения и обработки темпоральных данных при наличии абсолютных смещений. Названные недостатки усложняют процедуры выявления темпоральных знаний и обуславливают необходимость поиска новых подходов к представлению времени с более богатыми возможностями и лишенными указанных недостатков.

Таким новым направлением является подход, основанный на идеи неявного представления времени через эффект, который оно оказывает на процесс обработки темпоральных данных. Этот подход подразумевает придание модели представления динамических свойств, зависящих от темпоральных воздействий. Типичным представителем такого класса моделей являются дифференциальные уравнения. Однако, обладая замечательными свойствами описывать сложную динамику нелинейных процессов, они плохо приспособлены для выявления особенностей этой динамики непосредственно из данных в форме правил в силу слабой интерпретационной пригодности дифференциальных уравнений. Кроме того, математические модели на основе дифференциальных уравнений теряют свои преимущества при работе со слабо структурированными временными данными в условиях априорной нехватки информации или когда ее значительная часть доступна лишь в виде экспертно-эвристических описаний. Новый развивающийся класс коннекционистских моделей представления темпоральных знаний на основе специального вида рекуррентных нейронных сетей (RNN) с контекстными слоями нейронов [1,2] оказывается лишенным отмеченных недостатков. Контекстный слой в таких моделях придает им кратковременную память, которой, как оказывается, достаточно для представления образов с неограниченными темпоральными размерами. Доказательная база под этот факт впервые была подведена в работке [3], где было предложено использовать RNN с дополнительным контекстным слоем нейронов в качестве средства для осуществления темпоральных обобщений, а затем эта идея была существенно развита в работах Д. Элмана [4].

В настоящей статье рассматривается новый класс нечетких коннекционистских моделей в качестве средства для извлечения темпоральных знаний из временных баз данных.

2. КОННЕКЦИОНИСТСКИЕ МОДЕЛИ ПРЕДСТАВЛЕНИЯ ТЕМПОРАЛЬНЫХ ЗНАНИЙ

Коннекционистская темпоральная модель основана на рекуррентных нейронных сетях Джордана-Элмана [1,2] с контекстным внутренним слоем, выполняющим функции краткосрочной динамической памяти (рис.1). Рекуррентные связи и контекстный слой позволяют скрытым элементам сети «видеть» свой собственный выход с предыдущего шага, что делает последующие выходы сети зависящими от предыдущих. В результате на контекстные нейроны ложится задача отображения как внешних входов, так и предыдущих внутренних состояний на некоторый желаемый выход. Так как образы скрытых нейронов сохраняются в виде контекста, они выполняют это отображение и, в то же самое время, формируют представления, являющиеся кодированием темпоральных свойств последовательного входа. Формируемые представления оказываются чувствительными к темпоральному контексту; эффект влияния времени неявно отображается в этих внутренних состояниях.





Рис. 1. Архитектура рекуррентных нейросетей Джордана-Элмана

Способность рекуррентных нейронных сетей к темпоральным обобщениям иллюстрируется на задаче предсказания символов в псевдослучайных последовательностях [1]. В качестве примера рассмотрим последовательность символов, имитирующую речевой сигнал. Каждый символ соответствует некоторому звуку, который может быть либо одним из трех согласных (b,d,g), либо одним из трех гласных (a,i,u). Последовательность организована таким образом, что согласные звуки появляются в ней случайным образом, однако, после каждой согласной следует цепочка гласных, чередующихся в соответствии с заранее заданным детерминированным законом: badiiguu. Задача RNN заключается в предсказании последующих входов на основе предыдущих. После обучения сеть запускается на предсказание символов некоторой тестовой последовательности, сформированной по тому же закону. Далее, после нескольких “прогонов” тестовой последовательности анализируется график среднеквадратичной ошибки предсказания символов, который обнаруживает следующий интересный шейп (рис.2). Ошибка предсказания резко снижается на гласных, что вполне логично, поскольку их очередность подчинена детерминированному закону, и скачкообразно возрастает на согласных, что также логично, поскольку они расположены случайным образом и их корректное предсказание невозможно. Таким образом, график среднеквадратичной ошибки показывает, что RNN научилась «узнавать» темпоральную структуру последовательности данных.





Рис. 2. График среднеквадратичной ошибки в задаче предсказания буквенной последовательности
Другой пример иллюстрирует способности RNN к более сложным темпоральным обобщениям, связанным с предсказанием букв в словах. Слова в последовательности появляются случайно, а чередование букв внутри слова также подчинено неслучайному детерминированному закону.



Рис. 3. График среднеквадратической ошибки в задаче предсказания букв в слове

График ошибки предсказания, полученный аналогичным образом, обнаруживает, что в начале каждого нового слова ошибка предсказания символа скачкообразно возрастает, однако по мере приближения к концу слова она постепенно падает. Оба примера демонстрируют, что на основе анализа графика среднеквадратичной ошибки можно получить информацию касательно имеющихся во входных данных темпоральных образов, составленных из символов, чередующихся по неслучайному закону. Тем самым сеть развивает способность к обобщению темпорального концепта очередности.

Дальнейшие исследования по выявлению обобщающих свойств коннекционистских моделей обнаружили их способность к обобщению темпорального концепта продолжительности, что, вообще говоря, является совершенно неочевидным для моделей, не обладающих стековой памятью. Рассматривается пример обработки детерминированного контекстно-свободного языка, включающего строки из двух символов (anbn) [4]. Сеть, так же, как и в ранее рассмотренных примерах, обучается предсказанию последующих символов на основе предыдущих. Задача заключается в том, чтобы сеть после поступления на ее вход произвольного числа n символов «а», и одного символа «b», смогла корректно предсказать в последующем поступление ровно n-1 символов «. Фактически, речь идет о решении задачи счета сетевой моделью, не обладающей стековой памятью.

Ниже приведен пример обучающей строки для задачи счета



Выбранная архитектура модели представляет собой RNN с двумя входными нейронами, двумя скрытыми, двумя копирующими, двумя выходными нейронами и одним нейроном смещения (рис.4).

Так как выходы RNN не являются строго двоичными, для преобразования их в двоичную форму вводится пороговое значение 0.5. Входные символы «а» и « кодируются парами бинарных значений [1 0] и [0 1] соответственно.

В каждый момент времени на вход сети подаются значения нейрона смещения, а также значения входных и копирующих нейронов. В этот же момент вычисляются значения активации скрытых и выходных нейронов, и значения скрытых нейронов переписываются в копирующие нейроны. Таким образом, в последующем такте копирующие нейроны подают на вход сети значения скрытых нейронов, задержанные на один такт.





Рис. 4. Рекуррентная нейронная сеть в задаче счета

Эксперименты с RNN с контекстными нейронами подтвердили их способность к решению задач счета.

Серия проведенных экспериментов по обучению RNN с контекстным слоем предсказанию очередности событий в темпоральных данных и их продолжительности позволяет сделать ряд важных выводов относительно принципиальных возможностей использования коннекционистских моделей в задачах темпорального обобщения и выявления темпоральных знаний:


  1. Рекуррентная нейронная сеть, не обладая внутренней памятью, оказывается способной неявно выработать внутреннее представление времени за счет наличия в сети контекстного слоя и обратной связи;

  2. график ошибки предсказания RNN является показателем наличия темпоральной структуры во входных данных и может быть использован для определения границ извлекаемых из них темпоральных образов.

3. КОННЕКЦИОНИСТСКИЕ ТЕМПОРАЛЬНЫЕ МОДЕЛИ И ДИНАМИЧЕСКИЕ СИСТЕМЫ

Строгое обоснование способностей коннекционистских моделей к осуществлению темпоральных обобщений и извлечению темпоральных знаний базируется на анализе сетевой модели с привлечением концептов теории нелинейных динамических систем.

Рекуррентная нейронная сеть может быть охарактеризована как дискретная динамическая система, на вход которой в каждый из дискретных моментов времени подается вектор входных величин, вектор копируемых значений, смещение, и все это далее поступает на входы сигмоидальных функций активации скрытых нейронов (рис.5).

При фиксированных весах и константных входных значениях в течение нескольких тактов, что имеет место в задаче счета, значения активаций двух скрытых нейронов h1, h2 являются переменными состояниями в фазовом пространстве значений функций активаций [0,1][0,1]. Для рассматриваемого примера точка на диаграмме фазового пространства определяется парой значений активаций скрытых нейронов h1, h2, а вектор «течения» поля дает качественное описание изменения выходов нейронов во времени. Для различных входных данных «а» и «, очевидно, будут разными фазовые траектории Fa и Fb. Графический анализ фазовых траекторий предоставляет качественное описание сетевой динамики, на основе которого возможно строгое обоснование способности сети к темпоральным обобщениям, а также разработка общего критерия для оценки качества вырабатываемых сетью решений. В частности, для рассмотренной ранее задачи счета на основе анализа фазовых траекторий можно показать, как функционально происходит копирование величины количества символов «а» в сети. Фазовые траектории успешно обученной сети на решение задачи счета представлены на рис.6.

Фазовое пространство разрезано почти вертикальной линией на две части таким образом, что фазовая траектория Fa, описывающая поведение системы для входных значений «а» лежит по левую сторону, а траектория Fb, описывающая реакцию системы на входы b, находится по правую сторону. Траектория Fa характеризует колебательный процесс, сходящийся в точке притяжения X1, а траектория Fb характеризует расходящийся процесс с точкой отталкивания X2.

Аттракторы притяжения и отталкивания расположены таким образом, что после поступления на вход сети последнего символа «а» и прихода нового символа « системная траектория совершает переход через разделительную линию в противоположную область фазового пространства, чем обеспечивается правильное предсказание появления последнего символа в строке. Кроме того, важным критерием корректного счета является то, что степень стягивания Fa вокруг притягивающей точки и степень расширения для Fb вокруг отталкивающей точки должны быть обратно пропорциональны друг другу, что проверяется путем сравнения соответствующих характеристических чисел динамических систем.





Рис. 5. Рекуррентная нейронная сеть как динамическая система
Сопоставление коннекционистских моделей и динамических систем показывает, что успешно обученная RNN может использовать области в пространстве скрытых нейронов и переходы между этими областями для имитации состояний конечного автомата. Это объясняет феномен корректной темпоральной обработки данных сетевыми моделями, не обладающими стековой памятью. Имитация динамической памяти реализуется путем соответствующего координирования траекторий в фазовом пространстве значений активаций скрытых нейронов сети. Причем число таких состояний может быть сколь угодно большим за счет большого разнообразия межэлементных связей и значений весовых коэффициентов сети.



Рис. 6. Фазовые траектории RNN для задачи счета
4. НЕЧЕТКО-ДИНАМИЧЕСКАЯ КОННЕКЦИОНИСТСКАЯ МОДЕЛЬ ИЗВЛЕЧЕНИЯ ТЕМПОРАЛЬНЫХ ЗНАНИЙ

Коннекционистские модели на основе RNN, обладая способностью к темпоральным обобщениям, тем не менее, не могут выступать в качестве инструмента непосредственного извлечения темпоральных знаний в виде правил, допускающих естественную смысловую интерпретацию. Их способность к темпоральным обобщениям скрыта в структуре связей и в значениях весовых коэффициентов, что делает невозможным прямое извлечению знаний. Для придания коннекционистским моделям «прозрачности» автор предлагает представление коннекционистской модели в виде гибридной системы на основе объединения RNN и нечеткой модели, для которой нечеткие правила формулируются на основе качественного анализа фазовых траекторий динамической системы, представляющей RNN. Динамику функционирования гибридной коннекционистской модели (FRDS) описывают нечеткие динамические правила Сугено, реализующие рекуррентное отображение сигмоидального типа. При этом свойства отображения интерпретируются нечеткими правилами, что придает прозрачность гибридной модели и обеспечивает возможность эффективного априорного подбора параметров модели, ориентируясь на обобщение того или иного темпорального концепта, повышая тем самым эффективность обучения.

Предлагаемая архитектура представляет собой иерархическую рекуррентную систему нечетких правил, с двумя уровнями представления и обратной связью между скрытым выходом первого уровня и входом модели. Обратная связь реализована посредством линий задержки, выполняющих функции, аналогичные функциям нейронов копировального слоя в ранее рассмотренной RNN. Подлежащие обработке данные поступают на вход первого нижнего уровня FRDS, а его выходные значения e1(t), e2(t) фиксируются в линиях задержки для подачи их на вход модели в следующем такте. Кроме того, нечеткие выходные значения е1(t) и e2(t) подаются на верхний уровень FRDS, выходом которого являются прогнозируемые значения моделируемого процесса в последующие моменты времени.

Пример структуры FRDS для обработки символьных последовательностей, элементы которой кодируются двумя битовыми значениями (X,Y) приведен на рис.7.

Нечеткие системы 1 и 2, образующие нижний уровень FRDS с целью придания ей адаптационных свойств реализованы в виде адаптивных нейронечетких сетей Сугено первого порядка. Структура правил и начальные параметры настраиваются на реализацию нелинейных сигмоидальных зависимостей с тем, чтобы полученная система в максимальной степени имитировала работу контекстной RNN с сигмоидальными функциями активации. Это позволяет провести корректное сравнение обобщающих возможностей FRDS с известными типами контекстных RNN.



Рис. 7. Архитектура коннекционисткой нечетко-динамической модели
В качестве алгоритма обучения FRDS используется алгоритм «обратного распространения во времени» [5], модифицированный для применения к нечетким системам. В процессе обучения нечеткая сеть разворачивается во времени и идет обработка нескольких копий задержанных состояний. После обучения сеть «сворачивается обратно» и описывается только одним множеством параметров.

5. ВЫВОДЫ

Предложен новый класс коннекционистких моделей для решения широкого круга задач, связанных с темпоральным обобщением данных, извлечением темпоральных знаний во временных данных и формированием темпоральных баз знаний для динамических интеллектуальных систем.

На основе использования концептов теории динамических систем обоснована возможность коннекционистских моделей развивать в процессе обучения индуктивные способности к темпоральным обобщениям, которые могут быть использованы для обнаружения темпоральных структур, а на их основе и знаний в темпоральных данных. В частности, были подтверждены следующие выводы для FRDS, ранее полученные для контекстных RNN.

1. В случае правильно обученной модели ее способность к обобщению объясняется колебательным характером поведения фазовых траекторий вокруг стационарных точек динамической системы, описывающей модель.

2. В различных областях фазового пространства, соответствующих различным входным данным, стационарные точки притяжения и отталкивания должны чередоваться.

3. Один из успешных критериев корректного обобщения темпорального концепта продолжительности является то, что степень стягивания траекторий вокруг притягивающих и отталкивающих аттракторов должны быть обратно пропорциональны друг другу.



Литература

  1. Elman J. Finding Structure in Time//Cognitive Science. – 1990. – Vol.14. – P.179-211.

  2. Jordan M.I. Serial Order: A Parallel Distributed Processing Approach. Institute for Cognitive Science Report 8604. University of California, San Diego. 1986.

  3. Pollack J.B. On Connectionist Models of Language, PhD dissertation, Computer Science Department, University of Illinois at Urbana-Champaign, 1987.

  4. Rodriguez P., Willes J., Elman J. A Recurrent Neural Network That Learns to Count// Connection Science. – 1999. – Vol.11, №1. – P.5-40.

  5. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Internal Representations by Error Propagation// Parallel Distributed Processing/ Ed. by Rumelhart J.L., McClelland. Vol. 2. – Cambridge MA: MIT Press, 1986.




*Работа выполнена при финансовой поддержке РФФИ, проекты №07-01-00075 и №07-07-00010
скачать файл



Смотрите также: