Вход
Войти

Галерея диаграмм связей полностью подключенная нейронная сеть

полностью подключенная нейронная сеть

Подробное введение классификации полностью связанных нейронных сетей. Полностью связанные нейронные сети каскадно выполняют несколько преобразований для достижения сопоставления ввода-вывода. Они состоят из входного слоя, выходного слоя и нескольких скрытых слоев.

Отредактировано в 2023-07-27 22:52:26

WSysQn6v

Недавние работы Смотреть другие работы>>

полностью подключенная нейронная сеть

WSysQn6v

Недавние работы Смотреть другие работы>>

Рекомендовано вам
Структура

сверточная нейронная сеть
- 5
WSysQn6v
компьютерное зрение, цифровая обработка изображений
- 5
ArteVeloce
механизм внимания
- 3
ArteVeloce
Создать модель
- 6
ArteVeloce
Свертка, шумоподавление, извлечение краев
- 11
ArteVeloce
Классический сетевой анализ
- 5
ArteVeloce
Компьютерное зрение и глубокое обучение
- 12
ArteVeloce

полностью подключенная нейронная сеть

определение

Полностью подключенные нейронные сети каскадно выполняют несколько преобразований для достижения сопоставления ввода-вывода.

Двухуровневая полностью подключенная сеть

В сравнении

линейный классификатор

W можно рассматривать как шаблон, а количество шаблонов определяется количеством категорий.

Полностью подключен

W1 также можно рассматривать как шаблон

W2 объединяет результаты сопоставления нескольких шаблонов для получения окончательной оценки категории.

нелинейный

состав

Входной слой, выходной слой и несколько скрытых слоев.

функция активации

Часто используемые функции активации

сигмовидная

РеЛУ

Тань

Дырявый РеЛУ

Проектирование структуры сети

Чем больше нейронов, тем сложнее интерфейс и тем сильнее способность классификации на этом наборе.

Сложность модели нейронной сети регулируется в зависимости от сложности задачи классификации, тем глубже и шире должна быть спроектированная структура нейронной сети, но следует уделять внимание явлению переобучения.

SOFTMAX и потеря перекрестной энтропии

софтмакс

Нормализовать выходные результаты

Преобразование выходных результатов в вероятности

потеря энтропии

Используется для измерения разницы с реальным значением (горячий код) – расхождение KL.

оптимизация

Вычислительный график

шаг

Любую сложную функцию можно выразить в виде вычислительного графа.

На протяжении всего вычислительного графа каждый вентильный блок получает некоторую входную информацию, а затем выполняет вычисления.

Выходное значение этого вентиля

Локальный градиент его выходного значения по отношению к входному значению

Используя правило цепочки, вентильный блок должен умножить возвращаемый градиент на локальный градиент своего входа, чтобы получить градиент выхода всей сети для каждого входного значения вентильного блока.

Общие дверные блоки

Дополнительные ворота

вентиль умножения

копировать ворота

максимальная дверь

вопрос

градиент исчезает

Ввиду мультипликативных свойств цепного правила

градиентный взрыв

Ввиду мультипликативных свойств цепного правила

Решение

Используйте соответствующую функцию активации

метод импульса

Уменьшите размер шага направления колебаний.

преимущество

Вырваться из многомерной седловой точки

Прорыв локальных оптимумов и седловых точек

метод адаптивного градиента

Уменьшите размер шага в направлении колебаний и увеличьте размер шага в плоском направлении.

Квадрат амплитуды градиента — это направление колебания.

Квадрат амплитуды градиента представляет собой плоское направление.

Метод RMSProp

АДАМ

Комбинация метода импульса и метода адаптивного градиента, но ее необходимо исправить, чтобы избежать слишком медленного запуска при холодном запуске.

Подведем итог

Метод импульса SGD является лучшим, но требует ручной настройки.

ADAM прост в использовании, но сложен в оптимизации.

Инициализация веса

нулевая инициализация

не слишком хорошо

случайная инициализация

Используйте распределение Гаусса

Есть большая вероятность, что градиент исчезнет и поток информации исчезнет.

Инициализация Ксавьера

Дисперсия значений активации нейронов в каждом слое в основном одинакова.

краткое содержание

Хороший метод инициализации может предотвратить исчезновение информации при прямом распространении, а также решить проблему исчезновения градиента при обратном распространении.

При выборе гиперболического тангенса или сигмоиды в качестве функции активации рекомендуется использовать метод инициализации Xaizer.

При выборе ReLU или Leakly ReLU в качестве функции активации рекомендуется использовать метод инициализации He.

пакетная нормализация

называется слоем BN

метод

Отрегулируйте распределение веса так, чтобы входные и выходные данные имели одинаковое распределение.

Отрегулируйте выход y после пакетного обучения — вычтите среднее значение, чтобы удалить дисперсию.

Среди них среднее значение и дисперсия распределения данных должны определяться независимо в зависимости от вклада в классификацию.

выгода

Решите проблему исчезновения сигнала и исчезновения градиента при прямом проходе.

Переоснащение и недостаточное оснащение

переоснащение

Когда возможности модели уменьшаются на обучающем наборе и начинают увеличиваться на проверочном наборе, она начинает переобучаться.

При обучении выбранная модель содержит слишком много параметров, что приводит к хорошим прогнозам для известных данных и плохим прогнозам для неизвестных данных.

Обычно запоминаются данные обучения, а не изученные функции данных.

решение

Получите больше данных о тренировках

Регулируйте модель, чтобы разрешить доступ к информации или ограничить ее – регуляризация

Отрегулируйте размер модели

Ограничение весов модели, регуляризация веса

Случайная деактивация (выпадение)

Пусть с некоторой вероятностью нейроны скрытого слоя не активируются

выполнить

Во время процесса обучения использование исключения на определенном слое означает случайное отбрасывание некоторых выходных данных слоя. Эти отброшенные нейроны, по-видимому, удаляются сетью.

случайный коэффициент потерь

— это доля функций, равная 0, обычно в диапазоне 0,2–0,5.

Его можно рассматривать как модель интеграции нескольких небольших сетей.

Недооснащение

Способность описания модели слишком слаба, чтобы хорошо изучить закономерности в данных.

Обычно модель слишком проста

Настройка гиперпараметров

скорость обучения

слишком большой

Не удалось сойтись

Слишком большой

Колеблется вблизи минимального значения и не может достичь оптимального значения.

слишком маленький

Длительное время сходимости

Умеренный

Быстрая сходимость и хорошие результаты

оптимизация

метод поиска по сетке

Каждый гиперпараметр принимает несколько значений, и эти гиперпараметры объединяются в несколько наборов гиперпараметров.

Оцените производительность модели для каждого набора гиперпараметров в валидаторе.

Выберите набор значений, используемый наиболее эффективной моделью, в качестве окончательных значений гиперпараметра.

Метод случайного поиска

Случайным образом выберите точки в пространстве параметров, каждая точка соответствует набору гиперпараметров.

Оцените производительность модели для каждого набора гиперпараметров в наборе проверки.

В качестве окончательных значений гиперпараметра выберите набор значений, используемый моделью с наилучшей производительностью.

Обычно случайная выборка выполняется в пространстве журнала.