Вход
Войти

Галерея диаграмм связей Основы нейронных сетей и глубокого обучения

Основы нейронных сетей и глубокого обучения

Кратко изложена самая базовая структура нейронной сети - многослойный персептрон MLP и сеть прямого распространения FNN. На этой основе обобщены целевая функция и технология оптимизации нейронной сети. Алгоритм обратного распространения ошибки рассчитывает задачу градиента целевой функции для сети. весовой коэффициент, а также вспомогательные технологии для оптимизации нейросетей, такие как инициализация, регуляризация и т.д.

Отредактировано в 2023-02-23 17:40:31

WSysQn6v

Недавние работы Смотреть другие работы>>

Основы нейронных сетей и глубокого обучения

WSysQn6v

Недавние работы Смотреть другие работы>>

Рекомендовано вам
Структура

Внимание — это все, что вам нужно
- 3
WSrx009v
Алгоритм сегментации изображения
- 2
WSysQn6v
Базовый алгоритм регрессии для машинного обучения
- 1
WSysQn6v
Подробное объяснение процесса работы нейронной сети
- 4
WSysQn6v
Сверточная нейронная сеть (CNN)
- 4
WSysQn6v
Распространенные типы и приложения моделей нейронных сетей
- 3
WSysQn6v
Нейронные сети и рекуррентные нейронные сети глубокого обучения
- 2
WSysQn6v
Нейронные сети и сверточные нейронные сети глубокого обучения
- 3
WSysQn6v
Распознавание рукописных цифр на основе усовершенствованной сигмовидной сверточной нейронной сети
- 3
WSysQn6v
Сверточные нейронные сети с динамической регуляризацией
- 3
WSysQn6v

Нейронные сети и глубокое обучение База

Базовая структура нейронной сети

структура нейрона

взвешенная сумма

сигнал стимула

синаптический/взвешенный

значение активации

функция активации

разрывная функция

символическая функция

персептрон

пороговая функция

Нейроны Мак-Каллоха-Питтса

непрерывно дифференцируемая функция

Логистическая сигмовидная функция

Функция гиперболического тангенса tanh()

недостаток

Когда значение активации a велико, функция входит в область насыщения и соответствующая производная близка к 0. В алгоритме обучения через градиент сходимость становится очень медленной или даже застойной. Функция ReLU сходится быстрее

Функция ReLU

Классический РеЛУ

Дырявый РеЛУ

Краткое содержание

Вычислительная структура нейронов

Линейно-взвешенное суммирование дает значения активации. Нелинейная функция активации дает выходные данные.

Многослойная нейронная сеть решает проблему XOR

персептрон

Функция символической активации линейной комбинации

Линейная неразделимость не сходится

Например, операция XOR

Линейно неразделимое решение

Вектор нелинейной базисной функции заменяет исходный собственный вектор.

Используйте несколько нейронов для формирования многослойной нейронной сети.

Как связаны нейроны

В качестве основного строительного блока нейроны соединены в многослойную сеть через параллельные и каскадные структуры.

Параллельное соединение

Несколько нейронов в одном слое получают один и тот же входной вектор признаков x и выдают несколько выходных данных соответственно.

Каскадный режим

Каждый из нескольких нейронов, соединенных параллельно, выдает выходные данные, которые передаются нейронам следующего слоя в качестве входных.

Многослойный персептрон MLP Нейронная сеть прямого распространения FNN

Многослойная структура перцептрона

входной слой

Количество единиц во входном слое — это размерность D входного вектора признаков.

Входная матрица признаков N×D

Каждая строка соответствует выборке, а количество строк равно количеству выборок N.

Количество столбцов — это размерность вектора признаков D.

Скрытый слой

1-го уровня

Входная матрица N×D

это исходная матрица признаков

Матрица весовых коэффициентов D×K1

Весовой коэффициент каждого нейрона соответствует D-мерному вектору-столбцу.

В общей сложности нейроны K1 образуют матрицу D×K1.

Вектор смещения N×K1

Каждая строка соответствует отклонению выборки, всего N строк.

Количество столбцов — это количество нейронов К1

Выходная матрица N×K1

Z=φ(A)=φ(XW W0)

Уровень 2

Входная матрица N×K1

Выходная матрица верхнего слоя

Матрица весовых коэффициентов К1×К2

Весовой коэффициент каждого нейрона соответствует K1-мерному вектору-столбцу.

В общей сложности нейроны К2 образуют матрицу К1×К2.

Вектор смещения N×K2

Каждая строка соответствует смещению выборки, всего N строк.

Количество столбцов — это количество нейронов К2

Выходная матрица N×K2

Z=φ(A)=φ(XW W0)

м-й слой

Входная матрица N×K(м-1)

Выходная матрица верхнего слоя

Матрица весовых коэффициентов К(м-1)×Км

Весовой коэффициент каждого нейрона соответствует K(m-1)-мерному вектору-столбцу.

В общей сложности Km нейронов образуют матрицу K(m-1)×Km.

Вектор смещения Н×Км

Каждая строка соответствует отклонению выборки, всего N строк.

Количество столбцов — это количество нейронов Km

Выходная матрица N×Km

Z=φ(A)=φ(XW W0)

выходной слой

Входная матрица N×K(L-1)

Выходная матрица верхнего слоя

Матрица весовых коэффициентов K(L-1)×KL

Весовой коэффициент каждого нейрона соответствует K(L-1)-мерному вектору-столбцу.

Сумма KL-нейронов образует матрицу K(L-1)×KL.

Вектор смещения N×KL

Каждая строка соответствует отклонению выборки, всего N строк.

Количество столбцов — это количество нейронов KL

Выходная матрица N×KL

Z=φ(A)=φ(XW W0)

Операционная связь многослойного перцептрона Структура программы

входить

Выход j-го нейрона m-го слоя

взвешенная сумма

Выход верхнего слоя используется как вход этого слоя.

функция активации

выход

Представление вывода нейронной сети

Примечание

Количество нейронов в выходном слое указывает на то, что нейронная сеть может одновременно выполнять несколько выходных функций.

проблема регрессии

Выходные данные нейрона выходного слоя — это выходные данные функции регрессии.

Две категории

Нейрон выходного слоя выводит апостериорную вероятность положительного типа, а сигмовидная функция представляет апостериорную вероятность типа.

Несколько категорий

Каждый нейрон выходного слоя выводит апостериорную вероятность каждого типа, а функция Softmax представляет вероятность каждого типа.

Нелинейное отображение нейронной сети

Отличие от регрессии базисной функции

Определение параметров

Базисные функции для регрессии базисной функции заранее определены.

Параметры базисной функции нейронной сети являются частью параметров системы и должны определяться посредством обучения.

нелинейная зависимость

Регрессия базисной функции имеет только нелинейную связь между входным вектором и выходом.

Входной вектор и весовой коэффициент нейронной сети имеют нелинейную связь с выходом.

Пример

Двухслойная нейронная сеть

трехслойная нейронная сеть

Аппроксимационная теорема нейронной сети

Суть нейронной сети

Отображение D-мерного евклидова пространства в K-мерное евклидово пространство

Входной вектор признаков x представляет собой D-мерный вектор.

Выходной сигнал y представляет собой K-мерный вектор

содержание

MLP, которому нужен только один слой скрытых единиц, может аппроксимировать непрерывную функцию, определенную в конечном интервале, с произвольной точностью.

Целевые функции и оптимизация нейронных сетей

Целевая функция нейронной сети

в целом

Множественные ситуации вывода регрессии

ошибка суммы квадратов

Несколько ситуаций вывода двоичной классификации

перекрестная энтропия

Выходная ситуация с одной классификацией K

перекрестная энтропия

Производная функции потерь выборки по отношению к активации выхода

Оптимизация нейронных сетей

функция потерь

Сильно нелинейные невыпуклые функции

Решение минимизировать функцию потерь удовлетворяет

Матрица Хансена H удовлетворяет положительной определенности

Весовой коэффициент нейронной сети

Размеры

Симметрия пространства весовых коэффициентов

Отношения ввода-вывода остаются неизменными, когда нейроны меняются позициями, а нейронная сеть эквивалентна до и после.

Оптимизация весового коэффициента

алгоритм полного градиента

алгоритм стохастического градиента

мини-пакетный алгоритм стохастического градиента

Алгоритм обратного распространения ошибки BP вычисляет градиенты или производные

Алгоритм обратного распространения ошибки BP Вычислить градиент весового коэффициента функции потерь

Мысль

Цепное правило деривативов

Производная функции потерь на выходной активации является ошибкой вывода регрессии на метку.

Производная весового коэффициента активации является входным вектором

Градиент функции потерь или производная весового коэффициента

обратное распространение ошибки

В скрытом слое отсутствует ошибка, и влияние ошибки необходимо распространить от выходного слоя к входному направлению.

Вывод алгоритма обратного распространения ошибки

прямое распространение

Начальное значение

Скрытый слой

выходной слой

Градиент выходного слоя

Ошибка выходного слоя

компонент градиента

Обратное распространение скрытого слоя

Разложение градиентной цепочки скрытого слоя

Вывод формулы

Алгоритмическое мышление

прямое распространение

Выход нейрона z предыдущего слоя взвешивается и суммируется для получения активации нейрона a следующего слоя.

Обратное распространение ошибки

Ошибка распространения последнего слоя (слой, близкий к выходу) δ(l 1) передается обратно на предыдущий слой для получения ошибки распространения δ(l) предыдущего слоя, которая передается обратно на первый скрытый слой. слой (ближайший к входному скрытому слою)

алгоритм процесса (Одношаговая итерация весового коэффициента)

Начальное значение

прямое распространение

Скрытый слой

выходной слой

Обратное распространение ошибки

выходной слой

Скрытый слой

компонент градиента

мини-пакетный алгоритм стохастического градиента

Векторная форма алгоритма обратного распространения ошибки

Начальное значение

прямое распространение

Дополненный весовой коэффициент активации j-го нейрона слоя l

Матрица весовых коэффициентов l-го слоя

взвешенное суммирование и активация

Вектор ошибки распространения выходного слоя

Обратное распространение ошибки

обратное распространение ошибки

компонент градиента

Градиент матрицы весовых векторов l-го слоя

Градиент вектора смещения l-го слоя

Градиент весового коэффициента нейрона слоя l

Расширение алгоритма обратного распространения ошибки

Матрица Якоби сети

Разложение матрицы Якобиана

Уравнение обратного распространения ошибки

проблема регрессии

Две проблемы классификации

Проблема мультиклассификации

Матрица Хансена для сетей

Некоторые проблемы обучения нейронных сетей

фундаментальный вопрос

Целевая функция и расчет градиента

инициализация

Инициализация весового коэффициента

Входные и выходные числа равны m и n соответственно.

Инициализация Ксавьера

Инициализация весовых коэффициентов, когда функция активации является функцией ReLU

Нормализация входного вектора

Нормализация единиц измерения, представленная в едином пространстве

Регуляризация

Регуляризованная функция потерь для снижения веса

итеративное обновление

Несколько типов эквивалентных методов регуляризации

расширенный набор образцов

Поворачивайте и перемещайте образец в наборе образцов на несколько небольших углов, чтобы сформировать новый образец.

Внедрить шум во входной вектор

Добавьте к входным выборкам случайный шум малой мощности для состязательного обучения.

техника ранней остановки

Определите поворотный момент ошибки проверки. Остановите итерацию, когда ошибка проверки начнет увеличиваться, чтобы предотвратить переобучение.