Вход
Войти

Галерея диаграмм связей традиционная нейронная сеть

традиционная нейронная сеть

Ознакомьтесь с некоторыми знаниями о традиционных нейронных сетях для машинного обучения, включая нелинейные функции активации, концепцию градиента, концепцию линейной регрессии, сценарии и ограничения применения линейной регрессии, структуру нейронных сетей и т. д.

Отредактировано в 2022-11-23 09:35:21

WSysQn6v

Недавние работы Смотреть другие работы>>

традиционная нейронная сеть

WSysQn6v

Недавние работы Смотреть другие работы>>

Рекомендовано вам
Структура

Подробное объяснение процесса работы нейронной сети
- 4
WSysQn6v
Сверточная нейронная сеть (CNN)
- 4
WSysQn6v
Распространенные типы и приложения моделей нейронных сетей
- 3
WSysQn6v
Нейронные сети и рекуррентные нейронные сети глубокого обучения
- 2
WSysQn6v
Нейронные сети и сверточные нейронные сети глубокого обучения
- 3
WSysQn6v
Основы нейронных сетей и глубокого обучения
- 1
WSysQn6v
Распознавание рукописных цифр на основе усовершенствованной сигмовидной сверточной нейронной сети
- 3
WSysQn6v
Сверточные нейронные сети с динамической регуляризацией
- 3
WSysQn6v
Нейронные сети
- 3
WSysQn6v
Создать модель
- 4
ArteVeloce

традиционная нейронная сеть

нелинейная функция активации

сигмовидная

преимущество

Сжимайте значения входных функций в широком диапазоне от 0 до 1, чтобы можно было поддерживать амплитуду данных без серьезных изменений в глубоких сетях.

Наиболее близок к биологическим нейронам в физическом смысле

В зависимости от выходного диапазона эта функция подходит для моделей, которые прогнозируют вероятности в качестве выходных данных.

недостаток

Когда входные данные очень велики или очень малы, выходные данные в основном постоянны, то есть изменение очень мало, что приводит к тому, что градиент близок к 0.

Градиенты могут исчезнуть преждевременно, что приведет к замедлению сходимости.

Экспоненциальные операции занимают относительно много времени.

Выходной сигнал не имеет 0-среднего, что приводит к тому, что нейроны следующего слоя получают в качестве входных данных сигнал, отличный от 0-среднего, выходной сигнал предыдущего слоя. По мере углубления сети тенденция распространения исходных данных будет меняться.

Тань

преимущество

Решите проблему, заключающуюся в том, что выходные данные вышеуказанной сигмовидной функции не равны 0.

Производная функции Таня находится в диапазоне от 0 до 1, что лучше, чем от 0 до 0,25 сигмовидной функции, что в определенной степени облегчает проблему исчезновения градиентов.

Функция Tanh аналогична функции y=x вблизи начала координат. Когда значение активации ввода низкое, матричные операции могут выполняться напрямую, и обучение происходит относительно легко.

недостаток

Подобно сигмовидной функции, проблема исчезающего градиента все еще существует.

Обратите внимание на две его формы выражений, а именно 2*сигмоид(2x)-1 и (exp(x)-exp(-x))/(exp(x) exp(-x)). режим питания все еще существует

РеЛУ

преимущество

По сравнению с сигмовидной функцией и функцией Тана, когда входные данные положительны, функция Relu не имеет проблемы насыщения, что решает проблему исчезновения градиента и делает глубокую сеть обучаемой.

Скорость расчета очень высокая, вам нужно только определить, превышает ли введенное значение значение 0.

Скорость сходимости намного выше, чем у сигмовидных функций и функций Тана.

Выходные данные Relu приведут к тому, что некоторые нейроны будут иметь значение 0, что не только приведет к разреженности сети, но и уменьшит корреляцию между параметрами, что в определенной степени облегчает проблему переобучения;

недостаток

Выходные данные функции Relu не являются функцией со средним значением 0.

Существует проблема мертвого Relu, то есть некоторые нейроны могут никогда не активироваться, в результате чего соответствующие параметры никогда не обновляются. Основные причины этой проблемы включают проблемы с инициализацией параметров и слишком большие настройки скорости обучения;

Когда входные данные имеют положительное значение, а производная равна 1, в «цепной реакции» градиент не исчезнет, но сила градиентного спуска полностью зависит от произведения весов, что может привести к проблеме взрыва градиента.

Дырявый РеЛУ

преимущество

В ответ на проблему мертвого Relu, которая существует в функции Relu, функция Leaky Relu придает входному значению очень небольшой наклон, когда входное значение является отрицательным. На основе решения проблемы градиента 0 в случае отрицательного входного значения: это также хорошо облегчает проблему Dead Relu.

Выходные данные этой функции — от отрицательной бесконечности до положительной бесконечности, то есть утечка расширяет диапазон функции Relu, где значение α обычно устанавливается на меньшее значение, например 0,01.

недостаток

Теоретически эта функция дает лучшие эффекты, чем функция Relu, но большой объем практики показал, что ее эффект нестабилен, поэтому на практике применений этой функции не так много.

Несогласованные результаты из-за применения разных функций в разных интервалах приведут к невозможности обеспечить согласованные прогнозы взаимосвязей для положительных и отрицательных входных значений.

Понятие градиента

Исходное значение градиента — вектор (вектор), а это значит, что производная по направлению некоторой функции в данной точке достигает максимального значения вдоль этого направления, то есть функция быстрее всего меняется именно в этом направлении (направлении этого градиента). в этот момент, и изменение составляет Скорость наибольшая (модуль градиента).

Концепция линейной регрессии

Линейная связь для описания взаимосвязи между входом и выходом.

Сценарии применения линейной регрессии

Сетевой анализ, анализ рисков, прогноз цен на акции, прогноз погоды

Ограничения линейной регрессии

Линейная регрессия может четко описать сегментацию линейно распределенных данных, но она слаба при описании нелинейно распределенных данных.

Структура нейронной сети

входной слой

значение активации

средний слой

выходной слой

Вес: относится к тесной связи с нейроном во входном слое. Чем теснее связь, тем выше ценность.

Значение активации: рассчитывается значение активации выходного слоя. Простой расчет заключается в умножении значения активации входного слоя на вес.

Смещение: пока не беспокойтесь об этом параметре.

«Параллельное» и «последовательное» соединение нейронов

Здесь m представляет ширину n-го слоя нейронной сети, а n — глубину текущей нейронной сети.

От первого слоя нейронной сети до конечного результата значение каждого нейрона определяется значением нейрона предыдущего слоя, параметрами нейрона W, b и функцией возбуждения k-го нейрона в n. -й слой можно выразить формулой:

Функция потерь-Потери

Один из наиболее важных факторов, влияющих на производительность глубокого обучения. Внешний мир действует на нервы Прямое руководство по обучению сетевой модели

Соответствующая функция потерь может обеспечить сходимость модели глубокого обучения.

Разработка соответствующей функции потерь является одним из основных содержаний исследовательской работы.

Определение функции Softmax и ее преимущества

нормализованная показательная функция

Преобразование результатов прогнозирования в неотрицательные числа

Первым шагом softmax является преобразование результатов прогнозирования модели в экспоненциальную функцию, обеспечивая тем самым неотрицательный характер вероятности.

Сумма вероятностей различных прогнозируемых исходов равна 1.

Метод заключается в разделении преобразованных результатов на сумму всех преобразованных результатов, которую можно понимать как процент преобразованных результатов в общем количестве. Это дает приблизительные вероятности.

Определение функции перекрестной энтропии и ее преимущества

Почему ее можно использовать как функцию потерь

Перекрестная энтропия может использоваться в качестве функции потерь в нейронных сетях (машинное обучение). p представляет собой распределение реальных меток, а q — прогнозируемое распределение меток обученной модели. Функция перекрестной энтропии потерь может измерять сходство между p и q. .

Еще одним преимуществом перекрестной энтропии как функции потерь является то, что использование сигмовидной функции во время градиентного спуска позволяет избежать проблемы снижения скорости обучения функции потерь среднеквадратической ошибки, поскольку скорость обучения может контролироваться выходной ошибкой.

Рассмотрим p(i) как реальное распределение вероятностей, а q(i) как предсказанное распределение вероятностей. Если мы используем перекрестную энтропию в качестве функции потерь, при ее минимизации мы можем заставить q(i) постепенно приближаться к p(i), цель подгонки достигнута.

Задача регрессии с целевым интервалом [0, 1] и генерацией

настроить

Полюбить определенный атрибут

Выносите определенные прогнозируемые значения по отдельности или назначайте параметры разных размеров.

Объединить несколько потерь

Многоцелевые обучающие задачи, постановка методов обоснованного сочетания потерь (различные операции)

слияние нейронных сетей

Различные потери нейронной сети объединяются для совместного обучения и управления сетью.

скорость обучения

Чем больше значение, тем выше скорость сходимости.

Маленькое числовое значение, высокая точность сходимости

Как выбрать подходящий курс обучения

Зафиксированный

Фиксированная, то есть фиксированная скорость обучения, является самой простой конфигурацией и требует только одного параметра.

Скорость обучения остается неизменной в течение всего процесса оптимизации. Это очень редко используемая стратегия, поскольку по мере приближения к глобальной оптимальной точке скорость обучения должна становиться все меньше и меньше, чтобы не пропустить оптимальную точку.

шаг

Используйте единый метод сокращения, например, каждое сокращение в 0,1 раза превышает исходное значение.

Это очень часто используемая стратегия итерации скорости обучения. Каждый раз, когда скорость обучения снижается до определенного кратного значения от исходной, это прерывистое преобразование. Оно просто в использовании и обычно дает хорошие результаты.

Адаград

адаптивная скорость обучения

Из алгоритма AdaGrad видно, что по мере продолжения итерации алгоритма r будет становиться все больше и больше, а общая скорость обучения будет становиться все меньше и меньше. Поэтому, вообще говоря, алгоритм AdaGrad начинается со сходимости стимулов, а затем медленно переходит в сходимость штрафов, и скорость становится все медленнее и медленнее.

RMSprop

Алгоритм RMSProp не накапливает квадратные градиенты принудительно и напрямую, как алгоритм AdaGrad, а добавляет коэффициент ослабления, чтобы контролировать объем полученной исторической информации.

Проще говоря, после установки глобальной скорости обучения для каждого прохода глобальная скорость обучения делится параметр за параметром на квадратный корень из квадратной суммы исторических градиентов, контролируемых коэффициентом затухания, так что скорость обучения каждого параметр другой.

В результате больший прогресс будет достигнут в более плоском направлении пространства параметров (поскольку оно более плоское, сумма квадратов исторических градиентов меньше, что соответствует меньшему снижению обучения), и это может сделать крутое направление более плавно, тем самым ускоряя обучение.

импульс

Идите по полученному направлению оптимизации. Не нужно заново находить направление, достаточно тонкой настройки.

В чем разница между использованием импульса и прямым увеличением скорости обучения?

Направление другое и поиск точнее.

переоснащение

Переобучение также называется переобучением. Его интуитивное проявление заключается в том, что алгоритм хорошо работает на обучающем наборе, но не очень хорошо работает на тестовом наборе, что приводит к плохой производительности обобщения.

Переобучение вызвано тем, что данные обучения содержат ошибки выборки во время процесса подбора параметров модели, а сложная модель также соответствует ошибкам выборки во время обучения. Так называемая ошибка выборки относится к отклонению между набором выборок, полученным путем выборки, и общим набором данных.

Сама модель настолько сложна, что соответствует шуму в наборе обучающей выборки. На этот раз вам нужно выбрать более простую модель или обрезать модель.

Обучающих выборок слишком мало или они недостаточно репрезентативны. В это время необходимо увеличить количество образцов или увеличить разнообразие образцов.

Интерференция шума обучающей выборки заставляет модель подстраиваться под эти шумы. В этом случае необходимо устранить зашумленные данные или переключиться на модель, не чувствительную к шуму.

решение

Выбывать

Разница между отсевом и объединением в пул

подтема

Во время прямого распространения мы позволяем значению активации определенного нейрона перестать работать с определенной вероятностью p, что может сделать модель более обобщаемой, поскольку она не будет слишком сильно полагаться на определенные локальные особенности.

Регуляризация

Какое влияние регуляризация оказывает на параметр w?

Что такое снижение веса и как оно связано с регуляризацией?

Цель регуляризации L2 — уменьшить вес до меньшего значения и в определенной степени уменьшить проблему переобучения модели, поэтому ослабление веса также называется регуляризацией L2.

Тонкая настройка

Большинство параметров не нуждаются в обновлении, а фактические параметры значительно уменьшаются.

Заморозьте часть сверточных слоев предварительно обученной модели (обычно большинство сверточных слоев рядом с входными данными, поскольку эти слои сохраняют много базовой информации) или даже заморозьте любые сетевые слои и обучите оставшиеся сверточные слои (обычно части, близкие к выходному сверточному слою) и полносвязный слой.

Принцип тонкой настройки заключается в использовании известной структуры сети и известных параметров сети, изменении выходного слоя на наш собственный слой и точной настройке параметров нескольких слоев перед последним слоем, таким образом эффективно используя мощные возможности обобщения глубокого уровня. нейронные сети обладают возможностями тонкой настройки и устраняют необходимость разработки сложных моделей и трудоемкого обучения, поэтому точная настройка является более подходящим выбором, когда объем данных недостаточен.

значение

Встаньте на плечи гигантов: велика вероятность того, что модель, обученная предшественниками, окажется сильнее модели, которую вы создадите с нуля. Не нужно изобретать велосипед.

Стоимость обучения может быть очень низкой: если вы используете метод получения векторов признаков для трансферного обучения, последующая стоимость обучения будет очень низкой, нет нагрузки на ЦП, и это можно сделать без машины глубокого обучения.

Подходит для небольших наборов данных: Для ситуаций, когда сам набор данных небольшой (тысячи изображений), обучить большую нейронную сеть с десятками миллионов параметров с нуля нереально, потому что чем больше модель, тем больше объем данных требований, переобучения избежать невозможно. В настоящее время, если вы все еще хотите использовать возможности больших нейронных сетей по извлечению суперфункций, вы можете полагаться только на трансферное обучение.

Модель миграции

Трансферное обучение (Transfer Learning), как следует из названия, заключается в передаче параметров обученной модели (предварительно обученной модели) в новую модель, чтобы помочь новой модели обучиться. Учитывая, что большинство данных или задач связаны между собой, посредством трансферного обучения мы можем каким-то образом передать изученные параметры модели (которые также можно понимать как знания, полученные моделью) в новую модель, чтобы ускорить процесс обучения. Модель не требует обучения с нуля, как большинство сетей.