Тарик Рашид - Создаём нейронную сеть
Название: | Создаём нейронную сеть | |
Автор: | Тарик Рашид | |
Жанр: | Научно-популярная и научно-познавательная литература, Искусственный интеллект | |
Изадано в серии: | неизвестно | |
Издательство: | Альфа-книга | |
Год издания: | 2017 | |
ISBN: | 978599094457 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Создаём нейронную сеть"
Аннотация к этой книге отсутствует.
Читаем онлайн "Создаём нейронную сеть". [Страница - 15]
т.е. к выражениям, состоящим из переменных
в различных степенях, как, например, выражение у = а х 3 + b x 2 + с х + d ,
но не к функциям вида s in (x ) или c o s (x ). Это не является сущес
твенным недостатком, поскольку в огромном количестве случаев вам
вполне хватит правила дифференцирования степеней.
Однако для нейронных сетей нам понадобится еще один инстру
мент, о котором сейчас пойдет речь.
Закономерности
251
Функции функций
Представьте, что в функции
переменная у сама является функцией:
При желании можно переписать эту формулу в виде f = (х8+ х)2.
Как f изменяется с изменением у? То есть что собой представля
ет производная df/Эу? Получить ответ на этот вопрос не составляет
труда, поскольку для этого достаточно применить только что полу
ченное нами правило дифференцирования степенных выражений,
поэтому
fЭу
d
/ = 2у.
Но возникает более интересный вопрос: как изменяется f при из
менении х? Ну хорошо, мы могли бы раскрыть выражение f = (х3+ х)2
и применить уже знакомый подход. Только ни в коем случае не счи
тайте наивно, что производная от (ха+ х)2 — это 2 (х3+ х ).
Если бы мы проделали множество подобных вычислений преж
ним трудоемким способом, предполагающим устремление прираще
ний к нулю в результирующих выражениях, то рано или поздно мы
подметили бы еще одну закономерность. Я сразу же дам вам готовый
рецепт.
Вот как выглядит новая закономерность.
Это очень мощный результат, который называется цепным пра
видом.
252
Приложение А. Краткое введение в дифференциальное исчисление
В соответствии с этим правилом нахождение производной в по
добных случаях осуществляется поэтапно. Может оказаться так, что
для нахождения производной dt/dx проще найти производные d f / Э у
и эу/ах. Если последние две производные действительно вычисляют
ся очень просто, то с помощью этого приема удается находить произ
водные, определить которые другими способами практически невоз
можно. Цепное правило позволяет разбивать трудные задачи на бо
лее легкие.
Рассмотрим следующий пример и применим к нему цепное правило:
Мы разбили задачу на две простые части. Первая часть дает
( a f / Э у ) = 2 у , вторая — ( Э у / Э х ) = З х 2 + 1. Объединяя эти части с помо
щью цепного правила, получаем
Мы знаем, что у =
держащее только х :
х3+ х,
поэтому можем получить выражение, со
Магия!
Функции функций
253
Возможно, вас так и подмывает спросить: а почему бы не предста
вить f в виде функции, зависящей только от х , и применить простое
правило дифференцирования степеней к результирующему полино
му? Мы могли бы это сделать, но тогда я не продемонстрировал бы
вам, как работает цепное правило, которое позволяет разгрызать бо
лее твердые орешки.
Рассмотрим еще один пример, на этот раз последний, который
демонстрирует, как обращаться с переменными, не зависящими
от других переменных.
Предположим, имеется функция
f - 2-Ху
+3
+
В ней переменные х , у и
г не зависят одна от друг
разумеваем под независимостью переменных? Под этим подразуме
вается, что каждая из переменных х , у и z может принимать любые
значения, какими бы ни были значения остальных переменных —
их изменения на нее не влияют. В предыдущем примере это было
не так, поскольку значение у определялось значением выражения
х 3 + х , а значит, переменная у зависела от х .
Что такое S f / Э х ? Рассмотрим каждый член длинного полинома
по отдельности. Первый член — это 2 х у , поэтому его производная
равна 2 у . Почему так просто? Да потому, что у не зависит от х . Когда
мы интересуемся величиной д£/дх, нас интересует, как изменяется f
при изменении х . Если переменная у не зависит от х , то с ней можно
обращаться как с константой. На ее месте могло бы быть любое дру
гое число, например 2, 3 или 10.
Идем дальше. Следующий член выражения — 3 x 2z . Применяя
правило понижения степеней, получаем 2 * 3 x z или 6 x z . Мы рассмат
риваем z как обычную константу, значением которой может быть 2,
4 или 100, поскольку х и
г не зависят друг от друга
влияет на х .
Последний член, 4 z , вообще не содержит х . Поэтому он полностью
исчезает, так как мы рассматриваем его как постоянное число, кото
рым, например, могло бы быть 2 или 4.
Вот как выглядит окончательный ответ:
254
Приложение А. Краткое введение в дифференциальное исчисление
В этом --">
в различных степенях, как, например, выражение у = а х 3 + b x 2 + с х + d ,
но не к функциям вида s in (x ) или c o s (x ). Это не является сущес
твенным недостатком, поскольку в огромном количестве случаев вам
вполне хватит правила дифференцирования степеней.
Однако для нейронных сетей нам понадобится еще один инстру
мент, о котором сейчас пойдет речь.
Закономерности
251
Функции функций
Представьте, что в функции
переменная у сама является функцией:
При желании можно переписать эту формулу в виде f = (х8+ х)2.
Как f изменяется с изменением у? То есть что собой представля
ет производная df/Эу? Получить ответ на этот вопрос не составляет
труда, поскольку для этого достаточно применить только что полу
ченное нами правило дифференцирования степенных выражений,
поэтому
fЭу
d
/ = 2у.
Но возникает более интересный вопрос: как изменяется f при из
менении х? Ну хорошо, мы могли бы раскрыть выражение f = (х3+ х)2
и применить уже знакомый подход. Только ни в коем случае не счи
тайте наивно, что производная от (ха+ х)2 — это 2 (х3+ х ).
Если бы мы проделали множество подобных вычислений преж
ним трудоемким способом, предполагающим устремление прираще
ний к нулю в результирующих выражениях, то рано или поздно мы
подметили бы еще одну закономерность. Я сразу же дам вам готовый
рецепт.
Вот как выглядит новая закономерность.
Это очень мощный результат, который называется цепным пра
видом.
252
Приложение А. Краткое введение в дифференциальное исчисление
В соответствии с этим правилом нахождение производной в по
добных случаях осуществляется поэтапно. Может оказаться так, что
для нахождения производной dt/dx проще найти производные d f / Э у
и эу/ах. Если последние две производные действительно вычисляют
ся очень просто, то с помощью этого приема удается находить произ
водные, определить которые другими способами практически невоз
можно. Цепное правило позволяет разбивать трудные задачи на бо
лее легкие.
Рассмотрим следующий пример и применим к нему цепное правило:
Мы разбили задачу на две простые части. Первая часть дает
( a f / Э у ) = 2 у , вторая — ( Э у / Э х ) = З х 2 + 1. Объединяя эти части с помо
щью цепного правила, получаем
Мы знаем, что у =
держащее только х :
х3+ х,
поэтому можем получить выражение, со
Магия!
Функции функций
253
Возможно, вас так и подмывает спросить: а почему бы не предста
вить f в виде функции, зависящей только от х , и применить простое
правило дифференцирования степеней к результирующему полино
му? Мы могли бы это сделать, но тогда я не продемонстрировал бы
вам, как работает цепное правило, которое позволяет разгрызать бо
лее твердые орешки.
Рассмотрим еще один пример, на этот раз последний, который
демонстрирует, как обращаться с переменными, не зависящими
от других переменных.
Предположим, имеется функция
f - 2-Ху
+3
+
В ней переменные х , у и
г не зависят одна от друг
разумеваем под независимостью переменных? Под этим подразуме
вается, что каждая из переменных х , у и z может принимать любые
значения, какими бы ни были значения остальных переменных —
их изменения на нее не влияют. В предыдущем примере это было
не так, поскольку значение у определялось значением выражения
х 3 + х , а значит, переменная у зависела от х .
Что такое S f / Э х ? Рассмотрим каждый член длинного полинома
по отдельности. Первый член — это 2 х у , поэтому его производная
равна 2 у . Почему так просто? Да потому, что у не зависит от х . Когда
мы интересуемся величиной д£/дх, нас интересует, как изменяется f
при изменении х . Если переменная у не зависит от х , то с ней можно
обращаться как с константой. На ее месте могло бы быть любое дру
гое число, например 2, 3 или 10.
Идем дальше. Следующий член выражения — 3 x 2z . Применяя
правило понижения степеней, получаем 2 * 3 x z или 6 x z . Мы рассмат
риваем z как обычную константу, значением которой может быть 2,
4 или 100, поскольку х и
г не зависят друг от друга
влияет на х .
Последний член, 4 z , вообще не содержит х . Поэтому он полностью
исчезает, так как мы рассматриваем его как постоянное число, кото
рым, например, могло бы быть 2 или 4.
Вот как выглядит окончательный ответ:
254
Приложение А. Краткое введение в дифференциальное исчисление
В этом --">
Книги схожие с «Создаём нейронную сеть» по жанру, серии, автору или названию:
Ричард Линн - Расы. Народы. Интеллект Жанр: Культурология и этнография Год издания: 2014 |
Майкл Файер - Абсолютный минимум. Как квантовая теория объясняет наш мир Жанр: Физика Год издания: 2015 |