Методи оптимiзацiї: Повний навчальний посiбник
Мiнiмiзацiя функцiй однiєї змiнної
У задачах одновимiрної мiнiмiзацiї розглядається скалярна функцiя , задана на числовiй прямiй . Точка називається точкою глобального (абсолютного) мiнiмуму, якщо умова виконується для всiх . Якщо дана нерiвнiсть виконується лише для достатньо малого \epsilon > 0 у межах , то називається точкою локального (вiдносного) мiнiмуму. Мiнiмум називається строгим, якщо вiдповiднi нерiвностi виконуються строго при . Необхiдною умовою екстремуму першого порядку для диференцiйовної функцiї є рiвнiсть першої похiдної нулю: . Точки, що задовольняють цiй умовi, називаються стацiонарними.
Необхiдна умова другого порядку стверджує, що у точцi локального мiнiмуму друга похiдна функцiї має бути невiд’ємною: . Достатньою умовою є строга додатнiсть другої похiдної у стацiонарнiй точцi: \frac{d^2\phi(x^)}{dx^2} > 0. Загальна достатня умова екстремуму вказує, що якщо першi похiдних дорiвнюють нулю, а -та похiдна , то є точкою мiнiмуму за умови, що — парне число i -та похiдна додатна. Якщо ж — непарне число, точка не є екстремальною. При мiнiмiзацiї на вiдрiзку , якщо є точкою мiнiмуму, то , а якщо — то .
Чисельнi методи одновимiрної мiнiмiзацiї застосовуються, коли розв’язок рiвняння у явному виглядi неможливий. Функцiя називається унiмодальною на вiдрiзку , якщо вона спочатку спадає, а потiм зростає, маючи єдину точку мiнiмуму. Симетричнi методи використовують двi точки, симетричнi вiдносно середини iнтервалу невизначеностi. У методi подiлу вiдрiзка навпiл точки та дiлять вiдрiзок на чотири рiвнi частини. Метод дихотомiї використовує точки та , де — мале число. Метод золотого перетину використовує пропорцiю , де точки обчислюються за формулами та . Метод Фiбоначчi базується на числах Фiбоначчi , де кiлькiсть крокiв визначається з умови F_{n+1} < \frac{b-a}{\epsilon} \le F_{n+2}.
Мiнiмiзацiя функцiй багатьох змiнних без обмежень
У просторi вектор називається градiєнтом, який вказує напрямок найшвидшого зростання функцiї. Матриця других частинних похiдних називається матрицею Гессе. Симетрична матриця називається додатно визначеною, якщо квадратична форма I = x^T A x > 0 для всiх . Точка називається точкою глобального мiнiмуму на множинi , якщо для всiх . Якщо нижня межа не досягається, будується мiнiмiзуюча послiдовнiсть , така, що .
Теорема Вейєрштрасса стверджує: якщо множина обмежена i замкнена, а функцiя неперервна, то множина точок глобального мiнiмуму непуста i обпежена. Класична необхiдна умова екстремуму першого порядку в — рiвнiсть градiєнта нульовому вектору: . Необхiдною умовою другого порядку для мiнiмуму є невiд’ємна визначенiсть матрицi Гессе. Достатня умова полягає у додатнiй визначеностi матрицi Гессе у стацiонарнiй точцi. Для пошуку мiнiмуму складається i розв’язується система рiвнянь градiєнта, пiсля чого перевiряється знаковизначенiсть матрицi других похiдних у кожнiй стацiонарнiй точцi.
Мiнiмiзацiя функцiй при обмеженнях
Задачi на умовний екстремум включають обмеження типу рiвностей . Правило множникiв Лагранжа використовує функцiю . Якщо , задача називається нормальною. Точка є нормальною, якщо градiєнти обмежень лiнiйно незалежнi. Необхiднi умови другого порядку вимагають невiд’ємностi квадратичної форми матрицi Гессе функцiї Лагранжа на пiдпросторi векторів, ортогональних градiєнтам обмежень.
При обмеженнях типу нерiвностей використовується поняття активних i пасивних обмежень. Обмеження є активним, якщо . Необхiдними умовами мiнiмуму є умови Куна-Таккера: iснування невiд’ємних множникiв , рiвнiсть нулю градiєнта функцiї Лагранжа та умови доповнюючої нежорсткостi . Достатньою умовою є додатна визначенiсть квадратичної форми матрицi Гессе функцiї Лагранжа на вiдповiднiй гiперплощинi активних обмежень.
Опукле та лiнiйне програмування
Множина називається опуклою, якщо для будь-яких двох точок вiдрiзок, що їх з’єднує, належить : . Функцiя є опуклою, якщо . У задачах опуклого програмування будь-який локальний мiнiмум є глобальним. Важливими є теореми про вiдокремлення: якщо опуклi замкненi множини не перетинаються, iснує гiперплощина, що їх роздiляє. Теорема Куна-Таккера для опуклої задачi стверджує, що при виконаннi умови Слейтера (iснує таке, що g(x_0) < 0), точка є розв’язком тодi i тiльки тодi, коли вона є сiдловою точкою функцiї Лагранжа.
Лiнiйне програмування (ЛП) розглядає мiнiмiзацiю лiнiйної функцiї при лiнiйних обмеженнях . Кожнiй такiй задачi вiдповiдає двоїста задача при . Теорема двоїстостi стверджує, що значення цiльових функцiй у розв’язках прямої i двоїстої задач спiвпадають: . Розв’язок задачi ЛП завжди знаходиться в однiй iз кутових (крайнiх) точок багатогранника припустимих розв’язкiв.
Чисельнi методи безумовної мiнiмiзацiї багатьох змiнних
Методи спуску будують послiдовнiсть . Методи нульового порядку не використовують похiдних. Сюди вiдносяться покоординатний спуск, метод Нелдера-Мiда (метод симплексу, що деформується, з операцiями вiдбиття, розтягування, стиснення та редукцiї) та метод Пауелла (використання спряжених напрямкiв без похiдних). Коефiцiєнти Нелдера-Мiда зазвичай обираються як (вiдбиття), (стиснення), (розтягування).
Методи першого порядку базуються на градiєнтi. Градiєнтний метод використовує . Якщо крок мiнiмiзує функцiю у напрямку спуску, метод називається методом найшвидшого спуску. Метод спряжених градiєнтiв використовує напрямки , де (формула Флетчера-Рiвса). Цей метод є скiнченним для квадратичних функцiй та має швидкiсть збiжностi вищу за градiєнтний.
Методи другого порядку використовують матрицю Гессе. Метод Ньютона визначає наступну точку як . Вiн має квадратичну швидкiсть збiжностi поблизу мiнiмуму, але вимагає обчислення та обертання матрицi других похiдних. Модифiкацiї, такi як метод Ньютона-Рафсона (з кроком ) або метод Левенберга-Марквардта (), забезпечують кращу стiйкiсть. Квазiньютонiвськi методи (змiнної метрики) апроксимують обернену матрицю Гессе за допомогою формул Бройдена, ДФП (Девiдона-Флетчера-Пауелла) або БФГШ, використовуючи лише градiєнти.
Спецiальнi задачi та вплив перешкод
При мiнiмiзацiї недиференцiйовних функцiй використовується субградiєнтний метод: . Також застосовуються методи вiдтинаючих гiперплощин та метод елiпсоїдiв (метод Шора). Яристi (яружнi) функцiї характеризуються витягнутими лiнiями рiвня та поганою обумовленiстю матрицi Гессе (). Для їх розв’язання використовують яристий метод (крок вздовж дна яру) або методи змiни масштабiв змiнних.
Перешкоди (похибки) при обчисленнi градiєнта можуть бути детермiнованими або випадковими, абсолютними або вiдносними. Градiєнтний метод є стiйким до вiдносних перешкод, якщо їх рiвень менший за . Метод Ньютона надзвичайно чутливий до похибок через погану обумовленiсть матрицi Гессе. Методи штрафних функцiй дозволяють перейти до задач без обмежень: методи внутрiшньої точки (бар’єрнi функцiї, наприклад, логарифмiчнi) вимагають початкової припустимої точки, а методи зовнiшньої точки (квадратичний штраф за порушення) дозволяють наближатися до розв’язку ззовнi. Комбiнованi методи поєднують цi пiдходи для задач iз рiвностями та нерiвностями.