Изменения
м
замена имён и значений устаревшего неподдерживаемого InternetArchiveBot формата параметров доступности ссылок (1), замена устаревших имён параметров (8)
<noinclude>{{к удалению|2023-06-04}}</noinclude>
{{грубый перевод|дата=2023-02-20}}
'''Гиперпараметр''' — [[параметр]] [[Машинное обучение|машинного обучения]], значение которого используется для управления процессом обучения. Его значение устанавливается перед началом обучения, в отличие от значений других параметров (обычно весов узлов), которые определяются во время обучения.
Гиперпараметры могут быть подразделены на гиперпараметры модели — они относятся к задаче [[выбор статистической модели|выбора модели]] и не могут быть определены во время [[Приближение с помощью кривых|обучения машины c помощью обучающего набора]], примером таких гиперпараметров являются топология и размер [[Нейронная сеть|нейронной сети]]; и гиперпараметры алгоритма, которые в принципе не имеют влияния на производительность модели но оказывают воздействие на скорость и качество процесса обучения, примером таких гиперпараметров являются [[темп обучения]] и размер набора данных (batch size)<ref>{{Статья|ссылка=https://ui.adsabs.harvard.edu/abs/2015arXiv150802788B|автор=Thomas M. Breuel|заглавие=The Effects of Hyperparameters on SGD Training of Neural Networks|год=2015-08-01|archive-date=2023-06-12|archive-url=https://web.archive.org/web/20230612130856/https://ui.adsabs.harvard.edu/abs/2015arXiv150802788B}}</ref>, также как и размер мини-набора данных (mini-batch size). Набором данных часто называться полная выборка данных, а мини-набором данных размер выборки меньших размеров.
Учитывая гиперпараметры, алгоритм обучения с помощью данных настраивает собственные параметры. Для различных алгоритмов обучения модели требуются различные гиперпараметры. Некоторым простым алгоритмам (таким как [[обычные наименьшие квадраты]] [[Линейная регрессия|линейной регрессии]]) они не требуются, а например, в алгоритме LASSO, в котором в алгоритм регрессии обычных наименьших квадратов добавляется гиперпараметр [[Регуляризация (математика)|регуляризации]], этот гиперпараметр должен быть установлен перед оценкой параметров с помощью алгоритма обучения<ref>{{Cite journal |last1=Yang |first1=Li |last2=Shami |first2=Abdallah |date=2020-11-20 |title=On hyperparameter optimization of machine learning algorithms: Theory and practice |url=https://www.sciencedirect.com/science/article/pii/S0925231220311693 |journal=Neurocomputing |language=en |volume=415 |pages=295–316 |doi=10.1016/j.neucom.2020.07.061 |arxiv=2007.15745 |s2cid=220919678 |issn=0925-2312}}</ref>.
== Характеристики и детали ==
Время, необходимое для обучения и тестирования модели, может зависеть от выбора её гиперпараметров<ref name=abs1502.02127>{{cite news |arxiv=1502.02127 |title=Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).|bibcode=2015arXiv150202127C}}</ref>. Гиперпараметр обычно имеет непрерывный или [[Целое (тип данных)|целочисленный тип данных]], что приводит к проблемам оптимизации связанным со смешанными типами<ref name=abs1502.02127/>. Существование некоторых гиперпараметров зависит от значения других гиперпараметров, например размер каждого скрытого слоя в нейронной сети может зависеть от количества слоев<ref name=abs1502.02127/>.
=== Настраиваемость ===
Настраиваемость алгоритма, гиперпараметра, или взаимодействия гиперпараметров — это измерение, показывающее насколько высокую производительность можно получить при использовании такой настройки.<ref name="arXiv:1802.09596">{{cite news|arxiv=1802.09596|title=Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).|bibcode=2018arXiv180209596P}}</ref> Большая часть изменений производительности может быть связана всего с несколькими гиперпараметрами.<ref name="abs1502.02127" /><ref name="hutter14">{{Cite journal|url=http://proceedings.mlr.press/v32/hutter14.html|title=An Efficient Approach for Assessing Hyperparameter Importance|first1=Kevin|last1=Leyton-Brown|first2=Holger|last2=Hoos|first3=Frank|last3=Hutter|date=2014-01-27|pages=754–762|via=proceedings.mlr.press|access-date=2023-02-19|archive-date=2022-05-20|archive-url=https://web.archive.org/web/20220520072304/https://proceedings.mlr.press/v32/hutter14.html|url-status=live}}</ref><ref name="abs1710.04725">{{cite news|arxiv=1710.04725|title=van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).|bibcode=2017arXiv171004725V}}</ref> Например, в нейронных сетях [[Долгая краткосрочная память|LSTM]], [[темп обучения]] и размер сети являются самыми критическими гиперпараметрами,<ref name="pmid27411231">{{Cite journal|title=LSTM: A Search Space Odyssey|first1=K.|last1=Greff|first2=R. K.|last2=Srivastava|first3=J.|last3=Koutník|first4=B. R.|last4=Steunebrink|first5=J.|last5=Schmidhuber|date=2017-10-23|journal=IEEE Transactions on Neural Networks and Learning Systems|volume=28|issue=10|pages=2222–2232|doi=10.1109/TNNLS.2016.2582924|pmid=27411231|arxiv=1503.04069|s2cid=3356463}}</ref> а пакетирование и инерция не имеют значительного влияния на производительность.<ref name="abs1508.02774">{{cite news|arxiv=1508.02774|title=Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).|bibcode=2015arXiv150802774B}}</ref> До сих пор существуют споры об оптимальных значениях гиперпараметров, так, например, хотя некоторые исследования выступают за использование размеров мини-пакетов с тысячами экземпляров, другие исследования обнаружили, что самая лучшая производительность достигается при использовании мини-пакетов размером от 2 и 32 экземпляров<ref name="arXiv:1804.07612">{{cite news|arxiv=1804.07612|title=Revisiting Small Batch Training for Deep Neural Networks (2018).|bibcode=2018arXiv180407612M}}</ref>.
=== Сложнообучаемые параметры ===
В большинстве случаев, значения гиперпараметров не могут быть определены с использованием распространённых градиентных методов, которые обычно используются для нахождения значения параметров модели (например, таких как [[градиентный спуск]] LBFGS). Эти гиперпараметры являются параметрами, описывающими представление модель, значения которых не могут быть определены с помощью использования основных методов оптимизации, но которые, тем не менее, имеют влияние на функцию потерь. Примером может служить гиперпараметр толерантности к ошибкам в [[Метод опорных векторов|методе опорных векторов]].
=== Необучаемые параметры ===
Иногда значения гиперпараметров не могут быть получены с использованием обучающих данных, потому что они агрессивно увеличивают сложность модели и могут сдвинуть функцию потерь на нежелаемый минимум (за счёт [[Переобучение|переобучения]] на шуме в данных) вместо корректного учёта реальной структуры этих данных. Например, если мы рассматриваем степень полиномиального уравнения, соответствующего регрессионной модели, в качестве [[Обучающий, проверочный и тестовый наборы данных|обучаемого параметра]], то степень будет увеличиваться до тех пор, пока модель не будет идеально подходить к данным, выдавая небольшую ошибку при обучении, но плохую производительность обобщения.
== Оптимизация ==
{{main|Оптимизация гиперпараметров}}
Оптимизация гиперпараметров — это поиск набора гиперпараметров и их значений, которые дают оптимальную модель, минимизирующую предопределенную [[Функция потерь|функцию потерь]] на предоставленных обучающих данных.<ref name=abs1502.02127/> Целевая функция получит набор гиперпараметров на входе и возвращает связанные потери.<ref name=abs1502.02127/>
== Воспроизводимость ==
Кроме настраивания гиперпараметров, системный подход к использованию машинного обучения включает хранение и организацию гиперпараметров и результатов, связанных с ними, а также уверенность в воспроизводимости полученных ранее результатов, при использовании тех же значений гиперпараметров.<ref name=sacred2015>{{cite news |url=https://indico.lal.in2p3.fr/event/2914/contributions/6476/subcontributions/169/attachments/6034/7159/Sacred_3.pdf |title=Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research." |year=2015 |access-date=2023-02-19 |archive-date=2018-04-07 |archive-url=https://web.archive.org/web/20180407120156/https://indico.lal.in2p3.fr/event/2914/contributions/6476/subcontributions/169/attachments/6034/7159/Sacred_3.pdf }}</ref> При отсутствии надежной инфраструктуры для этих целей, исследовательский код часто быстро развивается, но ставит под угрозу такие важные аспекты, как учёт и [[воспроизводимость]].<ref name=sacred2017>{{cite news |url=http://conference.scipy.org/proceedings/scipy2017/pdfs/klaus_greff.pdf |title=Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research." |year=2017 |access-date=2023-02-19 |archive-date=2020-09-29 |archive-url=https://web.archive.org/web/20200929163559/http://conference.scipy.org/proceedings/scipy2017/pdfs/klaus_greff.pdf }}</ref> Существуют платформы для онлайн-сотрудничества, предназначенные для машинного обучения, которые позволяют ученым автоматически делиться, организовывать и обсуждать эксперименты, данные, и алгоритмы.<ref name=arXiv:1407.7722>{{cite news |arxiv=1407.7722 |title=Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).|bibcode=2014arXiv1407.7722V}}</ref> Воспроизводимость может быть особенно сложной для моделей [[глубокое обучение|глубоко обучения]].<ref>{{cite web |url=https://determined.ai/blog/reproducibility-in-ml/ |title=Reproducibility in ML: why it matters and how to achieve it |last1=Villa |first1=Jennifer |last2=Zimmerman |first2=Yoav |date=2018-05-25 |website=Determined AI Blog |access-date=2020-08-31 |archive-date=2020-09-19 |archive-url=https://web.archive.org/web/20200919185953/https://determined.ai/blog/reproducibility-in-ml/ |url-status=live }}</ref>
== Примечания ==
{{примечания}}
{{rq|
{{плохой перевод|дата=2023-02-20}}
{{проверить факты|дата=2023-02-20}}
{{опечатки|дата=2023-02-20}}
{{плохое оформление|дата=2023-02-20}}
}}
[[Категория:Машинное обучение]]
[[Категория:Выбор модели]]
{{грубый перевод|дата=2023-02-20}}
'''Гиперпараметр''' — [[параметр]] [[Машинное обучение|машинного обучения]], значение которого используется для управления процессом обучения. Его значение устанавливается перед началом обучения, в отличие от значений других параметров (обычно весов узлов), которые определяются во время обучения.
Гиперпараметры могут быть подразделены на гиперпараметры модели — они относятся к задаче [[выбор статистической модели|выбора модели]] и не могут быть определены во время [[Приближение с помощью кривых|обучения машины c помощью обучающего набора]], примером таких гиперпараметров являются топология и размер [[Нейронная сеть|нейронной сети]]; и гиперпараметры алгоритма, которые в принципе не имеют влияния на производительность модели но оказывают воздействие на скорость и качество процесса обучения, примером таких гиперпараметров являются [[темп обучения]] и размер набора данных (batch size)<ref>{{Статья|ссылка=https://ui.adsabs.harvard.edu/abs/2015arXiv150802788B|автор=Thomas M. Breuel|заглавие=The Effects of Hyperparameters on SGD Training of Neural Networks|год=2015-08-01|archive-date=2023-06-12|archive-url=https://web.archive.org/web/20230612130856/https://ui.adsabs.harvard.edu/abs/2015arXiv150802788B}}</ref>, также как и размер мини-набора данных (mini-batch size). Набором данных часто называться полная выборка данных, а мини-набором данных размер выборки меньших размеров.
Учитывая гиперпараметры, алгоритм обучения с помощью данных настраивает собственные параметры. Для различных алгоритмов обучения модели требуются различные гиперпараметры. Некоторым простым алгоритмам (таким как [[обычные наименьшие квадраты]] [[Линейная регрессия|линейной регрессии]]) они не требуются, а например, в алгоритме LASSO, в котором в алгоритм регрессии обычных наименьших квадратов добавляется гиперпараметр [[Регуляризация (математика)|регуляризации]], этот гиперпараметр должен быть установлен перед оценкой параметров с помощью алгоритма обучения<ref>{{Cite journal |last1=Yang |first1=Li |last2=Shami |first2=Abdallah |date=2020-11-20 |title=On hyperparameter optimization of machine learning algorithms: Theory and practice |url=https://www.sciencedirect.com/science/article/pii/S0925231220311693 |journal=Neurocomputing |language=en |volume=415 |pages=295–316 |doi=10.1016/j.neucom.2020.07.061 |arxiv=2007.15745 |s2cid=220919678 |issn=0925-2312}}</ref>.
== Характеристики и детали ==
Время, необходимое для обучения и тестирования модели, может зависеть от выбора её гиперпараметров<ref name=abs1502.02127>{{cite news |arxiv=1502.02127 |title=Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).|bibcode=2015arXiv150202127C}}</ref>. Гиперпараметр обычно имеет непрерывный или [[Целое (тип данных)|целочисленный тип данных]], что приводит к проблемам оптимизации связанным со смешанными типами<ref name=abs1502.02127/>. Существование некоторых гиперпараметров зависит от значения других гиперпараметров, например размер каждого скрытого слоя в нейронной сети может зависеть от количества слоев<ref name=abs1502.02127/>.
=== Настраиваемость ===
Настраиваемость алгоритма, гиперпараметра, или взаимодействия гиперпараметров — это измерение, показывающее насколько высокую производительность можно получить при использовании такой настройки.<ref name="arXiv:1802.09596">{{cite news|arxiv=1802.09596|title=Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).|bibcode=2018arXiv180209596P}}</ref> Большая часть изменений производительности может быть связана всего с несколькими гиперпараметрами.<ref name="abs1502.02127" /><ref name="hutter14">{{Cite journal|url=http://proceedings.mlr.press/v32/hutter14.html|title=An Efficient Approach for Assessing Hyperparameter Importance|first1=Kevin|last1=Leyton-Brown|first2=Holger|last2=Hoos|first3=Frank|last3=Hutter|date=2014-01-27|pages=754–762|via=proceedings.mlr.press|access-date=2023-02-19|archive-date=2022-05-20|archive-url=https://web.archive.org/web/20220520072304/https://proceedings.mlr.press/v32/hutter14.html|url-status=live}}</ref><ref name="abs1710.04725">{{cite news|arxiv=1710.04725|title=van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).|bibcode=2017arXiv171004725V}}</ref> Например, в нейронных сетях [[Долгая краткосрочная память|LSTM]], [[темп обучения]] и размер сети являются самыми критическими гиперпараметрами,<ref name="pmid27411231">{{Cite journal|title=LSTM: A Search Space Odyssey|first1=K.|last1=Greff|first2=R. K.|last2=Srivastava|first3=J.|last3=Koutník|first4=B. R.|last4=Steunebrink|first5=J.|last5=Schmidhuber|date=2017-10-23|journal=IEEE Transactions on Neural Networks and Learning Systems|volume=28|issue=10|pages=2222–2232|doi=10.1109/TNNLS.2016.2582924|pmid=27411231|arxiv=1503.04069|s2cid=3356463}}</ref> а пакетирование и инерция не имеют значительного влияния на производительность.<ref name="abs1508.02774">{{cite news|arxiv=1508.02774|title=Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).|bibcode=2015arXiv150802774B}}</ref> До сих пор существуют споры об оптимальных значениях гиперпараметров, так, например, хотя некоторые исследования выступают за использование размеров мини-пакетов с тысячами экземпляров, другие исследования обнаружили, что самая лучшая производительность достигается при использовании мини-пакетов размером от 2 и 32 экземпляров<ref name="arXiv:1804.07612">{{cite news|arxiv=1804.07612|title=Revisiting Small Batch Training for Deep Neural Networks (2018).|bibcode=2018arXiv180407612M}}</ref>.
=== Сложнообучаемые параметры ===
В большинстве случаев, значения гиперпараметров не могут быть определены с использованием распространённых градиентных методов, которые обычно используются для нахождения значения параметров модели (например, таких как [[градиентный спуск]] LBFGS). Эти гиперпараметры являются параметрами, описывающими представление модель, значения которых не могут быть определены с помощью использования основных методов оптимизации, но которые, тем не менее, имеют влияние на функцию потерь. Примером может служить гиперпараметр толерантности к ошибкам в [[Метод опорных векторов|методе опорных векторов]].
=== Необучаемые параметры ===
Иногда значения гиперпараметров не могут быть получены с использованием обучающих данных, потому что они агрессивно увеличивают сложность модели и могут сдвинуть функцию потерь на нежелаемый минимум (за счёт [[Переобучение|переобучения]] на шуме в данных) вместо корректного учёта реальной структуры этих данных. Например, если мы рассматриваем степень полиномиального уравнения, соответствующего регрессионной модели, в качестве [[Обучающий, проверочный и тестовый наборы данных|обучаемого параметра]], то степень будет увеличиваться до тех пор, пока модель не будет идеально подходить к данным, выдавая небольшую ошибку при обучении, но плохую производительность обобщения.
== Оптимизация ==
{{main|Оптимизация гиперпараметров}}
Оптимизация гиперпараметров — это поиск набора гиперпараметров и их значений, которые дают оптимальную модель, минимизирующую предопределенную [[Функция потерь|функцию потерь]] на предоставленных обучающих данных.<ref name=abs1502.02127/> Целевая функция получит набор гиперпараметров на входе и возвращает связанные потери.<ref name=abs1502.02127/>
== Воспроизводимость ==
Кроме настраивания гиперпараметров, системный подход к использованию машинного обучения включает хранение и организацию гиперпараметров и результатов, связанных с ними, а также уверенность в воспроизводимости полученных ранее результатов, при использовании тех же значений гиперпараметров.<ref name=sacred2015>{{cite news |url=https://indico.lal.in2p3.fr/event/2914/contributions/6476/subcontributions/169/attachments/6034/7159/Sacred_3.pdf |title=Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research." |year=2015 |access-date=2023-02-19 |archive-date=2018-04-07 |archive-url=https://web.archive.org/web/20180407120156/https://indico.lal.in2p3.fr/event/2914/contributions/6476/subcontributions/169/attachments/6034/7159/Sacred_3.pdf }}</ref> При отсутствии надежной инфраструктуры для этих целей, исследовательский код часто быстро развивается, но ставит под угрозу такие важные аспекты, как учёт и [[воспроизводимость]].<ref name=sacred2017>{{cite news |url=http://conference.scipy.org/proceedings/scipy2017/pdfs/klaus_greff.pdf |title=Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research." |year=2017 |access-date=2023-02-19 |archive-date=2020-09-29 |archive-url=https://web.archive.org/web/20200929163559/http://conference.scipy.org/proceedings/scipy2017/pdfs/klaus_greff.pdf }}</ref> Существуют платформы для онлайн-сотрудничества, предназначенные для машинного обучения, которые позволяют ученым автоматически делиться, организовывать и обсуждать эксперименты, данные, и алгоритмы.<ref name=arXiv:1407.7722>{{cite news |arxiv=1407.7722 |title=Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).|bibcode=2014arXiv1407.7722V}}</ref> Воспроизводимость может быть особенно сложной для моделей [[глубокое обучение|глубоко обучения]].<ref>{{cite web |url=https://determined.ai/blog/reproducibility-in-ml/ |title=Reproducibility in ML: why it matters and how to achieve it |last1=Villa |first1=Jennifer |last2=Zimmerman |first2=Yoav |date=2018-05-25 |website=Determined AI Blog |access-date=2020-08-31 |archive-date=2020-09-19 |archive-url=https://web.archive.org/web/20200919185953/https://determined.ai/blog/reproducibility-in-ml/ |url-status=live }}</ref>
== Примечания ==
{{примечания}}
{{rq|
{{плохой перевод|дата=2023-02-20}}
{{проверить факты|дата=2023-02-20}}
{{опечатки|дата=2023-02-20}}
{{плохое оформление|дата=2023-02-20}}
}}
[[Категория:Машинное обучение]]
[[Категория:Выбор модели]]