Изменения

224 байта добавлено ,  3 года назад
Спасено источников — 2, отмечено мёртвыми — 0. Сообщить об ошибке. См. FAQ.) #IABot (v2.0.8.7
Строка 42: Строка 42:  
Исследовательские центры [[Google (компания)|Google]] использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как [[Статистический машинный перевод|статистический перевод]] с одного языка на другой, [[распознавание речи]], исправление орфографических ошибок, [[извлечение информации]] и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов.
 
Исследовательские центры [[Google (компания)|Google]] использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как [[Статистический машинный перевод|статистический перевод]] с одного языка на другой, [[распознавание речи]], исправление орфографических ошибок, [[извлечение информации]] и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов.
   −
Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собранных с общедоступных веб-сайтов<ref>FRANZ, Alex, BRANTS, Thorsten. [http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html Official Google Research Blog: All Our N-gram are Belong to You]. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Созданная база N-грамм продаётся в виде 5 DVD.</ref>.
+
Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собранных с общедоступных веб-сайтов<ref>FRANZ, Alex, BRANTS, Thorsten. [http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html Official Google Research Blog: All Our N-gram are Belong to You] {{Wayback|url=http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html |date=20061017225954 }}. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Созданная база N-грамм продаётся в виде 5 DVD.</ref>.
    
== Методы для извлечения N-грамм ==
 
== Методы для извлечения N-грамм ==
Строка 55: Строка 55:  
Синтаксические N-граммы — это N-граммы, определяемые путями в деревьях синтаксических зависимостей или деревьях составляющих, а не линейной структурой текста<ref name="sng">Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernández. Syntactic Dependency-based N-grams as Classification Features. LNAI 7630, pp. 1-11, 2012.</ref><ref>Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction. International Journal of Computational Linguistics and Applications, Vol. 4, No. 2, pp. 169—188, 2013.</ref>. Например, предложение: «Экономические новости оказывают незначительное влияние на финансовые рынки» может быть преобразовано в синтаксические N-граммы, следуя древовидной структуре его [[Грамматика зависимостей|отношений зависимостей]]: новости-экономические, влияние-незначительное, влияние-на-рынки-финансовые и другие<ref name="sng"/>.
 
Синтаксические N-граммы — это N-граммы, определяемые путями в деревьях синтаксических зависимостей или деревьях составляющих, а не линейной структурой текста<ref name="sng">Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernández. Syntactic Dependency-based N-grams as Classification Features. LNAI 7630, pp. 1-11, 2012.</ref><ref>Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction. International Journal of Computational Linguistics and Applications, Vol. 4, No. 2, pp. 169—188, 2013.</ref>. Например, предложение: «Экономические новости оказывают незначительное влияние на финансовые рынки» может быть преобразовано в синтаксические N-граммы, следуя древовидной структуре его [[Грамматика зависимостей|отношений зависимостей]]: новости-экономические, влияние-незначительное, влияние-на-рынки-финансовые и другие<ref name="sng"/>.
   −
Синтаксические N-граммы отражают синтаксическую структуру в отличие от линейных N-грамм и могут использоваться в тех же приложениях, что и линейные N-граммы, в том числе в качестве признаков в векторной модели. Применение синтаксических N-грамм дает лучшие результаты при решении определенных задач, чем использование стандартных N-грамм, например, для определения авторства<ref>Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernández. Syntactic N-grams as Machine Learning Features for Natural Language Processing. Expert Systems with Applications, Vol. 41, No. 3, pp. 853—860, [http://www.sciencedirect.com/science/article/pii/S0957417413006271 DOI 10.1016/j.eswa.2013.08.015].</ref>.
+
Синтаксические N-граммы отражают синтаксическую структуру в отличие от линейных N-грамм и могут использоваться в тех же приложениях, что и линейные N-граммы, в том числе в качестве признаков в векторной модели. Применение синтаксических N-грамм дает лучшие результаты при решении определенных задач, чем использование стандартных N-грамм, например, для определения авторства<ref>Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernández. Syntactic N-grams as Machine Learning Features for Natural Language Processing. Expert Systems with Applications, Vol. 41, No. 3, pp. 853—860, [http://www.sciencedirect.com/science/article/pii/S0957417413006271 DOI 10.1016/j.eswa.2013.08.015] {{Wayback|url=http://www.sciencedirect.com/science/article/pii/S0957417413006271 |date=20150924182238 }}.</ref>.
    
== См. также ==
 
== См. также ==
Анонимный участник