Изменения
← Новая страница: «'''N-грамм''' определяется как последовательность из n элементов.<ref>Proceedings of the 7th Ann…»
'''N-грамм''' определяется как последовательность из n элементов.<ref>Proceedings of the 7th Annual Conference ZNALOSTI 2008, Bratislava, Slovakia, pp. 54-65, February 2008. ISBN 978-80-227-2827-0.</ref> С [[семантика|семантической]] точки зрения, это может быть [[последовательность]] звуков, слогов, слов или букв. На практике чаще встречается N-грамм как ряд слов. Последовательность из двух последовательных элементов часто называют биграммы, последовательность из трех элементов называется триграмма. Не менее четырех и выше элементов обозначаются как N-грамм, N заменяется на количество последовательных элементов.
== Использование N-грамм ==
=== Общее использование N-грамм ===
N-грамм в целом находят свое применение в широкой области наук. Может применяться, например, в области теоретической [[математика|математики]], [[биология|биологии]], [[картография|картографии]], а также в [[музыка|музыке]]. Наиболее частое использование N-грамм, включают следующее:<ref>Wikipedia: N-Gram [online]. 22:47, 14 September 2004, 9 April 2009, at 05:14 . Доступно по адресу: <http://en.wikipedia.org/wiki/N-gram></ref>
* извлечение возможностей для кластеризации серии спутниковых снимков Земли из космоса, чтобы затем решить, какие конкретные части Земли на изображении,
* поиск генетических последовательностей,
* в области [[генетика|генетики]] используются для определения того, какие с каких конкретных видов животных собраны образцы [[ДНК]],
* в компьютерном [[сжатие данных|сжатии]],
* с использованием N-грамм, как правило, индексированны данные, связанные со звуком.
=== Использование N-грамм для нужд обработки естественного языка ===
Есть широкое применение N-грамм в обработке естественного языка.
В области обработки естественного языка, N-грамм используется в основном для предугадывания на основе вероятностных моделей, которые называются N-грамм моделями. N-грамм модель рассчитывает вероятность последнего слова N-грамма если известны все предыдущие. Если этот подход используется для моделирования языка, предполагается, что появление каждого слова зависит только от предыдущих слов.<ref>URAFSKY, Daniel, MARTIN, James H. Speech And Language Processing : An Introduction To Natural Language Processing, Computational Linguistics, And Speech Recognition. 2nd edition. Upper Saddle River: Prentice Hall, 2008. 1024 s. Доступно по адресу: <http://books.google.com/books?id=fZmj5UNK8AQC&dq=Speech+and+language+processing+:an+introduction+to+natural+language+processing&printsec=frontcover&source=bl&ots=LqS8_-HLQI&sig=0hNFclP0wlsKmjUtfyShEm437ws&hl=en&ei=sjrvSZaHCImI_QbE_cjDDw&sa=X&oi=book_result&ct=result&resnum=9>. ISBN 0-13-504196-1.</ref>
Другое применение N-грамм является выявление [[плагиат]]а. Если разделить текст на несколько небольших фрагментов, представленных n-граммами, их легко сравнить друг с другом, и таким образом получить степень сходства контролируемых документов.<ref>Proceedings of the ITAT 2008, Information Technologies - Applications and Theory, Hrebienok, Slovakia, pp. 23-26, September 2008. ISBN 978-80-969184-8-5</ref> N-грамм, часто успешно используется для категоризации текста и языка. Кроме того, их можно использовать для создания функций, которые позволяют получать знания из текстовых данных. Используя N-грамм можно эффективно найти кандидатов, чтобы заменить слова с ошибками правописания.<ref>Wikipedia: N-Gram [online]. 22:47, 14 September 2004, 9 April 2009, at 05:14 . Доступно по адресу: <http://en.wikipedia.org/wiki/N-gram>.</ref>
== Научно-исследовательские проекты Google ==
Исследовательские центры Google использовали N-грамм моделей для широкого круга исследований и разработок. К ним относятся такие проекты, как статистический перевод с одного языка на другой, распознавание речи, исправление орфографических ошибок, извлечение информации, выявление и многое другое. Для целей этих проектов были использованы тексты корпусов, содержащих несколько триллионов слов.
Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собраных с общедоступных веб-сайтов.<ref>FRANZ, Alex, BRANTS, Thorsten. Official Google Research Blog : All Our N-gram are Belong to You [online]. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Dostupný z WWW: <http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html>.</ref>
== Методы для извлечения n-граммов ==
В связи с частым использованием N-грамм для решения различных задач, необходим надежный и быстрый алгоритм для извлечения их из текста. Подходящий инструмент для извлечения n-грамм должен быть в состоянии работать с неограниченным размером текста, работать быстро и эффективно использовать имеющиеся ресурсы. Есть несколько методов извлечения N-грамм из текста. Эти методы основаны на разных принципах:
* ''Алгоритм Nagao 94''<ref>M. Nagao and S. Mori. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese. In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994), Kyoto, Japan, 1994.</ref>
* ''Алгоритм Lempel-Ziv-Welch''<ref>Wikipedia : Lempel-Ziv-Welch [online]. 17:18, 8 October 2001, 26 April 2009, at 09:15 (UTC). Dostupný z WWW: <http://en.wikipedia.org/wiki/Lempel-Ziv-Welch>.</ref>
* ''Массив суффиксов''
* ''Дерево суффиксов''
* ''инвертированный индекс''
== Примечания ==
{{примечания}}
== См. также ==
* [[Биграммный шифр]]
[[Категория:Информатика]]
[[ca:N-grama]]
[[cs:N-gram]]
[[de:N-Gramm]]
[[en:N-gram]]
[[es:N-grama]]
[[eu:N-grama]]
[[fi:N-grammi]]
[[fr:N-gramme]]
[[it:N-gramma]]
[[mhr:N-грам]]
== Использование N-грамм ==
=== Общее использование N-грамм ===
N-грамм в целом находят свое применение в широкой области наук. Может применяться, например, в области теоретической [[математика|математики]], [[биология|биологии]], [[картография|картографии]], а также в [[музыка|музыке]]. Наиболее частое использование N-грамм, включают следующее:<ref>Wikipedia: N-Gram [online]. 22:47, 14 September 2004, 9 April 2009, at 05:14 . Доступно по адресу: <http://en.wikipedia.org/wiki/N-gram></ref>
* извлечение возможностей для кластеризации серии спутниковых снимков Земли из космоса, чтобы затем решить, какие конкретные части Земли на изображении,
* поиск генетических последовательностей,
* в области [[генетика|генетики]] используются для определения того, какие с каких конкретных видов животных собраны образцы [[ДНК]],
* в компьютерном [[сжатие данных|сжатии]],
* с использованием N-грамм, как правило, индексированны данные, связанные со звуком.
=== Использование N-грамм для нужд обработки естественного языка ===
Есть широкое применение N-грамм в обработке естественного языка.
В области обработки естественного языка, N-грамм используется в основном для предугадывания на основе вероятностных моделей, которые называются N-грамм моделями. N-грамм модель рассчитывает вероятность последнего слова N-грамма если известны все предыдущие. Если этот подход используется для моделирования языка, предполагается, что появление каждого слова зависит только от предыдущих слов.<ref>URAFSKY, Daniel, MARTIN, James H. Speech And Language Processing : An Introduction To Natural Language Processing, Computational Linguistics, And Speech Recognition. 2nd edition. Upper Saddle River: Prentice Hall, 2008. 1024 s. Доступно по адресу: <http://books.google.com/books?id=fZmj5UNK8AQC&dq=Speech+and+language+processing+:an+introduction+to+natural+language+processing&printsec=frontcover&source=bl&ots=LqS8_-HLQI&sig=0hNFclP0wlsKmjUtfyShEm437ws&hl=en&ei=sjrvSZaHCImI_QbE_cjDDw&sa=X&oi=book_result&ct=result&resnum=9>. ISBN 0-13-504196-1.</ref>
Другое применение N-грамм является выявление [[плагиат]]а. Если разделить текст на несколько небольших фрагментов, представленных n-граммами, их легко сравнить друг с другом, и таким образом получить степень сходства контролируемых документов.<ref>Proceedings of the ITAT 2008, Information Technologies - Applications and Theory, Hrebienok, Slovakia, pp. 23-26, September 2008. ISBN 978-80-969184-8-5</ref> N-грамм, часто успешно используется для категоризации текста и языка. Кроме того, их можно использовать для создания функций, которые позволяют получать знания из текстовых данных. Используя N-грамм можно эффективно найти кандидатов, чтобы заменить слова с ошибками правописания.<ref>Wikipedia: N-Gram [online]. 22:47, 14 September 2004, 9 April 2009, at 05:14 . Доступно по адресу: <http://en.wikipedia.org/wiki/N-gram>.</ref>
== Научно-исследовательские проекты Google ==
Исследовательские центры Google использовали N-грамм моделей для широкого круга исследований и разработок. К ним относятся такие проекты, как статистический перевод с одного языка на другой, распознавание речи, исправление орфографических ошибок, извлечение информации, выявление и многое другое. Для целей этих проектов были использованы тексты корпусов, содержащих несколько триллионов слов.
Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собраных с общедоступных веб-сайтов.<ref>FRANZ, Alex, BRANTS, Thorsten. Official Google Research Blog : All Our N-gram are Belong to You [online]. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Dostupný z WWW: <http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html>.</ref>
== Методы для извлечения n-граммов ==
В связи с частым использованием N-грамм для решения различных задач, необходим надежный и быстрый алгоритм для извлечения их из текста. Подходящий инструмент для извлечения n-грамм должен быть в состоянии работать с неограниченным размером текста, работать быстро и эффективно использовать имеющиеся ресурсы. Есть несколько методов извлечения N-грамм из текста. Эти методы основаны на разных принципах:
* ''Алгоритм Nagao 94''<ref>M. Nagao and S. Mori. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese. In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994), Kyoto, Japan, 1994.</ref>
* ''Алгоритм Lempel-Ziv-Welch''<ref>Wikipedia : Lempel-Ziv-Welch [online]. 17:18, 8 October 2001, 26 April 2009, at 09:15 (UTC). Dostupný z WWW: <http://en.wikipedia.org/wiki/Lempel-Ziv-Welch>.</ref>
* ''Массив суффиксов''
* ''Дерево суффиксов''
* ''инвертированный индекс''
== Примечания ==
{{примечания}}
== См. также ==
* [[Биграммный шифр]]
[[Категория:Информатика]]
[[ca:N-grama]]
[[cs:N-gram]]
[[de:N-Gramm]]
[[en:N-gram]]
[[es:N-grama]]
[[eu:N-grama]]
[[fi:N-grammi]]
[[fr:N-gramme]]
[[it:N-gramma]]
[[mhr:N-грам]]