Изменения

N-грамма (править)

Версия от 12:50, 14 февраля 2015

151 байт убрано , 10 лет назад

→‎Использование N-грамм для нужд обработки естественного языка: оформление

Строка 14: Строка 14:

=== Использование N-грамм для нужд обработки естественного языка ===

−

В области обработки естественного языка, N-граммы используется в основном для предугадывания на основе [[Теория вероятностей|вероятностных моделей]]. N-граммная модель рассчитывает [[вероятность]] последнего слова N-граммы, если известны все предыдущие. При использовании этого подхода для моделирования языка предполагается, что появление каждого слова зависит только от предыдущих слов<ref>~~URAFSKY~~, ~~Daniel~~, ~~MARTIN, James~~ H. Speech ~~And~~ Language Processing : An Introduction To Natural Language Processing, Computational Linguistics, ~~And~~ Speech Recognition~~. 2nd edition. Upper Saddle River:~~ Prentice Hall~~, 2008. 1024 s. Доступно по адресу: <http://books.google.com/books?id~~=~~fZmj5UNK8AQC&dq~~=~~Speech+and+language+processing+:an+introduction+to+natural+language+processing&printsec~~=~~frontcover&source~~=~~bl&ots=LqS8_-HLQI&sig=0hNFclP0wlsKmjUtfyShEm437ws&hl=en&ei=sjrvSZaHCImI_QbE_cjDDw&sa=X&oi=book_result&ct=result&resnum=9>~~. ~~ISBN 0-13-504196-1~~.</ref>.

+

В области обработки естественного языка, N-граммы используется в основном для предугадывания на основе [[Теория вероятностей|вероятностных моделей]]. N-граммная модель рассчитывает [[вероятность]] последнего слова N-граммы, если известны все предыдущие. При использовании этого подхода для моделирования языка предполагается, что появление каждого слова зависит только от предыдущих слов<ref>{{книга

+

| автор = Jurafsky, D. and Martin, J.H.

+

| заглавие = Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition

+

| издательство = Pearson Prentice Hall

+

| год = 2009

+

| allpages = 988

+

| isbn = 9780131873216

+

| ref = Jurafsky, D. and Martin, J.H.

+

}}</ref>.

Другое применение N-грамм является выявление [[плагиат]]а. Если разделить текст на несколько небольших фрагментов, представленных N-граммами, их легко сравнить друг с другом, и таким образом получить степень сходства контролируемых документов<ref>Proceedings of the ITAT 2008, Information Technologies — Applications and Theory, Hrebienok, Slovakia, pp. 23-26, September 2008. ISBN 978-80-969184-8-5</ref>. N-граммы часто успешно используются для категоризации текста и языка. Кроме того, их можно использовать для создания функций, которые позволяют получать знания из текстовых данных. Используя N-граммы, можно эффективно найти кандидатов, чтобы заменить слова с ошибками правописания.

Анонимный участник

w>РоманСузи