Изменения

30 байт добавлено ,  12 лет назад
Методы для извлечения n-граммов, дополнение
Строка 39: Строка 39:  
В связи с частым использованием N-граммов для решения различных задач, необходим надежный и быстрый алгоритм для извлечения их из текста. Подходящий инструмент для извлечения n-граммов должен быть в состоянии работать с неограниченным размером текста, работать быстро и эффективно использовать имеющиеся ресурсы. Есть несколько методов извлечения N-граммов из текста. Эти методы основаны на разных принципах:
 
В связи с частым использованием N-граммов для решения различных задач, необходим надежный и быстрый алгоритм для извлечения их из текста. Подходящий инструмент для извлечения n-граммов должен быть в состоянии работать с неограниченным размером текста, работать быстро и эффективно использовать имеющиеся ресурсы. Есть несколько методов извлечения N-граммов из текста. Эти методы основаны на разных принципах:
 
* ''Алгоритм Nagao 94'' для текстов на японском<ref>M. Nagao and S. Mori. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese. In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994), Kyoto, Japan, 1994.</ref>
 
* ''Алгоритм Nagao 94'' для текстов на японском<ref>M. Nagao and S. Mori. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese. In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994), Kyoto, Japan, 1994.</ref>
* ''Алгоритм Lempel-Ziv-Welch''<ref>Wikipedia : Lempel-Ziv-Welch [online]. 17:18, 8 October 2001, 26 April 2009, at 09:15 (UTC). Доступно по адресу: <http://en.wikipedia.org/wiki/Lempel-Ziv-Welch>.</ref>
+
* [[Алгоритм Лемпеля — Зива — Велча]]<ref>Wikipedia : Lempel-Ziv-Welch [online]. 17:18, 8 October 2001, 26 April 2009, at 09:15 (UTC). Доступно по адресу: <http://en.wikipedia.org/wiki/Lempel-Ziv-Welch>.</ref>
* ''Массив суффиксов''
+
* [[Суффиксный массив]]
* ''Дерево суффиксов''
+
* [[Суффиксное дерево]]
* ''инвертированный индекс''
+
* [[Инвертированный индекс]]
    
== Примечания ==
 
== Примечания ==
Анонимный участник