Изменения

N-грамма (править)

Версия от 12:51, 14 февраля 2015

6 байт убрано , 10 лет назад

→‎Научно-исследовательские проекты Google: оформление

Строка 42: Строка 42:

Исследовательские центры [[Google]] использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как [[Статистический машинный перевод|статистический перевод]] с одного языка на другой, [[распознавание речи]], исправление орфографических ошибок, [[извлечение информации]] и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов.

−

Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собранных с общедоступных веб-сайтов<ref>FRANZ, Alex, BRANTS, Thorsten. Official Google Research Blog : All Our N-gram are Belong to You ~~[online~~]. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Доступно по адресу: <~~http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html~~>. Созданная база N-грамм продаётся в виде 5 DVD.</ref>

+

Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собранных с общедоступных веб-сайтов<ref>FRANZ, Alex, BRANTS, Thorsten. [http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html Official Google Research Blog: All Our N-gram are Belong to You]. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Доступно по адресу: <>. Созданная база N-грамм продаётся в виде 5 DVD.</ref>.

== Методы для извлечения N-грамм ==

Анонимный участник

w>РоманСузи