Изменения

N-грамма (править)

Версия от 19:40, 29 октября 2015

122 байта убрано , 9 лет назад

→‎Пример биграммной модели: стилевые правки

Строка 31: Строка 31:

<small><pre>P = P(счастье) * P(есть|счастье) * P(удовольствие|счастье есть) * P(без|счастье есть удовольствие) * P(раскаяния|счастье есть удовольствие без)</pre></small>

−

~~Рассчитать вероятность~~ P(счастье) ~~дело нехитрое:~~ нужно ~~всего лишь~~ посчитать сколько раз это слово встретилось в тексте и поделить это значение на общее число слов. ~~Но рассчитать~~ вероятность P(раскаяния|счастье есть удовольствие без) ~~уже не так просто~~. ~~К счастью, мы можем~~ упростить эту задачу~~. Примем~~, что вероятность слова в тексте зависит только от предыдущего слова. Тогда наша формула для расчета фразы примет следующий вид:

+

Чтобы определить P(счастье) нужно посчитать сколько раз это слово встретилось в тексте, и поделить это значение на общее число слов. Рассчитать вероятность P(раскаяния|счастье есть удовольствие без) сложнее. Чтобы упростить эту задачу, примем, что вероятность слова в тексте зависит только от предыдущего слова. Тогда наша формула для расчета фразы примет следующий вид:

<small><pre>P = P(счастье) * P(есть|счастье) * P(удовольствие|есть) * P(без|удовольствие) * P(раскаяния|без)</pre></small>

−

~~Уже проще.~~ Рассчитать условную вероятность P(есть|счастье) несложно. Для этого считаем количество пар 'счастье есть' и делим на количество в тексте слова 'счастье'.

+

Рассчитать условную вероятность P(есть|счастье) несложно. Для этого считаем количество пар 'счастье есть', и делим на количество в тексте слова 'счастье'.

В результате, если мы посчитаем все пары слов в некотором тексте, мы сможем вычислить вероятность произвольной фразы. Этот набор рассчитанных вероятностей и будет биграммной моделью.

Анонимный участник

w>Komap