@kurkuma Говорят, что лучше частотный анализ пар слов делать, чем просто по словам.
Но тем не менее, есть ли швабодные (чтобы не писать код), ну или хотя бы бесплатные (как пиво).
@kurkuma Мне лень, напиши ты, если десяток строчек.
К тому же у тебя *уже* есть обновляемая база комментариев, прикручиваешь к ней анализатор и по клику на коммент показываешь те, что с похожим стилем, сплошная выгода.
@anonim любые н-граммы не относятся ни к буквам, ни к чему другому
можно и для букв и для слов
ну и канеш кластеризация пользователей по буквам это пиздец // если ты канеш не хочешь отличить хохла от руССкого
@238328 Там в папере автор берет 100 наиболее частых биграмм, Тройки букв русского алфавита, 500 наиболее частых триграмм, 100 наиболее частых слов из словаря Шарова, Триграммы, сглаженные методом Гуда-Тьюринга, Триграммы, сглаженные методом Лапласа и500 наиболее частых триграмм, сглаженных методом Лапласа и тестит их на текстах. Вообще почитайте лучше паперы от тех, кто JStylo делал, они тестили на ачате, тестили переведенные гуглопереводчиком тексты и прочее и все работало, правда у них посложнее канеш, чем просто частотный анализ.
@anonim И правда какое-то оно сложное.
Хотя ведь всё равно придётся писать код, для того, чтобы комменты руками хотя бы туда не перебивать. Плохо так жить.
@anonim лан // я напоминаю, что например в некоторых [случаях]( https://bnw.im/api/userinfo?user=238328 ) средняя длина комментария составляет
`characters_count / comments_count ≈ 58`
и это при том, что наверно половина это ссылки + пасты