Модель не читает текст так, как читает его человек. Она разбивает входные данные на фрагменты, которые называются токенами. Токен может совпадать с целым словом, а может оказаться его частью или даже отдельным символом. Английское слово «the» укладывается в один токен. Русское слово «переподготовка» модель, скорее всего, разобьёт на три-четыре фрагмента.
Такая разница возникает из-за того, что большинство моделей обучались преимущественно на английских текстах. Английские слова модель знает целиком и не дробит. Русские слова с их окончаниями, приставками и суффиксами встречались в обучающих данных реже, поэтому модель разбирает их на более мелкие части. В результате один и тот же текст на русском языке занимает в полтора-два раза больше токенов, чем на английском.
Так что если вы работаете через платный API, за обработку русского текста придётся заплатить больше при том же объёме. Если вы загружаете документ в чат, русскоязычный файл займёт больше места и оставит модели меньше пространства для ответа.
Количество токенов, которое модель способна принять в рамках одного диалога, называется контекстным окном. В него входит всё: ваш запрос, загруженные документы, вся предыдущая переписка и ответ модели.
Все основные сервисы можно попробовать бесплатно.
ChatGPT — нейросеть, которая справляется с большинством задач: текстом, кодом, картинками и веб-поиском. Внутри также есть отдельная модель Sora для генерации видео.
Claude сильнее в работе с длинными документами и аналитикой. Если нужно разобрать отчёт, структурировать данные или переработать большой текст, Claude часто даёт более точный результат.
Gemini удобен для тех, кто работает в…