LLM — это основа, на которой строятся ИИ-приложения, а ChatGPT — это готовое приложение, которое использует такую модель, чтобы общаться с пользователями в виде чата, сообщает Kazpravda.kz

Изображение сгенерировано нейросетью Midjourney

Другими словами, LLM — это фундамент, а ChatGPT — это построенный на нём продукт. В международной практике большие языковые модели были созданы рядом стран для укрепления суверенитета (ОАЭ, Саудовская Аравия, Китай, Россия и др.). В среднем LLM обновляются от 2 до 4 раз в год, что связано с постоянной необходимостью улучшения качества и актуальности.

Разработка и обучение таких моделей требует значительных затрат. Крупнейшие международные разработчики, такие как OpenAI, Meta, Alibaba, Google, Anthropic инвестируют в создание LLM сотни миллионов долларов. KazLLM была выпущена в 2024 году в двух версиях — на 8 и 70 миллиардов параметров, в совокупности обеспечив более 138 тысяч запросов со стороны академического и исследовательского сообщества.

В последующем создана усовершенствованная модель нового поколения — AlemLLM, способная обрабатывать казахский, русский и смешанный языки. Это обеспечило более высокую степень адаптации под местный контекст, а также расширило практическую применимость модели в различных секторах. Общее количество запросов превысило 480 тысяч (от частного сектора — более 420 тыс., от государственных органов и квазигоссектора — более 60 тыс.).

На базе Alem LLM создается 42 прикладных ИИ-продукта. Например, qazaq law - юридический консультант, агент по вопросам госуслуг консульств и помощник гражданам РК за рубежом, агент, консультирующий по правилам госзакупок и налогообложению, AI eGov и др. отраслевые решения.

Дополнительно, в рамках интеграции ИИ в корпоративную экосистему, АО “Самрук-Қазына” внедрило три ИИ-агента на базе AlemLLM:

SK AI - цифровой член совета директоров;

Агент по внутренним нормативным документам;

Агент по нормативно-правовым актам.

AlemLLM в т.ч. установлена и работает на государственном суперкомпьютере, без выхода в интернет. Соответственно, данные никуда не передаются и остаются в закрытом контуре внутри страны.

С приложением ChatGPT так сделать нельзя — оно работает через зарубежные серверы, и данные уходят за границу.

Модели KazLLM и AlemLLM также размещены в открытом доступе на международной платформе Hugging Face, что сделало возможным их установку на собственной вычислительной инфраструктуре широкому кругу компаний.

На данный момент модель AlemLLM скачана 135 компаниями из 13 стран, среди которых крупные корпорации, банки, стартапы и индивидуальные исследователи.

В дальнейшем планируется развитие AlemLLM в рамках совместных проектов с доктором Кай-Фу Ли. В числе приоритетных направлений - создание голосовой модели, а также отраслевых малых языковых моделей, которые смогут работать автономно - без подключения к интернету. Такие решения особенно актуальны для промышленных условий, например, в шахтах и на иных отдалённых объектах.

Разработка и внедрение KazLLM и AlemLLM являются стратегическим шагом в становлении Казахстана как независимого игрока в области ИИ. Это позволяет:

повысить эффективность оказания государственных услуг;

развивать национальную цифровую экономику;

обеспечить контроль над технологиями и данными;

создавать собственные инновационные продукты без зависимости от зарубежных платформ;

наращивать ИИ-компетенцию среди казахстанских специалистов.