ISSAI NU представил KAZ-LLM – казахскую большую языковую модель

2627
Кадиша Ныгмет

Исследователи Института интеллектуальных систем и искусственного интеллекта (ISSAI) Nazarbayev University (NU) представили Главе государства ­Касым-Жомарту Токаеву большую языковую модель казахского языка ISSAI KAZ-LLM, разработанную на основе нейронной сети. Это основа казахского чата GPT.

фото пресс-службы NU

Применение KAZ-LLM повсеместно – от переводов и генерации контента до обработки объемных текстов. Адаптированная к уникальному многоязычному и мультикультурному контексту страны, ISSAI KAZ-LLM разработана для казахского, русского и английского языков с дополнительной поддержкой турецкого, что позволяет устранить языковые пробелы и продвинуть генеративный искусственный интеллект для языков с ограниченными ресурсами, к которым относится казахский.

Команда ISSAI собрала, обработала, синтезировала и перевела более 150 миллиардов токенов (т. е. слов и подслов), что обеспечило надежную языковую работу. Уровень обучения ISSAI KAZ-LLM очень высок и конкурирует в результатах на казахском, русском и английском языках на уровне мировых лидеров в области искусственного интеллекта.

Помимо этого, ISSAI KAZ-LLM предоставил практический опыт местным IT-талантам, укрепив возможности национального искусственного интеллекта. Проект способствовал не только созданию передового инструмента искусственного интеллекта, но и росту числа казахстанских специалистов в области ИИ. Казахстанские исследователи участ­вовали во всех этапах процесса – от подготовки данных до внедрения моделей, создавая основу для устойчивых инноваций в области искусственного интеллекта. Сотрудничество с ведущими казахстанскими институтами позволило создать инструменты сравнительного анализа и наборы данных, адаптированные для казахского языка с помощью лингвистов и передовых методов машинного перевода.

Проект был начат в апреле этого года. Тренировка модели заняла у разработчиков около пяти месяцев. Тренировочные данные были собраны только из общедоступных источников, включая казахские веб-сайты, новостные статьи и онлайн-библиотеки. Были также использованы данные, предоставленные различными организациями.

– Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологи­ческой экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом, разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках, – рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

ISSAI рассматривает разработку систем искусственного интеллекта следующего поколения, включая модели языкового видения, и расширение этих моделей для поддержки дополнительных тюркских и региональных языков. Эти усилия могут быть направлены на укрепление региональных связей, содействие языковой интеграции и значительное экономическое и технологическое влияние в Казахстане и за его пределами.

Проект ISSAI KAZ-LLM стал возможен благодаря поддержке Фонда развития NU и NIS, а также Astana Hub и QazCode (Beeline). Разработка велась независимо от государственного финансирования.

Популярное

Все
Елена Рыбакина триумфально выиграла Итоговый турнир WTA
Президент наградил Елену Рыбакину орденом "Барыс" III степени
Казахстан первенствовал в общекомандном зачёте на ЧМ по джиу-джитсу
В области Абай прошел международный хакатон "Безграничные возможности"
Более 1200 единиц спецтехники убирали снег минувшей ночью в Астане
Временный президент Сирии прибыл в США с официальным визитом
Сюрприз на сцене: гвардейцы приготовили для родителей трогательный подарок
«Ход королевы»: Почему женщины из Казахстана успешнее в шахматах, чем мужчины?
Казахстан может стать лидером на рынке критически важных минералов
Пленные из КНДР в Киеве просят передать их Южной Корее
Руководство коммунального предприятия Усть-Каменогорска подозревают в крупном хищении – АФМ
Реформы Президента по развитию села работают на укрепление национальной идентичности – Спикер Сената
Итоги республиканской акции «Народный юрист» подвели в Казахстане
«Кайрат» и «Семей» пробились в плей-офф
Сотрудников ДЧС осудили за халатность во время землетрясения в Алматы
Хореографическая поэма «Нургиса» прошла с аншлагом в Астане
Определился состав финалистов
Рост ВВП Казахстана за год достиг 6,3%
Здесь качество – не лозунг, а система
Казахстанские школьники стали четырехкратными чемпионами мира по робототехнике
Большой Египетский музей: все сокровища Тутанхамона выставлены на всеобщее обозрение
ФК« Актобе» перейдет в частную собственность
Двое напали с ножом на пассажиров поезда в Британии
Казахстан и Беларусь расширяют сотрудничество в сфере библиотечного дела
52 млрд тенге направили на развитие дорожной инфраструктуры в области Жетiсу
В Зайсанском районе построят водохранилище
Международный день анимации: гвардеец создал военный мультфильм
Гвардейцы — призёры Открытого Кубка Азии по дзюдо в Актау
Главнокомандующий Нацгвардией провел приём граждан
Алматинская область вновь побила рекорд посещаемости
Отрасль, где гостеприимство – фактор успеха
Гвардеец завоевал золото на чемпионате Евразии по пауэрлифтингу
Жители Усть-Каменогорска построили мост методом асар
Рыбоперерабатывающий завод запустили в Кызылординской области
Новую школу на 1 200 мест открыли в ЗКО
Краснокнижного зверька засняли на видео в Алматинской области
Зампред КНБ отправлен в отставку
За пловом и природой – в Таджикистан
В Таразе продолжается обновление парка городских автобусов
«Жассарбаз»: прикоснуться к небу
В Астане состоялся показ фильма «Капитан Байтасов»
В ВКО выявили незаконную работу асфальто-бетонного завода
Зафиксирован рекордный урожай
Сильная духом и мастерством
Кызылорда с размахом отмечает свой день рождения
В Турции отменили статус «иностранцев» для тюркских народов

Читайте также

Архив

  • [[year]]
  • [[month.label]]
  • [[day]]