ISSAI NU представил KAZ-LLM – казахскую большую языковую модель

2527
Кадиша Ныгмет

Исследователи Института интеллектуальных систем и искусственного интеллекта (ISSAI) Nazarbayev University (NU) представили Главе государства ­Касым-Жомарту Токаеву большую языковую модель казахского языка ISSAI KAZ-LLM, разработанную на основе нейронной сети. Это основа казахского чата GPT.

фото пресс-службы NU

Применение KAZ-LLM повсеместно – от переводов и генерации контента до обработки объемных текстов. Адаптированная к уникальному многоязычному и мультикультурному контексту страны, ISSAI KAZ-LLM разработана для казахского, русского и английского языков с дополнительной поддержкой турецкого, что позволяет устранить языковые пробелы и продвинуть генеративный искусственный интеллект для языков с ограниченными ресурсами, к которым относится казахский.

Команда ISSAI собрала, обработала, синтезировала и перевела более 150 миллиардов токенов (т. е. слов и подслов), что обеспечило надежную языковую работу. Уровень обучения ISSAI KAZ-LLM очень высок и конкурирует в результатах на казахском, русском и английском языках на уровне мировых лидеров в области искусственного интеллекта.

Помимо этого, ISSAI KAZ-LLM предоставил практический опыт местным IT-талантам, укрепив возможности национального искусственного интеллекта. Проект способствовал не только созданию передового инструмента искусственного интеллекта, но и росту числа казахстанских специалистов в области ИИ. Казахстанские исследователи участ­вовали во всех этапах процесса – от подготовки данных до внедрения моделей, создавая основу для устойчивых инноваций в области искусственного интеллекта. Сотрудничество с ведущими казахстанскими институтами позволило создать инструменты сравнительного анализа и наборы данных, адаптированные для казахского языка с помощью лингвистов и передовых методов машинного перевода.

Проект был начат в апреле этого года. Тренировка модели заняла у разработчиков около пяти месяцев. Тренировочные данные были собраны только из общедоступных источников, включая казахские веб-сайты, новостные статьи и онлайн-библиотеки. Были также использованы данные, предоставленные различными организациями.

– Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологи­ческой экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом, разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках, – рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

ISSAI рассматривает разработку систем искусственного интеллекта следующего поколения, включая модели языкового видения, и расширение этих моделей для поддержки дополнительных тюркских и региональных языков. Эти усилия могут быть направлены на укрепление региональных связей, содействие языковой интеграции и значительное экономическое и технологическое влияние в Казахстане и за его пределами.

Проект ISSAI KAZ-LLM стал возможен благодаря поддержке Фонда развития NU и NIS, а также Astana Hub и QazCode (Beeline). Разработка велась независимо от государственного финансирования.

Популярное

Все
Сменился министр просвещения Казахстана
В Алматы встретили футболистов команды «Реал Мадрид»
Almaty Marathon 2025 стал рекордным по числу участников-иностранцев
Глава МСХ проверил ход реализации проекта по возрождению сорта «Апорт»
Жаслан Мадиев возглавил новое министерство
В Акорде разъяснили последние кадровые перестановки
Театр «Астана Балет» завоевал серебряную медаль на Всемирном фестивале танца
Жандос Умиралиев назначен первым заместителем Генпрокурора РК
Новые учебники апробируют в казахстанских школах
Милад Карими стал победителем этапа Кубка вызова по спортивной гимнастике
Группу квартирных воров задержали в Туркестанской области
Экс-министру сельского хозяйства КНР вынесен смертный приговор
«Невозможное становится возможным»: казахстанская художница – о встрече с Джеки Чаном в Алматы
Президента Италии торжественно встретили в Акорде
Касым-Жомарт Токаев и Серджо Маттарелла провели переговоры
Знаменитый Дубайский фонтан откроется после реконструкции
В Дубае создадут зону для беспилотного транспорта
Гвардеец завоевал «бронзу» на Кубке мира по боевому самбо
К строительству крупнейшего завода по производству снеков приступили в Алматинской области
Рахмет от звезд: как прошел концерт Backstreet Boys в Астане
Должникам теперь не скрыться
Какие участки дорог перекроют в Астане
Токаев провел ряд встреч и переговоров в Нью-Йорке
Супертайфун «Рагаса» идет на Вьетнам
Сел за решетку на всю жизнь
Казахстан играет ключевую роль в качестве логистического хаба – Глава государства
Четыре страны признали палестинское государство
Президент высказался о восстановлении надежной архитектуры безопасности в мире
Касым-Жомарт Токаев выступил на Генеральной Ассамблее ООН
Минфин внедряет цифровой контроль господдержки
Олимпиады в цифровом формате: платформу SMART Daryn разработали в Казахстане
В алматинском акимате придумали способ повысить вдвое зарплату дворникам
Лучших операторов беспилотников определили в Жамбылской области
Цифровизация и ИИ стали национальным приоритетом в Казахстане - Глава государства
Касым-Жомарт Токаев обозначил экономические приоритеты Казахстана
Первая в Центральной Азии Академия ФИФА
В Москве объявлен победитель «Интервидения»
35 школ Атырауской области остались без директоров
В Семее студента приговорили к пожизненному сроку
Прокуратура на защите конституционных ценностей государства
В ЗКО готовят выпуск продукции из сайги
Ремонт пяти мостов начали на популярном туристическом маршруте в ВКО
Отслужил и получил грант: солдат из Нацгвардии стал студентом
Экологический месячник стартует в Астане с 13 сентября
Президент отреагировал на жалобы граждан по поводу самокатов
Движение по мосту Арыс частично ограничат в Астане
Строительство индустриального парка начинается в Туркестанской области
Президенту представили производимую в Акмолинской области аграрную продукцию
Международный университет информационных технологий Усонг открыт в Туркестане
В Костанайской области начались мероприятия, посвященные 140-летию Миржакыпа Дулатулы
Стратегия отрасли: от добычи сырья - к высоким переделам
Началось возведение энергоблока
Кубок Senat Open разыграли в Астане
Началось строительство плодоконсервного завода
Цифровая трансформация судебной системы
Организации образования перешли на единую модель воспитания «Адал азамат»
Генпрокуратура начала расследование в отношении Кайрата Кожамжарова

Читайте также

Архив

  • [[year]]
  • [[month.label]]
  • [[day]]