ISSAI NU представил KAZ-LLM – казахскую большую языковую модель

2106
Кадиша Ныгмет

Исследователи Института интеллектуальных систем и искусственного интеллекта (ISSAI) Nazarbayev University (NU) представили Главе государства ­Касым-Жомарту Токаеву большую языковую модель казахского языка ISSAI KAZ-LLM, разработанную на основе нейронной сети. Это основа казахского чата GPT.

фото пресс-службы NU

Применение KAZ-LLM повсеместно – от переводов и генерации контента до обработки объемных текстов. Адаптированная к уникальному многоязычному и мультикультурному контексту страны, ISSAI KAZ-LLM разработана для казахского, русского и английского языков с дополнительной поддержкой турецкого, что позволяет устранить языковые пробелы и продвинуть генеративный искусственный интеллект для языков с ограниченными ресурсами, к которым относится казахский.

Команда ISSAI собрала, обработала, синтезировала и перевела более 150 миллиардов токенов (т. е. слов и подслов), что обеспечило надежную языковую работу. Уровень обучения ISSAI KAZ-LLM очень высок и конкурирует в результатах на казахском, русском и английском языках на уровне мировых лидеров в области искусственного интеллекта.

Помимо этого, ISSAI KAZ-LLM предоставил практический опыт местным IT-талантам, укрепив возможности национального искусственного интеллекта. Проект способствовал не только созданию передового инструмента искусственного интеллекта, но и росту числа казахстанских специалистов в области ИИ. Казахстанские исследователи участ­вовали во всех этапах процесса – от подготовки данных до внедрения моделей, создавая основу для устойчивых инноваций в области искусственного интеллекта. Сотрудничество с ведущими казахстанскими институтами позволило создать инструменты сравнительного анализа и наборы данных, адаптированные для казахского языка с помощью лингвистов и передовых методов машинного перевода.

Проект был начат в апреле этого года. Тренировка модели заняла у разработчиков около пяти месяцев. Тренировочные данные были собраны только из общедоступных источников, включая казахские веб-сайты, новостные статьи и онлайн-библиотеки. Были также использованы данные, предоставленные различными организациями.

– Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологи­ческой экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом, разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках, – рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

ISSAI рассматривает разработку систем искусственного интеллекта следующего поколения, включая модели языкового видения, и расширение этих моделей для поддержки дополнительных тюркских и региональных языков. Эти усилия могут быть направлены на укрепление региональных связей, содействие языковой интеграции и значительное экономическое и технологическое влияние в Казахстане и за его пределами.

Проект ISSAI KAZ-LLM стал возможен благодаря поддержке Фонда развития NU и NIS, а также Astana Hub и QazCode (Beeline). Разработка велась независимо от государственного финансирования.

Популярное

Все
В Семее суд вынес решение о сносе 12 новых жилых комплексов
В Уральске реконструируют набережную
Структурная реформа в футбольном судействе даст свои плоды
Корреспондент газеты «Egemen Qazaqstan» Дуйсенали Алим­акын презентовал свою книгу «Америка ашқан қазақтар»
Настоящая инклюзия – это когда ребенок чувствует себя нужным, важным и любимым
Встреча авторов и юных поклонников
Состоялся гала-концерт конкурса детского творчества «Жұлдызай»
Стартовала пора оздоровительных лагерей
Дипломатов обучают в Астане
Когда земля на вес золота
Двойной интеллект
Ушел из жизни поэт, писатель, журналист
В Атырауской области начался прием заявок на льготную ипотеку для медиков
Атрибуты, объединяющие нацию
Основа нашей идентичности
Производство атрибутики – процесс ответственный
Прощай, друг…
Спасенного пеликана выпустили на волю
ТЮЗ: сезон закончен, выступления продолжаются
Не касаясь земли
Филиал Челябинского государственного университета откроют в Костанае
Дожди с грозами и ветром ожидают казахстанцев в эти выходные
Аффинажный завод в Астане выдал 30-тысячный слиток дорогого металла
Срезан склон холма, жди оползня…
Новая услуга появилась в приложении eGov Mobile
ORDA: триумф во Франкфурте-на-Майне
Бадрисафа Байтурсынова, разыскивая мужа, дважды обращалась к жене Максима Горького
О чем говорил Президент на встрече с главой Бундесрата Германии
Новый рекреационный парк открыли в Сатпаеве
Токаев переговорил с Путиным
1,3 млрд тенге «увели» интернет-мошенники у карагандинцев
Таяние ледников – проблема всего человечества
Казахстанская модель шахматного образования признана одной из лучших в мире
Двое казахстанцев зачислены в университеты Лиги плюща
Туристический маршрут запустили между Казахстаном и Китаем
Карин провел встречу с заместителем завотделом пропаганды ЦК Компартии Китая
Нацелены на рост и развитие
Память, звучащая в Слове
Премьер-министр Италии прибыла в Астану
Местные полицейские службы расформируют в РК
Строительство десяти крупных заводов по производству хлопка начали в Туркестанской области
Костанайская область – лидер РК по производству и экспорту продуктов питания
Служебные собаки Нацгвардии отличились на международной выставке
В Казахстане резко изменится погода
Железные дороги – национальное достояние и стратегический актив страны
Дорога Атырау-Астрахань: завершающий этап
Три перекрестка временно закроют на ремонт в Астане
Будущее – за цифровыми активами
Трассу Жезказган – Петропавловск начали капитально ремонтировать в СКО
Семья – духовный код нации
NASA подтвердило предсказание Стивена Хокинга о конце света
Блогеров арестовали в Астане за неудачную шутку в лифте
Атырауский завод выпустил 100-й грузовой вагон
Жару сменят дожди в Казахстане
Свыше 4 тыс. военнослужащих приняли участие в военном параде в честь 80-летия Великой Победы
Три междугородних автобуса арестовали на трассе в Акмолинской области
Аэропорт Уральска увеличивает количество рейсов
Впервые в Атырауской области для борьбы с саранчой задействуют беспилотники
Авиакомпания Qazaq Air официально меняет название
Начались масштабные работы по благоустройству Талдыкоргана

Читайте также

В интерактивном формате
Встреча авторов и юных поклонников
Богатырь с добрым сердцем
Спасенного пеликана выпустили на волю

Архив

  • [[year]]
  • [[month.label]]
  • [[day]]