ChatGPT на казахском: общество «Қазақ тілі» представило результаты работы с OpenAI

В столичном офисе Международного общества «Қазақ тілі» состоялась встреча с представителями компании OpenAI, сообщает Kazpravda.kz 

Фото: Kazpravda.kz / Адильбек Тауекелов

Участники обсудили ход реализации совместного проекта по развитию казахского языка в цифровом пространстве и презентовали первые итоги работы. Вниманию экспертов представили текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов, аудиокорпус (Speech Corpus) мощностью свыше 10 тысяч часов, а также набор AI Evaluation Benchmark Suite, предназначенный для оценки больших языковых моделей.

Этот масштабный проект реализуется в рамках соглашения между Международным обществом «Қазақ тілі» и OpenAI, подписанного 7 ноября 2025 года в Вашингтоне. Его главная цель – создание качественного цифрового контента и надежной базы данных для повышения качества работы больших языковых моделей на казахском языке. Сегодня эта инициатива стала одним из важнейших проектов, направленных на развитие цифровой экосистемы казахского языка.

В рамках проекта сформирован уникальный текстовый корпус казахского языка (Kazakh Text Corpus) объемом более 10 миллиардов токенов. Этот языковой ресурс создан на основе реальных источников, прошел глубокую очистку, классификацию, фильтрацию персональных и конфиденциальных данных, а также был дополнен необходимыми метаданными.

В корпус вошли тексты всех этапов исторического развития казахского языка, включая языковые традиции казахских диаспор за рубежом. Таким образом, авторам удалось создать глобальный цифровой ресурс, охватывающий все историческое и географическое пространство языка. Материалы охватывают сферы образования, науки, технологий, экономики, права, медицины, истории, этнографии, медиа и детского контента.

Параллельно система оптического распознавания текста (OCR) продемонстрировала высокую точность (99%) при обработке казахских текстов на кириллице. Эффективность системы структурного анализа документов (Layout Parsing), распознающей колонки и страницы со сложной версткой, также достигла 99%. Обе системы способны одновременно обрабатывать колоссальные массивы сгруппированных данных.

Для комплексного аудита больших языковых моделей на казахском языке была разработана специальная система AI Evaluation Benchmark Suite.

Она оценивает модели по ключевым направлениям, среди которых: понимание текста (Reading Comprehension), грамматика (Grammar), естественность казахского языка (Kazakh Language Naturalness), использование пословиц и устойчивых выражений (Proverbs & Idioms), академический перевод (Academic Translation), художественный перевод с казахского языка на английский (Literary Translation), перевод детской литературы (Kids Literature Translation), безопасность (Safety) и этнографические знания (Ethnography). На текущий момент полностью готовы семь из девяти направлений, а работа над блоками Safety и Ethnography находится на стадии завершения.

Данная система оценки была разработана на казахском языке, а не переведена с английского, с учетом языковых и культурных особенностей казахского языка. По ее первым результатам показатель понимания текста (Reading Comprehension) составил 76,89%, грамматики (Grammar) – 72,24%, использования пословиц и устойчивых выражений (Proverbs & Idioms) – 71,90%. При этом показатель естественности казахского языка (Kazakh Language Naturalness) пока составляет 23,08%. В сегменте перевода зафиксированы высокие результаты: академический перевод (Academic Translation) – 85,81%, художественный перевод (Literary Translation) – 86,46%, перевод детской литературы (Kids Literature Translation) – 89,22%.

На сегодняшний день для аудиокорпуса проекта собрано и очищено 10 810 часов аудиоматериалов. Из них 1000 часов – это датасет «золотого стандарта» (Gold Standard Dataset), который был транскрибирован вручную и прошел строгую экспертную проверку. Более 70% записей имеют частоту дискретизации от 44 кГц и выше, а сам фонд полностью состоит из образцов живой, естественной речи.

Сейчас точность моделей распознавания казахской речи (Speech-to-Text Models) превышает 92%. При этом зафиксированы случаи, когда ИИ-системы ошибочно принимают казахский язык за кыргызский, татарский или турецкий.

Международное общество «Қазақ тілі» разрабатывает оценочный бенчмарк Automatic Speech Recognition (ASR) для проверки способности языковых моделей воспринимать казахскую речь. Он позволяет проводить глубокую оценку точности распознавания слов (WER), точности распознавания символов (CER) и уровня охвата различных тематик.

В перспективе команда проекта намерена довести точность моделей транскрипции казахской речи до 99%.

В дальнейшем будет продолжена работа по повышению точности моделей распознавания казахской речи до 99%. В рамках данного партнерства созданы беспрецедентные по объему текстовые и аудиокорпуса на казахском языке, высокоточные инструменты цифровизации и комплексная инфраструктура для оценки качества больших языковых моделей. Эта работа качественно расширяет границы присутствия казахского языка в цифровом мире и уверенно выводит его в число конкурентоспособных языков эпохи искусственного интеллекта.

Справка: OpenAI, Inc. – американская технологическая компания, занимающаяся исследованиями и разработкой в области искусственного интеллекта.

Популярное

Все
Бибисара Асаубаева досрочно выиграла шахматный турнир Norway Chess Women 2026
Перезагрузка всей политической системы – Токаев подписал 5 новых конституционных законов
Дожди прогнозируются по республике в эту пятницу
В Шымкенте выявили крупную партию нелегальных куриных яиц
Да будет газ!
Насосные станции обновят поэтапно
Посевная проходит без сбоев
Зафиксирован профицит выработки электроэнергии
Зеленый коридор для скорой
Какие улицы временно перекроют в столице в рамках Astana Half Marathon
Основа национальной идентичности
Укреплять интеллектуальный потенциал нации
Из зерна получают… горючее
Класс будущего
Подведены итоги природоохранных инициатив
Твой выбор
Дочь – это не сын
Жестовый язык может обрести официальный статус
Домбра в помощь учебнику
От посадки лесов до контроля над промышленными выбросами
Профессионал, спортсмен, семьянин, полиглот
Золотые «орешки»: в чем феномен главного казахстанского герлз-бэнда
Лошадей Пржевальского выпустили в дикую природу на территории резервата «Алтын Дала»
Права человека: новые акценты Конституции Казахстана
Военные из США, Турции и Франции завершили языковые курсы в Казахстане
Международный фестиваль клоунов пройдет в Астане
Административной юстиции – пять лет
Дорогу на обходе Астаны закроют на ремонт до 15 июня
Астанчан приглашают принять участие в юбилейном международном полумарафоне
Атомная наука: от первого пучка к технологиям будущего
Трёхлетний Амре получил Благодарственное письмо Главы государства
Более 180 новых автомобилей получили подразделения Нацгвардии МВД РК
Сарсенгали Абдыманапову и Ермеку Жангельдину вручили госнаграды от имени Президента
Жанатас: большой трансфер инноваций
Система не прощала веры: в чем феномен новой книги Хайдара Байзакова
Вышла ТЭЦ из «красной» зоны рисков
Педагог с большой буквы
В Актау откроется консульство РФ
Как сделать бизнес экологичным?
Ученики завоевали более 1 000 медалей
Новый вид змей обнаружили в Китае
Дожди, грозы и заморозки накроют Казахстан
Закон Республики Казахстан О государственной службе Республики Казахстан
Достойный путь генерала Уразова
Казахстанские месторождения получают вторую жизнь благодаря… нейросети
Единая система газоснабжения переходит к национальному оператору
Пять лет на защите прав граждан
Родителей туркестанского подростка наказали за видео в TikTok
Каркас Казахского ханства выкован в Улусе Джучи
Где в мире больше всего рождается детей
Весенние заморозки: скандинавский холод накроет Казахстан
В Мьянме нашли редкий рубин весом 2,2 кг
Названы способы оплаты проезда в LRT Астаны
Россия – Казахстан: союз в сердце Евразии
Новый предмет для нового поколения
В Павлодарской области запустили маслозавод мощностью 35 тысяч тонн продукции в год
«Птичий дом» страны – в Коргалжыне
В Нацгвардии определили победителей турнира по мини-футболу
Бизнес-форум стран ОТГ открылся в Астане
Нормативное постановление Конституционного Суда Республики Казахстан от 18 мая 2026 года № 80-НП

Читайте также

Читать Абая в подлиннике
Любой навык приходит с практикой
Домбра в помощь учебнику
Победителей республиканской интеллектуальной олимпиады «Ана…

Архив

  • [[year]]
  • [[month.label]]
  • [[day]]