Все новости

СОВРЕМЕННЫЙ ВЗГЛЯД НА ЛИНГВИСТИКУ

Отдел прикладной лингвистики и диалектологии учрежден в Институте истории, языка и литературы в январе 2022 года на базе ранее сущестовавшей и получившей широкую известность лаборатории лингвистики и информационных технологий. Сама лаборатория лингвистики и информационных технологий была выделена в январе 2002 года из отдела языкознания для реализации раздела «Башкирский язык в информационных технологиях» Государственной программы сохранения, изучения и развития языков народов Республики Башкортостан на 2000–2005 гг.

СОВРЕМЕННЫЙ ВЗГЛЯД НА ЛИНГВИСТИКУ
СОВРЕМЕННЫЙ ВЗГЛЯД НА ЛИНГВИСТИКУ

Группа «Автоматизация лексикографии»

До организации лаборатории в ИИЯЛ существовала группа «Автоматизация лексикографии», образованная в 1991 году. Задачей научного сотрудника З.А.Сиразитдинова, младших научных сотрудников А.Г.Рахимовой, И.У.Надыргулова была разработка частотных словарей башкирского языка с применением вычислительных машин. Первой работой в этом направлении стали частотный словарь и конкорданс языка произведений классика башкирской литературы Д.Юлтыя по трехтомному изданию автора, составленный З.А.Сиразитдиновым [1]. Эта работа позволила определить богатство индивидуальной речи писателя, его вклад в становление литературного языка.
В дальнейшем группа начала работу по составлению частотных словарей функциональных стилей башкирского языка: были подготовлены и введены в ЭВМ выборки из публицистических и научных текстов общим объемом в 400 тысяч словоупотреблений. Эти данные легли в основу частотных и алфавитно-частотных словарей, которые позволили выявить высокочастотные лексические пласты вышеуказанных двух стилей национального языка [2–3]. В это же время З.А.Сиразитдинов и И.У.Надергулов начали работу над определением архитектуры Машинного фонда башкирского языка (МФБЯ) как глобальной научной справочной системы по лексике и морфологии, концепция которой была изложена на совместном заседании президиумов Уфимского научного центра РАН и Академии наук РБ в 1999 году.
В дальнейшем в работе группы участвовали младший научный сотрудник А.В.Гильманова и лаборанты-исследователи З.Б.Валеева, Г.Шарафутдинова. Они участвовали в подготовке материалов для частотного и алфавитно-частотного словарей прозаического стиля национального языка [4]. Созданные частотные словари по функциональным стилям стали третьими по счету после словарей русского и казахского языков среди аналогичных лексикографических разработок по языкам народов СССР. Данные словари активно использовались при разработке толкового словаря современного башкирского литературного языка и учебных толковых словарей.

Лаборатория лингвистики и информационных технологий

Лаборатория лингвистики и информационных технологий начала свою работу в следующем составе: старший научный сотрудник З.А.Сиразитдинов, младший научный сотрудник Л.А.Бускунбаева, старшие лаборанты-исследовате­ли А.Ш.Ишмухаметова, Г.Г.Шамсут­динова, Т.Р.Тузбекова, Р.Ханнанова, Л.Р.Хамитова. В 2002–2004 годы лаборатория по заданию Правительства Республики Башкортостан участвовала в локализации программных продуктов FineReader, Лексикон, Диско-командир, Хамелеон, Mozilla. Локализованные программные продукты были реализованы в коробочном исполнении и бесплатно розданы государственным учреждениям.
Локализация базовых програм­мных продуктов создала предпосылки для широкого внедрения цифровых технологий в башкирский язык. В локализованной версии FineReader-5.0 имелся встроенный башкирский морфологический корректор, позволяющий исправлять орфографические ошибки. Текстовый редактор Лексикон компании «Арсеналъ» открыл возможность вводить башкирские тексты с клавиатуры, позволял автоматически производить орфографическую проверку текстов, распечатывать и сохранять в виде файла, пригодного для работы в редакторах Word и OpenOffice. Данный редактор был разработан для поддержки документооборота на башкирском языке в общеобразовательных учреждениях, офисах, органах управления. Все локализованные программные продукты имели как башкирский, так и русский интерфейсы.
В ходе локализации этих программных продуктов были определены стандарты кодовой таблицы и раскладки башкирской клавиатуры, которые в дальнейшем были переданы компании Майкрософт. В ходе сотрудничества с IT-компаниями был накоплен опыт, который был использован при создании формальных моделей словоизменительной системы и слогоделения башкирского языка.
В 2002–2003 годах сотрудниками лаборатории совместно с представителем Башкирского государственного университета, кандидатом физико-математических наук В.И.Луценко был создан прототип МФБЯ, функционировавший на отдельных компьютерах лаборатории. В эти же годы были осуществлены работы и в русле экспериментально-фонетических исследований: выделены амплитудно-частотные характеристики и сонограммы фонем башкирского языка, которые в дальнейшем вошли в подфонд экспериментально-фонетических данных МФБЯ.
В 2004 году лаборатория совместно с Интернет-центром БашГУ реализовала лингвистический портал в сети Интернет, освещающий работу лаборатории и представляющий пользователям информацию по башкирскому языку. Портал включал в себя такие возможности, как перевод русских слов на башкирский с выбором до 8 словарей с общей базой данных в 100 тыс. лексем, башкирский чат, сведения о деятельности лаборатории, информацию о локализованных программных продуктах.
В 2006 году лаборатория тесно сотрудничала с Майкрософт: компании были переданы разработанные стандарты башкирской раскладки клавиатуры и кодировки для башкирского языка; осуществлены переводы на башкирский язык некоторых системных сообщений, проведена совместная работа для определения правильности сортировки башкирских текстов. В этом же году З.А.Сиразитдинов и программист-математик из Башкирского государственного университета А.И.Полянин начали работу над программной оболочкой сетевого варианта МФБЯ.
В дальнейшем сотрудники лаборатории по заданию Правительства республики работали с компанией ParaType над разработкой 18 башкирских шрифтов форматов Truetype и Opentype. Шрифты были бесплатно розданы госучреждениям с лицензионными соглашениями.
В последующие годы Л.А.Бус­кунбаева, А.Ш.Ишмухаметова, Г.Г.Шамсутдинова, А.Д.Ибрагимова работали над созданием баз данных подфондов генеральной картотеки и лексикографии. В подфонд лексикографии были введены 58 изданных в разные годы лексикографических трудов по башкирскому языку общим объемом в 382701 словарная статья.
Частая смена состава лаборатории объяснялась нестабильностью финансирования и недопониманием дирекцией института актуальности самих работ. Отсутствие должной материально-технической базы лаборатории привело к тому, что Машинный фонд был запущен не в институте, а на сервере БашГУ. В этом большая заслуга директора Интернет-центра, кандидата технических наук Амира Даутовича Максютова, организовавшего содержание доменного имени и Интернет-трафика, техническое обслуживание сервера в 2006–2012 годах.
К 2012 году МФБЯ уже состоял из 7 подфондов: подфонд генеральной картотеки; лексикографический подфонд; грамматический подфонд; подфонд каталога рукописных книг; подфонд каталога старопечатных книг; экспериментально-фонетический подфонд; диалектологический подфонд (URL:http://www.mfbl2.ru).
В 2012 году сотрудники лаборатории получили грант Российского гуманитарного научного фонда на разработку терминологического банка башкирского языка. З.А.Сиразитдинов, Л.Г.Мигранова, А.Д.Ибрагимова составили базы данного банка (http://www.bashterm.ru). Для систематизации национальной терминологии был использован рубрикатор ГРНТИ (Государственный рубрикатор научно-технической информации, прежнее наименование – Рубрикатор ГАСНТИ), представляющий собой универсальную иерархическую классификацию научно-технической информации. Выделенные по рубрикатору тематические группы образуют отдельные базы общего банка данных. Терминологический банк построен по общепринятым нормам в отечественной практике создания таких систем. Данная разработка используется в работе терминологических комиссий при Правительстве РБ и администрациях городов республики.
C 2013 года коллектив лабо­ратории (З.А.Сиразитдинов, Л.А.Бускунбаева, А.Д.Ибрагимова, А.Ш.Ишмухаметова, Г.Г.Шамсут­динова) вел работу над проектами корпусов башкирского языка. Ими были разработаны пилотные проекты корпусов прозы, публицистики и фольклора. В целях экономии средств на покупку доменного имени и на интернет-трафик корпусные проекты функционируют в составе МФБЯ. Сегодня общий объем корпусных проектов составляет более 30 млн словоупотреблений.
Корпус прозы включает 1300 текстов башкирских писателей. Каждый текст имеет следующие метаразметки: автор, название, объем в словоформах, время создания, тип текста (повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т.п.).
Корпус публицистики включает тексты республиканских газет «Башҡортостан», «Киске Өфө», «Йәшлек», журналов «Ағиҙел», «Башҡортостан ҡыҙы», «Шоңҡар» за определенные годы. Публицистические тексты представлены в базе данных с указанием следующих метаразметок: дата, названия издания, ФИО автора текста, жанр, тематика.
Корпус фольклора объемом в 855876 словоупотреблений включает тексты 135 эпосов (с вариантами), 383 сказок, 10907 пословиц, 1290 поговорок, 985 примет и многое другое.
Все корпусы позволяют создавать подкорпусы по метаразметкам, получать частотные словари словоформ и лексем по этим подкорпусам.
В 2017–2021 годах сотрудники лаборатории были заняты выполнением государственной темы «Создание корпуса диалектных текстов башкирского языка». Над темой работали кандидаты филологических наук З.А.Сиразитдинов, Л.А.Бускунбаева, младший научный сотрудник А.Ш.Ишмухаметова, аспирант Г.Г.Шамсутдинова. По данной теме были собраны 765 полевых аудиозаписей от носителей кызыльского, учалинского и айского говоров.
Каждая аудиозапись сопровождается экстралингвистической информацией, включающей данные об информанте: имя, отчество, фамилия, гендерные характеристики, образование, возраст, язык обучения, язык общения в семье, национальность информанта, место проживания, место последнего проживания до переезда в данное место (в случае переезда), время проживания до переезда, время записи.
Тексты транскрипций представлены в текстологической базе диалектологического подфонда МФБЯ (http://mfbl2.ru/mfbl/bashdial).
Разработанные информационные системы башкирского языка являются инструментом для новых лингвистических исследований. Центральным объектом в языке является слово, никаким другим образом изучать язык, кроме как поиском его значения в словарях, просмотром грамматических парадигм употребления в текстах, невозможно. При традиционном подходе (дофондовом периоде) языковеды тратили много времени на поиск источников (словари, справочники, тексты книг) и на выписку нужных материалов (слова, значения, примеры). На это уходило много времени и сил. В Машинном фонде такая задача решается за секунды. Например, языковеда интересует происхождение формантов -ғазы/-гәзе в топонимах Башкортостана (Ауырғазы, Көйөргәзе и т.д.). Раньше для этого надо было найти словари, затем постранично листать и выписывать примеры. Фонд сразу же выдает более 30 топонимов с данным формантом.
При составлении новых словарей самым трудоемким является поиск примеров употребления лексикографической единицы в литературных источниках. По некоторым оценкам, для составления словаря в 30–40 тысяч слов необходима картотека в 10 миллионов цитат. Подготовка этого полуфабриката – длительный процесс. Когда же исходный продукт (текст) и конечный (картотека) находятся в машине, то скорость убыстряется. У исследователя остается время на творческое действие: составление текстов самих словарных статей. Именно благодаря информационным системам коллективу лексикографов ИИЯЛ удалось за 10 лет подготовить и издать десятитомный «Академический словарь башкирского языка». Для сравнения отметим, что для составления двухтомного толкового словаря башкирского языка понадобилось более 25 лет.
Фонд также является инструментом для лингводидактических целей. В частности, при подготовке иллюстраций морфологических или семантических примеров в учебниках. В плане лингводидактики, Министерство образования и науки РБ активно пропагандирует Машинный фонд среди учителей башкирского языка.
Информационная система вносит вклад и в обучение представителей этноса, живущих за пределами республики, которые испытывают трудности в самих печатных материалах. К фонду обращаются из Оренбургской, Пермской, Челябинской, Свердловской, Саратовской и других областей, из Казани, Санкт-Петербурга, Владивостока. Это показывает, что МФБЯ становится не только инструментом сугубо научного и образовательного значения, но и своего рода площадкой духовного сплочения этноса, каковыми являются все информационные порталы гуманитарного направления. А обращения из стран ближнего и дальнего зарубежья (Норвегия, Польша, Франция, Украина, Казахстан, Литва и т.д.) напрямую указывают, что фонд становится средством активной пропаганды и ознакомления мировой цивилизации с башкирским языком.
За годы существования лаборатория активно вела и научную работу в области башкирского языка и информационных технологий. З.А.Сиразитдиновым была разработана формальная грамматика словоизменительной системы башкирского языка, в которой проведено теоретическое обобщение работ лаборатории в процессе создания системы автоматической проверки орфографии башкирского языка для программ Лексикон и FineReader [5]. Л.А.Бускунбаевой были исследованы компрессионные единицы башкирской разговорной речи, где языковая экономия выражена наиболее полно [6]. В дальнейшем ею была успешно защищена кандидатская диссертация по данной проблеме. Работы сотрудников по созданию лингвистических информационных систем были обобщены в коллективной монографии [7]. Развивалось и сотрудничество с профильными лабораториями, отделами и институтами не только России, но и зарубежными. Так, сотрудничество с отделом прикладной лингвистики Института языкознания им. А.Байтурсынова и кафедрой кыргызского языка Кыргызского государственного университета им. К.Карасаева по проблемам авто­матического анализа тюркской словоформы завершилось изданием совместной монографии [8], получившей положительный отзыв в научном сообществе.
Международным признанием научной деятельности лаборатории явились II Международная научная конференция «Электронная письменность народов Российской Федерации» (Уфа, 11–12 декабря 2019 г.) и VIII Международная конференция по компьютерной обработке тюркских языков «Turklang–2020» (Уфа, 18–20 октября, 2020 г.), проведенные сотрудниками в ИИЯЛ по резолюции предыдущих конференций.
Следует отметить, что сотрудники лаборатории не ограничивались только своей темой, они принимали активное участие в коллективных филологических разработках института. Так, З.А.Сиразитдинов участвовал в составлении двухтомного русско-башкирского словаря, толкового словаря современного башкирского литературного языка, терминологических словарей, словарей-справочников, учебных словарей. Л.А.Бускунбаева была соавтором ряда томов десятитомного академического словаря башкирского языка.


Диалектология в ИИЯЛ

Башкирская диалектология всегда занимала центральное место в научной деятельности Института истории, языка и литературы. Исходным моментом в изучении башкирской диалектологии принято считать исследования говоров в 20–30-х годах XX века. Экспедиции, организованные с участием Г.С.Амантаева, Т.Г.Баишева, Г.Д.Давлетшина, З.Ш.Шакирова, Н.Х.Ишбулатова и других, позволили выявить основные границы и черты говоров и диалектов языка.
С начала 1950-х годов башкирская диалектология приступила к системному изучению фонетики, морфологии, лексики говоров. Появление монографических трудов, в особенности Т.Г.Баишева [9], вывело башкирскую диалектологичес­кую науку на всесоюзную тюркологическую арену.
С 1960 года началось систематическое изучение диалектов с помощью программы «Анкета для собирания материалов по говорам башкирского языка», предусматривающей единообразный сбор диалектного материала. Полевые материалы, собранные во время экспедиций 1960–70-х годов, заложили начало диалектной лексикографии. Выход в свет трехтомного словаря говоров явился значительным событием в башкирском языкознании. Материалы опросников экспедиций 1960–70-х годов были изучены в сравнительно-сопоставительном аспекте и легли в основу диссертационных и монографических работ [10–13].
В 1973 году начался сбор материалов для диалектологического атласа башкирского языка, который был издан в 2005 году. В 1991 году вышла фундаментальная монография С.Ф.Миржановой по северо-западному диалекту башкирского языка [14].
В последние годы кандидатами филологических наук Л.К.Ишкиль­диной и М.Р.Валиевой в научных работах были затронуты отдельные проблемы диалектной фонетики и лексики в говорах башкирского языка. Л.К.Ишкильдина на основе экспериментального изучения раскрыла некоторые аспекты артикуляторных особенностей согласных и гласных звуков диалектной системы башкирского языка [15]. М.Р.Валиевой выявлены древнейшие признаки булгарского языка в говорах, проведено сравнительно-историческое исследование башкирского и булгарского языков [16].
Но в целом с 1990-х годов по настоящее время фронтальные научные исследования башкирских говоров и диалектов в ИИЯЛ не велись. Количество экспедиций с единой программой сбора самих материалов резко уменьшилось. Полевые материалы с охватом широкого круга информаторов по половозрастным и другим социальным группам отсутствуют. Материалы прежних экспедиций не были оцифрованы, большая часть их утрачена. Да и сам отдел диалектологии в институте уже не существует более 30 лет.
За эти годы в говорах и диалектах, несомненно, произошли сдвиги и изменения, которые требуют фиксации и научного анализа. Современная лингвистика выдвигает также и новые подходы к исследованию говоров: максимально полный охват носителей говоров (населенных пунктов), рассмотрение частных диалектных систем как элементы общей системы национального языка, учет в одном говоре разных вариантов одного и того же звена языковой системы, корпусные подходы, статистический анализ материалов и др.


Научные планы отдела

Учитывая сложившуюся ситуацию, было решено возродить диалектологические исследования на базе нашей лаборатории, поскольку именно в нашем подразделении имелся определенный опыт работы с материалами говоров, велись научные изыскания, имеющие отношение к диалектологии башкирского языка. Сегодня в отделе трудятся кандидаты филологических наук З.А.Сиразитдинов, Л.А.Бускунбаева, Л.К.Ишкильдина, М.Р.Валиева, научный сотрудник Р.Н.Каримова, младшие научные сотрудники А.Ш.Ишмухаметова и Г.Г.Шамсутдинова. Они работают над двумя зарегистрированными в ЕГИСУ НИОКТР (Единая государственная информационная система учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) научными темами: «Развитие и лексико-грамматическое исследование корпуса письменных памятников башкирского языка», «Создание лингвистических баз данных и изучение состояния караидельского и таныпского говоров северо-западного диалекта башкирского языка».
По первой теме планируется создание корпуса текстов газет южных районов Республики Башкортостан, лексика и синтаксис которых очень близки к живому разговорному языку, отражают особенности местных говоров. Создание такого корпуса внесет вклад в развитие и обогащение литературного языка.
По теме «Создание лингвистических баз данных и изучение состояния караидельского и таныпского говоров северо-западного диалекта башкирского языка» планируется сбор новых и обработка старых архивных полевых материалов по говорам башкирского языка.
Научная деятельность отдела в области башкирской диалектологии направлена на возобновление исследований говоров в русле вышеуказанных подходов.
Основой для таких исследований должны стать геоинформационная система и корпус аудиоматериалов носителей говоров. Для этого планируются экспедиции в районы для широкого охвата всех населенных пунктов с привлечением волонтеров. Создание диалектологических информационных систем должно охватывать максимальное количество населенных пунктов, где проживают носители говоров. Работа в этом направлении сотрудниками отдела уже начата.


Литература

1. Сиразитдинов З.А. Частотный словарь языка произведений Даута Юлтыя. – Уфа, 1995. – 292 с. (на баш. яз.).
2. Сиразитдинов З.А. Частотный словарь башкирского языка. Т.1 (нау­ка). – Уфа: Гилем, 1997. – 330 с. (на баш. яз.).
3. Сиразитдинов З.А., Шамсут­динова Г.Г. Частотный словарь баш­кирского языка. Т.3 (публицистика). – Уфа: Гилем, 2006. – 384 с. (на баш. яз.).
4. Сиразитдинов З.А. Частотный словарь башкирского языка. Т.2 (проза). – Уфа: Гилем, 2002. – 413 с. (на баш. яз.).
5. Сиразитдинов З.А. Модели­рование грамматики башкирского языка. Словоизменительная система. – Уфа: Гилем, 2006. – 160 с.
6. Бускунбаева Л.А. Закономерности речевой экономии и их отражение в башкирском языке. – Уфа: Гилем, 2008. – 139 с.
7. Сиразитдинов З.А., Бускунбаева Л.А., Ишмухаметова А.Ш., Ибра­гимова А.Д. Информационные сис­темы и базы данных башкирского языка. – Уфа: Книжная палата РБ, 2013. – 116 с.
8. Жубанов А.Х., Садыков Т.С., Си­разитдинов З.А. Синтез тюркской словоформы. – Алматы: Лингво­страноведческий инновационный
центр КИЕ., 2019. – 248 с.
9. Баишев Т.Г. Башкирские диалек­ты в их отношении к литературному
языку. – М.: МГУ, 1955. – 121 с.
10. Максютова Н.Х. Восточный диалект башкирского языка в сравни­тельно-историческом освещении. – М.: Наука, 1976, – 293 с.
11. Надергулов У.Ф. Говор башкир Саратовской и Куйбышевской облас­тей. Автореф. дисс. … канд. филол. наук. – Алма-Ата, 1979. – 28 с.
12. Миржанова С.Ф. Южный диа­лект башкирского языка. – М.: Наука, 1979. – 272 с.
13. Дильмухаметов М.И. Говор среднеуральских башкир. Автореф. дисс. … канд. филол. наук. – Уфа, 1980. – 27 с.
14. Миржанова С.Ф. Северо-за­падный диалект башкирского языка. –Уфа, 1991. – 295 с.
15. Ишкильдина Л.К., Уртегешев Н.С., Хисамитдинова Ф.Г. Атлас артикуляторных настроек гласных башкирского языка. – Уфа: ИИЯЛ УФИЦ РАН, 2021. – 298 с.
16. Валиева М.Р. Проблема бул­гарского влияния на развитие баш­кирского языка. Автореф. дисс. … канд. филол. наук. – Уфа, 2016. – 23 с.

Сотрудники лаборатории лингвистики и информационных технологий: А.Д.Ибрагимова, А.Ш.Ишмухаметова, Л.А.Бускунбаева, З.А.Сиразитдинов. 2003 г.
Коробочное исполнение локализованных продуктов
Вид интерфейса лексикографического подфонда
Вид интерфейса терминологической  базы данных башкирского языка
Выдача текстов транскрипций  по кызыльскому говору
Научные труды сотрудников отдела
Сборники научных конференций,  проведенных сотрудниками отдела
Сотрудники отдела прикладной лингвистики и диалектологии (слева направо: М.Р.Валиева, Г.Г.Шамсутдинова, З.А.Сиразитдинов, Р.Н.Каримова, Л.А.Бускунбаева, А.Ш.Ишмухаметова, Л.К.Ишкильдина), 2022 г.
Сотрудники лаборатории лингвистики и информационных технологий: А.Д.Ибрагимова, А.Ш.Ишмухаметова, Л.А.Бускунбаева, З.А.Сиразитдинов. 2003 г.
Автор:Зиннур СИРАЗИТДИНОВ, кандидат филологических наук, заведующий отделом прикладной лингвистики и диалектологии ИИЯЛ УФИЦ РАН
Читайте нас в