Litera - рубрика Aвтоматическая обработка языка


	Litera 12+


	Меню журнала > Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редакционный совет > Редакция > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат


	Журналы индексируются


	Реквизиты журнала

ГЛАВНАЯ > Журнал "Litera" > Рубрика "Aвтоматическая обработка языка"

Aвтоматическая обработка языка

Жикулина К.П. - Алисины сказки: трансформация структуры, сказочных формул и контекстов у голосового помощника в навыке «Давай придумаем»

c. 45-64

DOI: 10.25136/2409-8698.2024.2.69760

EDN: AQYOMS

Аннотация: Предметом исследования является спонтанно генерируемый текст голосовым помощником Алиса при создании сказки вместе с пользователем, а объектом – трансформации структуры, сказочных формул и контекста в условиях подбора языковых элементов и смыслов с помощью технологии искусственного интеллекта. Особое внимание уделяется навыку «Давай придумаем», который стал доступен для пользователей весной 2023 года. Также отдельно рассматривается пространственно-временной континуум, который создаётся системой с самого начала создания сказки – в разделе «Команда», где пользователю предлагают выбрать героев из разных эпох, культур и вселенных (литературных, медиа). Столкновение и взаимодействие фольклорных канонов с реалиями XXI века порождают неоднозначную реакцию на интерактивную возможность побывать в роли сказителя вместе с голосовым помощником. Основным методом исследования выступила сплошная выборка, которая использовалась для распределения шагов, этапов и действий при создании сказочного сюжета. Помимо этого использовались сравнительно-сопоставительный метод и контекстуальный анализ. Для получения данных и последующего анализа составляющих был проведён и описан лингвистический эксперимент с голосовой колонкой Алиса от компании Яндекс. Стремительное развитие нейросетевых языковых моделей позволяет нам говорить о научной новизне исследуемого материала, так как данная сфера является неизученной и слишком быстро модифицируется. Важно подчеркнуть, что до настоящего времени тексты спонтанно генерируемых сказок, их структурное членение и соответствие сказочных формул в них фольклорным канонами не были изучены. Основным выводом проведённого исследования можно обозначить то, что доля участия пользователя при создании сказки с голосовым помощником Алиса сильно преувеличена. Трансформации в сказочных формулах типа зачин и концовка – не обнаружены. Создание присказки невозможно, если следовать алгоритму сборки, заложенному в голосовом помощнике. Самая большая доля перестраивания в спонтанно генерируемом тексте приходится на логику повествования, искажение контекста и локализацию.

Голиков А.А., Акимов Д.А., Данилова Ю.Ю. - Оптимизация традиционных методов определения сходства наименований проектов и закупок с использованием больших языковых моделей

c. 109-121

DOI: 10.25136/2409-8698.2024.4.70455

EDN: FRZANS

Аннотация: Предметом исследования является анализ и совершенствование методов определения релевантности наименований проектов к информационному содержанию закупок с использованием больших языковых моделей. Объектом исследования служит база данных, содержащая наименования проектов и закупок в сфере электроэнергетики, собранная из открытых источников. Автор подробно рассматривает такие аспекты темы, как применение метрик TF-IDF и косинусного сходства для первичной фильтрации данных, а также детально описывает интеграцию и оценку эффективности больших языковых моделей, таких как GigaChat, GPT-3.5, и GPT-4 в задачах сопоставления текстовых данных. Особое внимание уделяется методикам уточнения сходства наименований на основе рефлексии, введенной в промпты больших языковых моделей, что позволяет повысить точность сопоставления данных. В исследовании использованы методы TF-IDF и косинусного сходства для первичного анализа данных, а также большие языковые модели GigaChat, GPT-3.5 и GPT-4 для детальной проверки релевантности наименований проектов и закупок, включая рефлексию в промптах моделей для улучшения точности результатов. Новизна исследования заключается в разработке комбинированного подхода к определению релевантности наименований проектов и закупок, сочетающего традиционные методы обработки текстовой информации (TF-IDF, косинусное сходство) с возможностями больших языковых моделей. Особым вкладом автора в исследование темы является предложенная методика повышения точности сопоставления данных за счет уточнения результатов первичного отбора с помощью моделей GPT-3.5 и GPT-4 с оптимизированными промптами, включающими рефлексию. Основными выводами проведенного исследования являются подтверждение перспективности применения разработанного подхода в задачах информационной поддержки процессов закупок и реализации проектов, а также возможность использования полученных результатов для развития систем интеллектуального анализа текстовых данных в различных отраслях экономики. Исследование показало, что использование языковых моделей позволяет улучшить значение F2-меры до 0,65, что свидетельствует о значительном повышении качества сопоставления данных по сравнению с базовыми методами.

Зарипова Д.А., Лукашевич Н.В. - Автоматизированное создание семантически размеченного корпуса словосочетаний

c. 113-125

DOI: 10.25136/2409-8698.2023.11.44007

EDN: QRBQOI

Аннотация: Задача автоматического разрешения многозначности является первым и ключевым этапом семантического анализа текста. Она заключается в выборе одного из значений многозначного слова в контексте и вызывает затруднения даже у людей-аннотаторов. Для обучения и тестирования моделей на основе машинного обучения, которые демонстрируют самые высокие показатели качества, необходимы большие объёмы данных с семантической разметкой. Ручная разметка по значениям оказывается трудоёмкой, дорогой и занимает много времени. Поэтому важно разрабатывать и тестировать подходы к автоматической и полуавтоматической семантической разметке. Среди возможных источников информации для такой разметки семантически родственные слова, а также коллокации, в которые входит слово. Предметом настоящего исследования являются корпуса коллокаций с семантической разметкой. Целью работы является разработка и тестирование подхода к автоматическому порождению таких корпусов на основе информации о родственных словах из тезауруса. Основным методом данного исследования является корпусный, также в рамках исследования был проведён ряд экспериментов с помощью языка программирования Python. В статье описывается процесс автоматического создания корпуса коллокаций с семантической разметкой на материале русского языка. Для разрешения многозначности слов в пределах коллокаций используются родственные слова с опорой на тезаурус RuWordNet. Этот же тезаурус выступает источником инвентарей значений. Родственные слова из тезауруса голосуют за то или иное значение слова, затем их голоса взвешиваются с помощью разных методов. Описанные методы позволяют достичь F1-меры 80% и добавить порядка 23% коллокаций с неснятой многозначностью в корпус. Семантически размеченные корпуса коллокаций, созданные в автоматическом режиме, позволят упростить подготовку размеченных данных для обучения и оценки моделей автоматического разрешения многозначности, а также могут использоваться как источник знаний в моделях на основе знаний. Таким образом, создание размеченных корпусов коллокаций в автоматическом режиме, в том числе для русского языка, представляется перспективным направлением исследований.

Лемаев В.И., Лукашевич Н.В. - Автоматическая классификация эмоций в речи: методы и данные

c. 159-173

DOI: 10.25136/2409-8698.2024.4.70472

EDN: WOBSMN

Аннотация: Предметом настоящего исследования являются данные и методы, применяемые в задаче автоматического распознавания эмоций в разговорной речи. Данная задача приобрела в последнее время большую популярность, в первую очередь благодаря появлению больших датасетов размеченных данных и развитию моделей машинного обучения. Классификация речевых высказываний обычно осуществляется на основе 6 архетипических эмоций: гнева, страха, удивления, радости, отвращения и грусти. Большинство современных методов классификации основано на машинном обучении и модели трансформера с использованием подхода самообучения, в частности, такие модели, как Wav2vec 2.0, HuBERT и WavLM, которые рассмотрены в данной работе. В качестве данных анализируются размеченные английские и русские датасеты эмоциональной речи, в частности, датасеты Dusha и RESD. В качестве метода был проведён эксперимент в виде сравнения работы моделей Wav2vec 2.0, HuBERT и WavLM на относительно недавно собранных русских датасетах эмоциональной речи Dusha и RESD. Основной целью работы выступает анализ доступности и применимости имеющихся данных и подходов распознавания эмоций в речи для русского языка, исследований для которого до этого момента было проведено сравнительно мало. В рамках проведённого эксперимента были получены хорошие результаты качества классификации эмоции на русских датасетах Dusha и RESD. Наилучший результат продемонстрировала модель WavLM на датасете Dusha - 0.8782 по метрике Accuracy. На датасете RESD лучший результат тоже получила модель WavLM, при этом для неё было проведено предварительное обучение на датасете Dusha - 0.81 по метрике Accuracy. Высокие результаты классификации, в первую очередь за счёт качества и объёма собранного датасета Dusha, готворят о перспективности дальнейшего развития данной области для русского языка.

Голиков А.А., Акимов Д.А., Романовский М.С., Тращенков С.В. - Аспекты создания корпоративной вопросно-ответной системы с использованием генеративных предобученных языковых моделей

c. 190-205

DOI: 10.25136/2409-8698.2023.12.69353

EDN: FSTHRW

Аннотация: В статье описаны различные способы использования генеративных предобученных языковых моделей для построения корпоративной вопросно-ответной системы. Существенным ограничением текущих генеративных предобученных языковых моделей является лимит по числу входных токенов, не позволяющий им работать «из коробки» с большим количеством документов или с документом большого размера. Для преодоления данного ограничения в работе рассмотрена индексация документов с последующим поисковым запросом и генерацией ответа на базе двух наиболее популярных на текущий момент open source решений – фреймворков Haystack, LlamaIndex. Было показано, что применение open source фреймворка Haystack при лучших настройках позволяет получить более точные ответы при построении корпоративной вопросно-ответной системы по сравнению с open source фреймворком LlamaIndex, однако требует использования в среднем несколько бо́льшего числа токенов. В статье использовался сравнительный анализ для оценки эффективности использования генеративных предобученных языковых моделей в корпоративных вопросно-ответных системах с помощью фреймворков Haystack и Llamaindex. Оценка полученных результатов осуществлялась с использованием метрики EM (exact match). Основными выводами проведенного исследования по созданию вопросно-ответных систем с использованием генеративных предобученных языковых моделей являются: 1. Использование иерархической индексации на текущий момент чрезвычайно затратно с точки зрения числа используемых токенов (около 160000 токенов для иерархической индексации против 30000 токенов в среднем для последовательной индексации), поскольку ответ генерируется путем последовательной обработки родительских и дочерних узлов. 2. Обработка информации при помощи фреймворка Haystack при лучших настройках позволяет получить несколько бо́льшую точность ответов, чем использование фреймворка LlamaIndex (0.7 против 0.67 при лучших настройках). 3. Использование фреймворка Haystack более инвариантно относительно точности ответов с точки зрения количества токенов в чанке. 4. В среднем использование фреймворка Haystack более затратно по числу токенов (примерно в 4 раза), чем фреймворка LlamaIndex. 5. Режимы генерации ответа «create and refine» и «tree summarize» для фреймворка LlamaIndex являются примерно одинаковыми с точки зрения точности получаемых ответов, однако для режима «tree summarize» требуется больше токенов.

Жикулина К.П. - Siri и навык кодирования личностных смыслов в контексте английского речевого этикета

c. 338-351

DOI: 10.25136/2409-8698.2023.12.69345

EDN: KZVBFU

Аннотация: Предметом исследования является содержание личностных смыслов в вопросах или вопросах-приветствиях в контексте английских формул общения. Объект исследования – способность голосового помощника Siri к имитации спонтанного диалога с человеком и адаптация искусственного интеллекта к естественной речи. Цель исследования – выявление особенностей и уровня языковых навыков Siri в процессе коммуникации с пользователями на английском языке. Подробно рассматриваются такие аспекты темы, как проблема понимания, существующая в двух типах коммуникации: 1) между человеком и человеком; 2) между машиной и человеком; использование искусственным интеллектом устойчивых формул общения в ответах по теме «Как дела?»; определение уровня и речетворческого потенциала в ответных репликах голосового помощника. В работе использовались следующие методы: описательный, сравнительно-сопоставительный, контекстуальный, сплошная выборка и лингвистический эксперимент. Научной новизной является то, что проблемы, связанные с пониманием личностных смыслов у голосового помощника Siri, никогда подробно не исследовались в филологии и лингвистике. В связи с широким распространением и использованием голосовых систем в разных сферах социальной и общественной жизни возникает необходимость анализа ошибок в речи и описания коммуникативных неудач в диалогах между голосовыми помощниками и пользователями. Полученные материалы позволят определить роль и место искусственного интеллекта в XXI веке и сделать прогнозы о его дальнейшем языковом развитии. Основными выводами проведённого исследования являются: 1) машина не способна генерировать ответы, опираясь на опыт прошлых впечатлений; 2) отклонения от норм английского речевого этикета в ответных репликах Siri незначительные, но часто приводят к коммуникативным неудачам; 3) в ответных репликах обнаружено одностороннее кодирование личностного смысла: от машины к человеку, но не наоборот.

Майкова Т.А. - К вопросу о применимости концепции единица перевода к машинному переводу

c. 352-360

DOI: 10.25136/2409-8698.2023.12.69470

EDN: LAWSMV

Аннотация: В статье рассматривается вопрос о применимости теоретической концепции единица перевода к машинному переводу в свете современных взглядов на это понятие и влиянии размеров вычленяемой единицы на качество перевода. При том, что современные системы машинного перевода предлагают приемлемый уровень качества, ряд проблем, в основном связанных со структурной организацией текста, остаются нерешенными. Соответственно, целью представленной работы является изучение существующих систем машинного перевода в свете применимости концепции единица перевода и в свете определения ее границ. В статью включено рассмотрение современных прочтений теоретико-переводческого понятия единица перевода и способов вычленения единиц перевода. Особое внимание уделяется вопросу, меняется ли содержание понятия единица перевода в зависимости от того, является ли объектом исследования конечный текст или процесс перевода. Затрагивается вопрос о способах исследования, принятых в текст-ориентированных и процесс-ориентированных подходах, таких как сравнительный анализ языковых пар и TAP-протокол. На основе обзора существующих моделей машинного перевода, проводится анализ каждой из них для ответа на вопрос, может ли единица перевода быть определена для данной системы и каковы ее размеры. Делается вывод о том, что единица перевода может рассматриваться как единица анализа или единица обработки в рамках текст-ориентированного и процесс-ориентированного подходов к изучению перевода. Единица перевода имеет динамический характер и влияет на качество переводного текста. В рамках машинного перевода единица перевода как единица анализа неприменима для систем, основанных на вероятностных нелингвистических методах. Для систем машинного перевода, основанного на правилах, применимы оба прочтения понятия единица перевода. В таких системах понятие единица анализа относится к типам фрагментов исходного текста, которые могут быть идентифицированы системой, а единица обработки – к тому, как алгоритм перевода воздействует на проанализированный исходный текст для создания текста перевода, при этом вычленяемые единицы не выходят за пределы отдельного предложения. Соответственно, по крайней мере один тип переводческих проблем – разрешение внутритекстовых связей – не находит решения на данном этапе развития машинного перевода.