Litera - рубрика Aвтоматическая обработка языка
по
Litera
12+
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редакционный совет > Редакция > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Журнал "Litera" > Рубрика "Aвтоматическая обработка языка"
Aвтоматическая обработка языка
Жикулина К.П. - Алисины сказки: трансформация структуры, сказочных формул и контекстов у голосового помощника в навыке «Давай придумаем» c. 45-64

DOI:
10.25136/2409-8698.2024.2.69760

EDN: AQYOMS

Аннотация: Предметом исследования является спонтанно генерируемый текст голосовым помощником Алиса при создании сказки вместе с пользователем, а объектом – трансформации структуры, сказочных формул и контекста в условиях подбора языковых элементов и смыслов с помощью технологии искусственного интеллекта. Особое внимание уделяется навыку «Давай придумаем», который стал доступен для пользователей весной 2023 года. Также отдельно рассматривается пространственно-временной континуум, который создаётся системой с самого начала создания сказки – в разделе «Команда», где пользователю предлагают выбрать героев из разных эпох, культур и вселенных (литературных, медиа). Столкновение и взаимодействие фольклорных канонов с реалиями XXI века порождают неоднозначную реакцию на интерактивную возможность побывать в роли сказителя вместе с голосовым помощником.  Основным методом исследования выступила сплошная выборка, которая использовалась для распределения шагов, этапов и действий при создании сказочного сюжета. Помимо этого использовались сравнительно-сопоставительный метод и контекстуальный анализ. Для получения данных и последующего анализа составляющих был проведён и описан лингвистический эксперимент с голосовой колонкой Алиса от компании Яндекс. Стремительное развитие нейросетевых языковых моделей позволяет нам говорить о научной новизне исследуемого материала, так как данная сфера является неизученной и слишком быстро модифицируется. Важно подчеркнуть, что до настоящего времени тексты спонтанно генерируемых сказок, их структурное членение и соответствие сказочных формул в них фольклорным канонами не были изучены. Основным выводом проведённого исследования можно обозначить то, что доля участия пользователя при создании сказки с голосовым помощником Алиса сильно преувеличена. Трансформации в сказочных формулах типа зачин и концовка – не обнаружены. Создание присказки невозможно, если следовать алгоритму сборки, заложенному в голосовом помощнике. Самая большая доля перестраивания в спонтанно генерируемом тексте приходится на логику повествования, искажение контекста и локализацию.
Зарипова Д.А., Лукашевич Н.В. - Автоматизированное создание семантически размеченного корпуса словосочетаний c. 113-125

DOI:
10.25136/2409-8698.2023.11.44007

EDN: QRBQOI

Аннотация: Задача автоматического разрешения многозначности является первым и ключевым этапом семантического анализа текста. Она заключается в выборе одного из значений многозначного слова в контексте и вызывает затруднения даже у людей-аннотаторов. Для обучения и тестирования моделей на основе машинного обучения, которые демонстрируют самые высокие показатели качества, необходимы большие объёмы данных с семантической разметкой. Ручная разметка по значениям оказывается трудоёмкой, дорогой и занимает много времени. Поэтому важно разрабатывать и тестировать подходы к автоматической и полуавтоматической семантической разметке. Среди возможных источников информации для такой разметки семантически родственные слова, а также коллокации, в которые входит слово. Предметом настоящего исследования являются корпуса коллокаций с семантической разметкой. Целью работы является разработка и тестирование подхода к автоматическому порождению таких корпусов на основе информации о родственных словах из тезауруса. Основным методом данного исследования является корпусный, также в рамках исследования был проведён ряд экспериментов с помощью языка программирования Python. В статье описывается процесс автоматического создания корпуса коллокаций с семантической разметкой на материале русского языка. Для разрешения многозначности слов в пределах коллокаций используются родственные слова с опорой на тезаурус RuWordNet. Этот же тезаурус выступает источником инвентарей значений. Родственные слова из тезауруса голосуют за то или иное значение слова, затем их голоса взвешиваются с помощью разных методов. Описанные методы позволяют достичь F1-меры 80% и добавить порядка 23% коллокаций с неснятой многозначностью в корпус. Семантически размеченные корпуса коллокаций, созданные в автоматическом режиме, позволят упростить подготовку размеченных данных для обучения и оценки моделей автоматического разрешения многозначности, а также могут использоваться как источник знаний в моделях на основе знаний. Таким образом, создание размеченных корпусов коллокаций в автоматическом режиме, в том числе для русского языка, представляется перспективным направлением исследований.
Голиков А.А., Акимов Д.А., Романовский М.С., Тращенков С.В. - Аспекты создания корпоративной вопросно-ответной системы с использованием генеративных предобученных языковых моделей c. 190-205

DOI:
10.25136/2409-8698.2023.12.69353

EDN: FSTHRW

Аннотация: В статье описаны различные способы использования генеративных предобученных языковых моделей для построения корпоративной вопросно-ответной системы. Существенным ограничением текущих генеративных предобученных языковых моделей является лимит по числу входных токенов, не позволяющий им работать «из коробки» с большим количеством документов или с документом большого размера. Для преодоления данного ограничения в работе рассмотрена индексация документов с последующим поисковым запросом и генерацией ответа на базе двух наиболее популярных на текущий момент open source решений – фреймворков Haystack, LlamaIndex. Было показано, что применение open source фреймворка Haystack при лучших настройках позволяет получить более точные ответы при построении корпоративной вопросно-ответной системы по сравнению с open source фреймворком LlamaIndex, однако требует использования в среднем несколько бо́льшего числа токенов. В статье использовался сравнительный анализ для оценки эффективности использования генеративных предобученных языковых моделей в корпоративных вопросно-ответных системах с помощью фреймворков Haystack и Llamaindex. Оценка полученных результатов осуществлялась с использованием метрики EM (exact match). Основными выводами проведенного исследования по созданию вопросно-ответных систем с использованием генеративных предобученных языковых моделей являются: 1. Использование иерархической индексации на текущий момент чрезвычайно затратно с точки зрения числа используемых токенов (около 160000 токенов для иерархической индексации против 30000 токенов в среднем для последовательной индексации), поскольку ответ генерируется путем последовательной обработки родительских и дочерних узлов. 2. Обработка информации при помощи фреймворка Haystack при лучших настройках позволяет получить несколько бо́льшую точность ответов, чем использование фреймворка LlamaIndex (0.7 против 0.67 при лучших настройках). 3. Использование фреймворка Haystack более инвариантно относительно точности ответов с точки зрения количества токенов в чанке. 4. В среднем использование фреймворка Haystack более затратно по числу токенов (примерно в 4 раза), чем фреймворка LlamaIndex. 5. Режимы генерации ответа «create and refine» и «tree summarize» для фреймворка LlamaIndex являются примерно одинаковыми с точки зрения точности получаемых ответов, однако для режима «tree summarize» требуется больше токенов.
Жикулина К.П. - Siri и навык кодирования личностных смыслов в контексте английского речевого этикета c. 338-351

DOI:
10.25136/2409-8698.2023.12.69345

EDN: KZVBFU

Аннотация: Предметом исследования является содержание личностных смыслов в вопросах или вопросах-приветствиях в контексте английских формул общения. Объект исследования – способность голосового помощника Siri к имитации спонтанного диалога с человеком и адаптация искусственного интеллекта к естественной речи. Цель исследования – выявление особенностей и уровня языковых навыков Siri в процессе коммуникации с пользователями на английском языке. Подробно рассматриваются такие аспекты темы, как проблема понимания, существующая в двух типах коммуникации: 1) между человеком и человеком; 2) между машиной и человеком; использование искусственным интеллектом устойчивых формул общения в ответах по теме «Как дела?»; определение уровня и речетворческого потенциала в ответных репликах голосового помощника. В работе использовались следующие методы: описательный, сравнительно-сопоставительный, контекстуальный, сплошная выборка и лингвистический эксперимент. Научной новизной является то, что проблемы, связанные с пониманием личностных смыслов у голосового помощника Siri, никогда подробно не исследовались в филологии и лингвистике. В связи с широким распространением и использованием голосовых систем в разных сферах социальной и общественной жизни возникает необходимость анализа ошибок в речи и описания коммуникативных неудач в диалогах между голосовыми помощниками и пользователями. Полученные материалы позволят определить роль и место искусственного интеллекта в XXI веке и сделать прогнозы о его дальнейшем языковом развитии. Основными выводами проведённого исследования являются: 1) машина не способна генерировать ответы, опираясь на опыт прошлых впечатлений; 2) отклонения от норм английского речевого этикета в ответных репликах Siri незначительные, но часто приводят к коммуникативным неудачам; 3) в ответных репликах обнаружено одностороннее кодирование личностного смысла: от машины к человеку, но не наоборот.
Майкова Т.А. - К вопросу о применимости концепции единица перевода к машинному переводу c. 352-360

DOI:
10.25136/2409-8698.2023.12.69470

EDN: LAWSMV

Аннотация: В статье рассматривается вопрос о применимости теоретической концепции единица перевода к машинному переводу в свете современных взглядов на это понятие и влиянии размеров вычленяемой единицы на качество перевода. При том, что современные системы машинного перевода предлагают приемлемый уровень качества, ряд проблем, в основном связанных со структурной организацией текста, остаются нерешенными. Соответственно, целью представленной работы является изучение существующих систем машинного перевода в свете применимости концепции единица перевода и в свете определения ее границ. В статью включено рассмотрение современных прочтений теоретико-переводческого понятия единица перевода и способов вычленения единиц перевода. Особое внимание уделяется вопросу, меняется ли содержание понятия единица перевода в зависимости от того, является ли объектом исследования конечный текст или процесс перевода. Затрагивается вопрос о способах исследования, принятых в текст-ориентированных и процесс-ориентированных подходах, таких как сравнительный анализ языковых пар и TAP-протокол.  На основе обзора существующих моделей машинного перевода, проводится анализ каждой из них для ответа на вопрос, может ли единица перевода быть определена для данной системы и каковы ее размеры. Делается вывод о том, что единица перевода может рассматриваться как единица анализа или единица обработки в рамках текст-ориентированного и процесс-ориентированного подходов к изучению перевода. Единица перевода имеет динамический характер и влияет на качество переводного текста. В рамках машинного перевода единица перевода как единица анализа неприменима для систем, основанных на вероятностных нелингвистических методах. Для систем машинного перевода, основанного на правилах, применимы оба прочтения понятия единица перевода. В таких системах понятие единица анализа относится к типам фрагментов исходного текста, которые могут быть идентифицированы системой, а единица обработки – к тому, как алгоритм перевода воздействует на проанализированный исходный текст для создания текста перевода, при этом вычленяемые единицы не выходят за пределы отдельного предложения. Соответственно, по крайней мере один тип переводческих проблем – разрешение внутритекстовых связей – не находит решения на данном этапе развития машинного перевода.
Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.