Способы Автоматического Поиска Терминологии

Опубликованно: 12/04/2013 |Комментарии: 0 | Показы: 51 |

Способы автоматического  поиска  терминологии

Васиев З.С.

(СамГУ, Узбекистан)

            Данный процесс может быть сравнен с машинным переводом на уровне  отдельных терминов. Суть его заключается в том, что в процессе работы  над текстом переводчик имеет возможность видеть варианты перевода для каждого термина, и быстро вставлять нужный перевод в текст на целевом  языке, не рискуя допустить опечатку. Затем идет сегментация текста. Разбиение текста на сегменты является важным подготовительным этапом  для полной или частичной автоматизации перевода. Сегменты должны  по возможности содержать фрагменты текста, грамматически независимые друг от друга. Иными словами,  должна быть обеспечена возможность корректного перевода каждого сегмента независимо от других. Обычно разбиение на сегменты выполняется по знакам пунктуации.

Автоматическая память переводов, или просто память переводов (TRANSLATION MEMORY), подразумевает, в первую очередь, просмотр ранее переведенных текстов. Она сравнивает переводимый в текущий момент текст с тем, что хранится в базе «вспоминает» сегменты, которые изменились незначительно, и предлагает использовать их перевод повторно. Разумеется, критерии сходства сегментов могут быть различны, и они играют очень важную роль в расширении возможностей памяти переводов.

Машинный же  способ перевода заключается в алгоритмической обработке исходного  текста, в ходе которой происходит разбор сегментов, выделяются отдельные термины и отношения между ними, после чего осуществляется замена всех терминов на соответствующие термины целевого языка в нужной форме и взаиморасположении. Машинный перевод (MACHINE TRANSLATION)  применим только в очень узком  контексте и требует значительного постредактирования переведенного текста.

Проверка целостности сегментов, формата и грамматики выполняются по окончании  перевода и имеют своей целью проверить, все ли  сегменты  остались на своих местах, сохранилась ли формирующая информация, и корректен ли  результирующий текст с точки зрения грамматики целевого языка.

Среди перечисленных технологий наибольший интерес представляют терминологические словари и память переводов, поскольку  именно  от их  эффективности зависит скорость и качество перевода. Технология построения терминологических словарей достаточно хорошо проработана и основана на принципах, аналогичных тем, что применяются в обычных двуязычных словарях. Разбиение текста на термины обычно осуществляется по пробелам с дополнительным привлечением некоторого морфологического анализа.

Сложнее обстоит дело с организацией памяти переводов. Наряду с тривиальной задачей поиска языковой пары, включающей сегмент, идентичный заданному, память переводов должна обеспечивать возможность поиска сегментов, похожих на данный по некоторому критерию. Таким образом, центральной проблемой классической памяти переводов является построение анализатора таких «нечетких совпадений» (fuzzymatches), характеристики которого и определяют преимущества и недостатки каждой конкретной мыслительной системы профессионального перевода.

Как следует из вышеизложенного, основой функционирования любой  системы памяти переводов являются ранее переведенные тексты.

Множество этих текстов постоянно пополняется новыми переводами, вследствие чего, процент автоматически переводимых сегментов, постепенно растет. Это означает, что для  наиболее  эффективного использования памяти переводов, все тексты должны содержать достаточное количество похожих фраз. Такое положение вещей имеет место в документации на различного рода продукты. Это обусловлено двумя факторами. Во – первых, документацию принято составлять максимально простым языком, лаконично и в строгих терминах. Во – вторых, с появлением новых версий и модификаций поставляемых потребителям продукта содержание документации меняется лишь в незначительной степени. Память переводов, в подобных случаях, избавляет переводчика от необходимости по  несколько раз переводить идентичные фрагменты текста, входящие в разные документы.

В то же время, использование памяти переводов требует от  переводчика специальной подготовки, а также наличия соответствующего аппаратного и программного обеспечения. Другим негативным фактором является  то, что для обеспечения ожидаемого эффекта все переводы должны  быть сделаны в одной и той же  среде, либо в средах, совместимых по формату представления данных. Наконец, полезный эффект памяти переводов проявляется с заметной отсрочкой во – времени, требуя по  началу дополнительных капиталовложений. Резюмируя вышесказанное, можно выделить три условия применимости рассматриваемой технологии.

v     Большой объем перевода;

v     Однотипность переводимых текстов;

v     Готовность к отсроченному возврату капиталовложений.

Память переводов представляет собой базу данных, хранящую языковые пары, и определенный механизм поиска. Несмотря на то, что различные профессиональные среды перевода, такие как «TRANSLATOR`S WORKBENCH»  фирмы TRADOS,  «TRANSIT» фирмы STAR, «DEJAVU» фирмы ATRIL, имеют, по видимому, различную реализацию этого механизма («по - видимому», поскольку алгоритмы не придаются огласке). Общая идея становится ясной после  изучения примеров. Поэтому с примеров и начнем.

Пусть в исходном тексте встречаются следующие фразы: «Температура регулируется поворотом ручки».

v     Температура регулируется поворотом ручки по часовой стрелке;

v     Напор воды регулируется поворотом ручки по  часовой стрелке.

Если сегментация выполняется по предложениям, то каждая из приведенных фраз попадает в отдельный  сегмент. Пусть первый сегмент был переведен человеком следующим образом: «Температура регулируется ручкой».

Языковая пара, состоящая из исходного и переведенного сегментов, заносится в память переводов. Когда переводчик доходит до второй фразы примера, система определяет сходство и выводит на экран следующую информацию: (Таблица № 2).

Текущий сегмент

Температура регулируется поворотом ручки по часовой стрелке.

Найденный сегмент

Температура регулируется поворотом ручки.

Перевод

Harorat buragich erdamida boshqariladi

Степень сходства

≈ 70 %

После того, как сегмент, соответствующий второй фразе примера помечается как переведенный, в памяти переводов появляется еще одна языковая пара. Тем самым, когда дело доходит до третьей фразы, система уже имеет возможность показать переводчику два похожих варианта: (таблица № 3).

Текущий сегмент

Напор воды  регулируется поворотом ручки по часовой стрелке.

Найденная языковая пара № 1.

Температура регулируется поворотом ручки по часовой стрелке.

Степень сходства

Harorat murvat buralishi  orqali boshqariladi

Текущий сегмент

≈ 65 %

Найденная языковая пара № 2

Напор воды регулируется поворотом ручки по часовой стрелке.

Температура регулируется поворотом ручки.

Степень сходства

Harorat soat mili bo`ylab harakatlanuvchi murvat orqali boshqariladi.

≈ 40 %

Воспользовавшись к примеру, первым  из предложенных вариантов, переводчик быстро расправляется с оставшейся частью фразы. Эффективность работы памяти переводов во многом определяется тем, насколько удачно решены следующие задачи:

v     Сегментация;

v     Обработка специальных символов.

Очевидно, что с увеличением размера сегментов будет  уменьшаться число полных совпадений (и увеличиваться число частных), что сильно повысит ресурсоемкость процедур поиска и потребует от переводчика значительных усилий в изучение представленных ему в качестве вариантов перевода языковых пар. С другой стороны, уменьшение размера сегментов сделает их малопригодными для повторного использования, поскольку сильно возрастает влияние контекста на перевод. Оптимальной единицей сегментации чаще всего оказывается фрагмент предложения, ограниченный знаками препинания. Во избежание ошибочной сегментации по точкам внутри аббревиатур и других подобных случаев используют регулярные выражения и списки исключений.

Вторая проблема обусловлена тем, что в тексте кроме букв зачастую присутствуют иные символы, как то: маркеры внедренных в документ объектов, закладки, перекрестные ссылки, переключатели свойств шрифта. Все эти инородные элементы в ряде случаев могут повлиять на перевод. Например, выделенное курсивом слово может при переводе быть взято в кавычки и попасть в результирующий текст в неизменном виде. Для управления поведением анализатора в таких ситуациях, во многих программных продуктах предусмотренные специальные настройки, в том числе, основанные на применении регулярных выражений.

До тех пор, пока память переводов была  линейной, сегменты неделимыми, а сравнение строгим, решение задачи поиска сводилось к введению отношения строгого лексикографического порядка над множеством сегментов на исходном языке. Иными словами, определялся оператор «меньше», на основе которого можно было осуществить обыкновенный двоичный поиск, и проверку на равенство. С введением оператора «нечеткого совпадения», который позволял  оценить степень сходства для любых двух сегментов, решение проблемы поиска резко усложнилось и, без дополнительных ухищрений с различного рода индексацией, стало эквивалентно задаче полного перебора. Предложенная многоуровневая модель памяти переводов, собственно, и предоставляет некоторый механизм неявной индексации:  каждое входящее в сегмент слово, по сути, идентифицирует некоторое подмножество ориентированного графа памяти переводов, состоящее  из узлов, которые можно достичь, начав  обход от узла, соответствующего выбранному слову.

Используя особенности выбранной структуры памяти переводов, задачу поиска сегментов, похожих на заданный, можно решить путем выполнения следующих действий (рисунок № 4):

v     Разбить заданный  сегмент на слова;

v     Найти в памяти переводов все узлы соответствующие этим словам;

v     Спускаясь на графу отношений наследования, помещать в список  найденных сегментов все встречаемые узлы.

     

Резонным представляется вопрос о том, в каком порядке следует представлять найденные сегменты переводчику: ведь приведенная процедура поиска выберет из памяти все сегменты, пересекающиеся с заданным по крайней мере по одному слову. Каковы правила фильтрации и сортировки найденных сегментов?

Ответ на этот вопрос лежит за пределами выбранного формализма, однако в этом нет ничего страшного. Дело в том, что результат поиска представляет собой классический вариант одноуровневой памяти переводов, анализ которого может быть произведена методами, формализованными в рамках существующих сред перевода. Для обеспечения эффективности поиска целесообразно осуществлять оценку «пригодности» сегментов по мере их нахождения. Например, если некоторый сегмент полностью совпадает с эталоном, то все его потомки в графе могут быть автоматически исключены из поиска.

Теперь поговорим о задаче добавления нового сегмента в память переводов. Очевидным условием корректности процедуры добавления нового сегмента в память переводов является обеспечение успешного поиска. Стало быть, добавляемый сегмент должен иметь в числе своих предков (не обязательно прямых) все составляющие его слова.

Следуя  целям оптимальности, можно заключить, что среди предков должны присутствовать также  узлы  графа, содержащие фрагменты, если в памяти переводов присутствуют сегменты «АВ» и «СD», то сегмент «ABCD» должен стать наследником этих двух сегментов. Аналогично, если в памяти присутствует сегмент «ABCD», то добавляемый сегмент «АВ» должен стать его предком. В общем случае при добавлении сегмента в граф памяти переводов могут существовать альтернативные варианты наследования. В такой ситуации схема добавления заметно усложнится. В любом случае, проблема построения оптимальной иерархии классов решается в рамках объективно – ориентированного подхода, поэтому мы не будем заострять здесь на ней внимание.

Долгое время системы машинного перевода и памяти переводов представляли два конкурирующих направления и никогда не рассматривались вместе кроме как  в противопоставлении. На сегодняшний день взгляды меняются, и хотя фирмы  не придают своим ноу – хау широкой  огласки, заметна  тенденция к современному использованию в некоторых системах обеих технологий. Предлагаемая модель демонстрирует один из  возможных вариантов такой интеграции. Более того,  она представляет собой попытку показать что под машинный перевод и память переводов можно подвести общую основу, и создать такую систему   профессионального перевода, в которой оба  механизма действуют как единое целое.

БИБЛИОГРАФИЯ

  1. Рейтблат А.И. Комментарий в эпоху интернета // Новое литературное обозрение – 2004. - № 66. – с. 82-90.
  2. Сидоров Е.В. Системная модель коммуникации и параметры текста в переводе // лингвистические проблемы перевода. М., 1982.
  3. Флорин С. Муки переводческие. – М., 1983. – с. 21.
  4. Шрейдер Ю.А., Шаров А.А. Систем и модели. М., 1982.
Источник статьи: http://www.rusarticles.com/nauchnye-issledovaniya-statya/sposoby-avtomaticheskogo-poiska-terminologii-6547671.html

Обсудить статью

Два специалиста могут осуществить перевод одного текста посредством одного языка, получив в итоге пару различных текстов.

От: mparteml Образование> Иностранные языкиl 14/07/2010 lПоказы: 48

Вы заказали новое оборудование. Вы получили его. И вместе с ним …– толстую папку инструкций на иностранном языке! Вы отдали текст в бюро переводов. Что происходит с Вашим заказом после того, как Вы положили телефонную трубку, прочитали подтверждение о получении электронного письма или закрыли за собой дверь офиса? Для Вас мы приоткроем дверь переводческого кабинета Бюро переводов "Окей"...

От: ttasl Промышленность> Оборудованиеl 25/01/2009 lПоказы: 74

А.И.Демин,"академик" из бывшей мосгорсправки,в статье "Информация как всеобщее свойство материи" заявляет о сделаном им мировом открытии,способном объяснить все проблемы во всех науках.Предлагаемык им формулировки ни на чем не основаны,и ничем не доказаны.

От: валентинl Духовность> Философияl 13/12/2012 lПоказы: 59

Сейчас, в век информационных технологий, люди ведут дневники в режиме онлайн. Форму онлайн-дневников качественно исполняют блоги. Наверное, всем известно слово «блог». Однако до сих пор далеко не многие понимают его значение и то, какие привилегии даёт обладание собственным Интернет-ресурсом подобного формата.

От: Студия копирайтинга "Буковки"l Интернет> Общение в сетиl 25/10/2010 lПоказы: 328

В статье рассматриваются вопросы выхода из кризиса с точки зрения астропсихологиии. Предлагаемая методика, является синтезом психотерапии и астрологии и позволяет решить свою проблему, гармонизировать свое состояние, обреcти свободу над обстоятельствами своей жизни.

От: Елена Кравченкоl Медицина> Психологияl 31/03/2010 lПоказы: 105

Несмотря на многочисленные нарекания к старой системе государственных стандартов, действовавшей ещё в СССР, строители регулярно напоминают о том, что в своё время она эффективно решала возложенную на неё задачу – позволяла поддерживать порядок в отрасли.

От: MetallProfill Промышленность> Технологииl 23/08/2014
Евгений Чернецов

Кто больше всех плачет по усопшим империям? Именно те, кто их разлагал, практикуя протекционизм, круговую поруку, коррупцию, взяточничество, имитацию бурной деятельности, хищение государственной собственности. Империя умирает, в агонии революции, а консерваторы, которые убили её своим сном, доев её труп справляют по ней поминки. Им жаль себя, ибо к поеданию нового государства, в котором они оказались, они приспособиться не в состоянии...

От: Евгений Чернецовl Общественность> Политикаl 26/12/2013

Перед вами третья часть статьи "Под колпаком". Первые две можно найти тут 1 и тут 2. Ждите четвертую часть через неделю. Хорошего чтения и легких озарений!

От: Виктор Гудзонl Культура> Историяl 13/02/2013 lПоказы: 59

Всякое исполнение состоит из трёх основных элементов: музыки, исполнителя и инструмента, посредством которого воплощается исполнение. Лишь полное владение этими тремя элементами (в первую очередь музыкой) может обеспечить хорошее художественное исполнение.

От: Ксения Мельниковаl Культура> Музыкаl 02/06/2011 lПоказы: 2,873

Проблема интереса к структуре целостной личности занимает одно из важных мест в отечественной психологии и педагогике. Это одна из тех проблем, которую изучали очень интенсивно, но которая во многом продолжает оставаться загадкой.

От: Аленаl Образование> Научные исследованияl 05/07/2013 lПоказы: 113

В данной статье приводится обзор существующих алгоритмах, применяемых в геологии, которые основаны на алгебраической теории информации

От: Борисl Образование> Научные исследованияl 04/07/2013 lПоказы: 94
Alyonka Kostenko

Диссертация, как правило, представляется в виде специально подготовленной рукописи, значительно реже — в виде опубликованной монографии. Вместе с диссертацией соискатель должен подготовить автореферат диссертации (краткое изложение основных результатов диссертационной работы).

От: Alyonka Kostenkol Образование> Научные исследованияl 04/07/2013 lПоказы: 127

Психологические исследования финансовых рынков показывают, как на индивидуальном, групповом и глобальном уровнях продуцируются и активно действуют "фантастические объекты", которые периодически почти полностью подчиняют себе рынки — потребительский, информационный, финансовый и политический.

От: Ira Aleksandrovel Образование> Научные исследованияl 03/07/2013 lПоказы: 95

Как мультфильмы действуют на психику и поведение ребенка?Стоит ли родителям опасаться плохого влияния со стороны телевидения?

От: Evelinal Образование> Научные исследованияl 27/06/2013 lПоказы: 539
Alyonka Kostenko

Трудные моменты обучения в аспирантуре. Полезные ссылки и советы аспирантам и соискателям.

От: Alyonka Kostenkol Образование> Научные исследованияl 26/06/2013 lПоказы: 94

В данной статье рассматриваются структурные особенности современной промышленности. А так же, исходя из анализа отраслей промышленного производства, выявляются факторы, влияющие на их размещение.

От: Katerinal Образование> Научные исследованияl 10/06/2013 lПоказы: 499

Многие специалисты убеждены, что прогресс, достигнутый молодым объединением государств БРИКС уже на начальном этапе своего существования, а главное – динамика и перспективы его развития убедительно свидетельствуют: БРИКС – глобальный форум, который будет во всё большей мере определять вектор мирового развития в XXI веке.

От: Геннадий Кушниковl Образование> Научные исследованияl 09/06/2013 lПоказы: 674

Корпусом материала нашего исследования послужили чтение и перевод восьмидесяти статей узбекских электронных изданий, было выбрано 200 фразеологических единиц.

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 190

«Каждое художественное произведение – по словам Ю. Тынянова, - ставит в иерархический ряд равные предметы, а разные предметы заключают в равный ряд. Каждая конструкция перегруппировывает мир»

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 219

В далеком 1984 году участник дискуссии «Арифметика и алгебра перевода» в «Литературой газете» Андрей Мальгин обнаружил феномен «обратной связи» - влияния переводимых поэтов на «оригинальное творчество мастера», их переводившего.

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 59

Трактовка «таланта» как антипода «точности» в современных спорах о переводческом искусстве имеет, на наш взгляд, как чисто практическую подоплеку, так и глубинные объективные основания, которые, к сожалению, как раз крайне редко становятся предметом аналитического осмысления.

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 39

Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины – механического прототипа электронных, цифровых вычислительных машин, появившихся через 100 лет.

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 55

Первый опыт создания программа машинного перевода показал, что необходимо решать эти задачи постепенно и по частям. Слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 58

Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

От: zokirl Образование> Научные исследованияl 12/04/2013 lПоказы: 646
Блок автора
Категории статей
Quantcast