Аннотация.
Смысловое кодирование основано на дополнении многозначных слов и словосочетаний элементами словарных статей, заимствуемых автором в опорном толковом словаре исходного (родного) языка. Универсальность состоит в том, что машинные переводы на другие языки осуществляют с использованием словарей, согласованных с опорным словарем. В процессе кодирования учитывают не только широкий спектр значений, но также неоднозначность в выражении действий и состояний, рода и числа и т.п., когда в одном языке эти признаки определяются контекстом, а в другом – могут отражаться в конкретных грамматических формах.
Universal semantic coding of polysemous text
and its translation into other languages
using a system of coordinated dictionaries
Semantic coding is based on supplementing polysemous words and expressions by components of dictionary entries that the author chooses in explanatory basic dictionary of the initial language (native language for author). The universality consists in subsequent machine translation into other languages using bilingual dictionaries coordinated with the basic dictionary. The process of coding takes into account not only the wide range of meanings of polysemous words, but also the lack of correspondence between grammatical categories in different languages, where in one language such features as gender and number, character of action and state etc. are determined only by the context, while in another they may be reflected in concrete grammatical forms.
*****
Как правило, в исходных текстах неизбежно присутствуют многозначные слова и словосочетания, для верного перевода которых необходимо учитывать смысл и форму предшествующего и/или последующего контекста, часто выходящего за пределы данного предложения. Трудности, связанные с анализом смысла и формы широкого контекста, практически непреодолимы с помощью программ машинного перевода.
Известны примеры исходных текстов, которые потенциально могут или должны переводиться на многие целевые языки. К ним относятся описания изобретений, научные статьи и т.п., публикуемые в региональных патентных фондах и журналах и представляющие интерес для иноязычных пользователей. Отсюда вытекает предположение о том, что публикуемые на родных языках тексты должны содержать некоторые дополнения, уточняющие универсальным образом смысл многозначных слов и словосочетаний и позволяющие без помощи профессиональных переводчиков получать корректные по смыслу переводы на целевые языки.
Известны достаточно абстрактные методы смыслового кодирования исходного текста, описанные, например, в патентах [1,2]. К абстрактным методам можно отнести также известный проект UNL (Universal Networking Language).
Все упомянутые методы нацелены на создание таких наборов универсальных смысловых кодов, которые в некоторой отвлечённой форме учитывали бы множество смысловых, грамматических и синтаксических особенностей исходного языка и, кроме того, были бы применимы для переводов на множество целевых языков. Отвлечённые смысловые коды должны быть настолько изощренными и настолько согласованными, что с их помощью можно описать все тонкости и особенности, встречающиеся в разнообразных текстах. Очевидно, что даже теоретически невозможно формализовать весь спектр смысловых, грамматических и синтаксических значений, имеющих собственную логику в каждом из языков.
Известны также методы, предусматривающие редактирование исходного текста [3] или интерактивное участие автора в процессе машинного перевода [16], но указанные методы не касаются предварительного смыслового кодирования исходного текста.
Универсальный метод смыслового кодирования основан на непосредственном использовании уже готовой информации, содержащейся в специальном толковом словаре исходного языка, словарные статьи которого содержат расширенные секции словосочетаний нефразеологического характера и секции частных (грамматических) значений. Для того, чтобы использовать эту информацию при переводе на любой целевой язык необходимо и достаточно согласовать двуязычные словари с указанным толковым словарем, что обеспечивает универсальность смысловых кодов (смысловых дополнений к словам и словосочетаниям). При машинном переводе исходного текста, дополненного такими смысловыми кодами, исключается необходимость поиска в широком контексте информации о том фактическом смысле, с которым автор употребил те или иные слова и словосочетания.
Сущность предлагаемого метода [17-19]. Упомянутые смысловые дополнения составляет автор (редактор) текста с помощью, т.н., опорного толкового словаря родного языка (о.т.с. ), а переводы слов, словосочетаний с учетом дополнений осуществляются с помощью специальных словарей исходного – целевых языков, согласованных с о.т.с. При этом в каждом из согласованных словарей ( с.сл. ) в точности совпадает с о.т.с. словарный состав исходного языка, а также в точности совпадают обозначения (цифровые, буквенные, символические) и последовательности расположения смысловых значений и соответствующих иллюстративных примеров ( ил.п. ), а также словосочетаний, их смысловых значений и их собственных примеров, всех грамматических характеристик и прочих элементов словарных статей, посвященных одному и тому же заглавному, производному или составному слову. Точно также совпадают специализированные и тематические разделы.
В о.т.с. исходного языка совмещаются функции толкового словаря и переводного словаря, отражающего те элементы исходного языка, которые имеют особое значение при переводе хотя бы на один из целевых языков, входящих в систему согласованных (переводных) словарей данного исходного языка, в частности, дифференцированно представлены значения, именуемые в дальнейшем частными (грамматическими) значениями, некоторых местоимений, глаголов, причастий, деепричастий и т.п., не имеющих в исходном языке отдельных грамматических форм, выражающих эти значения, но при этом в тех или иных целевых языках этим значениям соответствуют конкретные грамматические формы слова и/или связанных с ним слов; указанные значения представлены в виде отдельной секции, следующей вслед за описаниями тех смысловых значений слова, для которой они являются общими. Это позволяет учитывать в процессе кодирования многообразие не только лексических, но и грамматических значений.
Указанная система может состоять из подсистем - для родственных групп целевых языков.
В примерах, приведенных во второй части статьи, представлены фрагменты словарных статей из согласованных словарей.
Далее описываются последовательности операций смыслового кодирования и перевода.
Процесс смыслового кодирования исходного текста выполняется в компьютере автора исходного текста с помощью служебной программы, содержащей упомянутыйо.т.с. исходного языка и реализующей по указаниям автора операции формирования смысловых дополнений. В процессе кодирования автор анализирует последовательно, слово за словом, исходный текст и выделяет очередное слово особым шрифтом в случае, если, по мнению автора (в некоторых случаях – по инициативе служебной программы), данное слово обладает хотя бы одним из следующих признаков:
а) данное слово является многозначным, причём его сочетание с соседними словами может не содержать информации, достаточной для выбора смыслового значения, наиболее близкого к исходному тексту;
б) грамматическая форма данного слова и связанных с ним слов не отражает тот или иной оттенок фактического смысла текста, хотя в переводе на целевой язык данное слово и/или связанные с ним слова могут иметь конкретные грамматические формы, выбор которых строго зависит от контекста; к этим словам могут относиться:
- личные, возвратные местоимения, из формы которых в исходном языке не следует, заменяют ли они существительное, обозначающее лицо мужского или лицо женского рода, отдельное лицо или группу лиц, лицо или неодушевлённый предмет, а также притяжательные местоимения, из формы которых в исходном языке не следует, каков род и число принадлежащего объекта или субъекта или каков род лица, к которому выражается принадлежность (т.е. смысл зависит от того о ком или о чём идёт речь в контексте), причем в исходных текстах члены предложения, связанные с данным местоимением, также могут не иметь соответствующих грамматических признаков;
- глаголы, причастия, деепричастия, форма которых в исходном языке не отражает однозначно тот или иной характер описываемого в тексте действия и/или состояния, достигнутого в результате действия, в то время как в том или ином целевом языке для выражения указанных оттенков действий и/или состояний используются, в зависимости от фактического смысла текста, глаголы, причастия, деепричастия, имеющие конкретные грамматические формы (подобно тому, как в разных языках по разному отражается действие несоверш./ соверш. вида или действие, особым образом завершённое/ продолженное относительно реального времени) и т.д. и т.п.;
в) данное слово вместе с некоторыми соседними словами представляет собой словосочетание, для перевода которого может потребоваться поиск среди известных словосочетаний, относящихся к данному слову, причём в некоторых случаях возможны различия в лексическом составе или в структуре, не влияющие на иносказательное значение словосочетания, например, имеются вклинившиеся слова, в частности, определения или обстоятельства к тем или иным словам, уточняющие значение словосочетания в целом, или вводные слова, добавляются переменные компоненты к началу или концу, изменяются те или иные собственные слова или их последовательность и т.п. [4]; в связи с этим возникает проблема определить, что некоторые слова принадлежат к сочетанию, найти границы внутри фразы, определить ведущее (ключевое) слово и, наконец, выбрать значение, соответствующее контексту;
г) при переводе на тот или иной целевой язык конкретному смысловому значению слова могут соответствовать различные синонимы или различные формы употребления в зависимости от общей направленности исходного текста, от характера описываемых в нём действий и обстоятельств; во многих случаях корректный перевод части фразы или всей фразы может быть получен лишь путём выбора наиболее подходящего иллюстративного примера, профессиональный перевод которого на тот или иной целевой язык учитывает и такие особенности употребления, как синтаксическая конструкция, свойственная фразам подобного типа в этом целевом языке, или временная форма глагола и т.п.
Далее служебная программа вызывает из о.т.с. словарную статью, соответствующую отмеченному автором слову, затем автор поясняет смысл этого слова, сопоставляя исходный текст с теми или иными элементами статьи; при этом он выполняет следующие операции:
- в случае, если данное слово вместе с соседними словами совпадает с одним из словосочетаний фразеологического характера (в английском языке это м.б. также и фразовый глагол) или соответствует структурной формуле, характеризующей переменный состав словосочетания, то автор отмечает словосочетание или его конкретное смысловое значение, наиболее близкое исходному тексту; если при словосочетании (или при его конкретном значении) имеется группа ил.п., то отмечает тот пример, в котором употребление сочетания аналогично исходному тексту, а область применения соответствует общей направленности текста, характеру описываемых в нём действий и обстоятельств; указанные элементы отмечает и в том случае, когда между сочетанием в исходном тексте и в словаре имеются упомянутые выше различия в лексическом составе или в структуре; затем автор с помощью служебной программы переносит из словарной статьи в исходный текст заглавное слово, словосочетание, его смысловое значение или ил.п. при этом значении, помещая всё в виде дополнения к данному слову, при этом автор выделяет в исходном тексте особым шрифтом данное слово и другие слова, входящие в состав сочетания (за исключением вклинившихся слов), и, кроме того, с помощью специальных граничных символов обозначает левую и правую границы сочетания в предложении;
- но в случае, если данное слово не входит в состав словосочетания фразеологического характера, то автор отмечает в словарной статье конкретное смысловое значение слова, наиболее близкое исходному тексту, при условии, что грамматическая информация, сопровождающая в словарной статье это смысловое значение и характеризующая изменяемые формы и способность слова к управлению другими словами, например, формы употребления глагола – в соверш. / несоверш. виде, и управление глагола, в т.ч. и слова, связывающие с другими словами в предложении - предлоги, падежи или падежно вопросительные слова, форма прямого дополнения и т.п., а также пояснения, указывающие на атрибутивное, предикативное и т.п. употребление, не противоречат исходному тексту; кроме того, если данное слово вместе с соседними словами совпадает с одним из словосочетаний нефразеологического характера, приведенных при этом значении, то дополнительно отмечает это словосочетание и также выделяет его особым шрифтом и граничными символами, но если слово не совпадает ни с одним из этих словосочетаний, но в группе ил.п. при этом значении содержится пример, в котором употребление слова аналогично исходному тексту, а область применения соответствует общей направленности текста, характеру описываемых в нём действий и обстоятельств, то дополнительно отмечает этот пример и, наконец, если при этом значении или при группе значений имеется упомянутая выше секция частных (грамматических) значений, то отмечает значение слова, касающееся рода и/или числа, лица или неодушевлённого предмета, характера действия или состояния, и т.д. и т.п.:
- в некоторых случаях автор отмечает ил.п. данного слова или словосочетания нефразеологического характера в словарной статье, касающейся одного из соседних, связанных с ним слов, при условии, что указанный ил.п. соответствует смысловому значению и другим признакам, упомянутым выше;
- также в некоторых случаях ил.п. или то или иное словосочетание или тот или иной собственный ил.п. словосочетания отмечает в словарной статье, извлечённой из специализированного раздела о.т.с. ;
- в тематическом разделе автор отмечает одно из значений термина или одно из терминологических сочетаний или один из составных терминов и т.п.
Затем служебная программа переносит из словарной статьи в исходный текст заглавное слово и те элементы, которые отмечены, помещая всё в виде дополнения к данному слову.
Каждое из дополнений м.б. представлено также и в виде цифровых и буквенных символов, последовательность которых обозначает путь от заглавного слова до отмеченного элемента словарной статьи.
Служебная программа обладает некоторыми инициативными функциями, например, указывает автору на несовпадение употребления слова или словосочетания в исходном тексте и в отмеченном элементе словарной статьи, а также указывает автору на слова, пропущенные в процессе анализа исходного текста, но, возможно, обладающие той или иной многозначностью.
В завершение выполняют запись полученного текста, готового к переводу на другие языки.
Перевод кодированного исходного текста на целевой язык выполняется в компьютере пользователя с помощью программы машинного перевода, в состав которой входит основная подпрограмма перевода, содержащая собственный двуязычный словарь (например, та или иная известная программа перевода на этот целевой язык), и дополнительная подпрограмма, содержащая с.сл. и вступающая в действие в случае, если очередное слово или группа слов содержит смысловое дополнение; указанная подпрограмма анализирует дополнение и находит перевод слова или словосочетания в с.сл., в частности:
- если в дополнении к слову указано конкретное смысловое значение, то отыскивают его перевод и выполняют согласование этого перевода с переводами других слов в предложении с учётом грамматической информации, характеризующей употребление перевода в целевом языке;
- если в дополнении к слову содержится ил.п., то подпрограмма отыскивает его перевод, выполняет сравнительный анализ исходного текста и текста перевода примера и выделяет на основании анализа перевод слова или словосочетания в тексте примера;
- если в дополнении к слову содержится словосочетание, то вся группа слов, выделенная упомянутыми граничными символами и особым шрифтом, переводится как одно целое, а невыделенные в этой группе вклинившиеся слова переводятся как определения, обстоятельства, вводные слова, но только по отношению к тем словам словосочетания, которые переводятся в прямом смысле (здесь и далее учитывают также и структурную формулу, характеризующую переменный состав словосочетания в исходном языке);
- в случае, если в дополнении указано частное (грамматическое) значение, то перевод этого слова и других слов, связанных с ним в предложении, выполняют с учётом этого значения, например, если данное слово представляет собой личное, притяжательное, возвратное местоимение, то в этом случае перевод части фразы, т.е. местоимения вместе со связанными с ним членами предложения, выполняют с учётом того, что указано значение, касающееся рода и/или числа, лица или неодушевлённого предмета, а в случае, если данное слово представляет собой глагол, то перевод части фразы, связанной с этим глаголом, выполняют с учётом того, что указано значение, касающееся характера действия или состояния, достигнутого в результате действия, и т.д. и т.п.
Затем указанная подпрограмма передает полученный перевод основной подпрограмме, выполняющей грамматическое и синтаксическое согласование с переводом текста в целом.
Таким образом выполняют машинный перевод кодированного исходного текста.
Универсальность метода состоит в том, что смысловое кодирование осуществляют путем сравнения исходного текста с описаниями смысловых значений в о.т.с.родного языка вне зависимости от того, на какие целевые языки потенциально будет осуществляться перевод. Можно также сказать, что исходный текст имеет широкий спектр смысловых значений (подобно физическому сигналу, содержащему множество частотных составляющих), при этом универсальное смысловое кодирование сужает упомянутый спектр (подобно избирательному фильтру на выходе источника сигнала).
Кодированные исходные тексты (подобные описаниям изобретений, научным статьям и т.п.), при их публикации в электронной форме могут содержать «невидимые», на первый взгляд, смысловые дополнения.
Применение предлагаемого метода может осуществляться в следующих областях:
а) патентные фонды потенциально представляют интерес для разработчиков и исследователей, работающих, преимущественно, на родных языках.
Целесообразно, чтобы редакторы патентных фондов с участием авторов изобретений представляли описания на машинных носителях в форме кодированного исходного текста на родном языке автора (или на языке патентного фонда). Это позволит каждому заказчику, получившему текст из патентного фонда на машинном носителе или через информационные каналы связи, осуществить самостоятельно перевод этого текста на свой язык с помощью описанной выше программы машинного перевода кодированного исходного текста.
б) точно также целесообразно все тексты журнальных статей, издаваемых в разных странах на родных языках, представлять с участием авторов статей на машинных носителях в форме кодированного исходного текста; это касается также всех справочников и т.п.
Очевидно, что перечень практических областей применения может быть продолжен.
В примерах, приведенных во второй части статьи, представлены фрагменты согласованных словарных статей (в виде таблиц), при составлении которых использованы толковые словари [5,6,7,14] и двуязычные словари [8,9,10,11,13,15]; многозначные словосочетания и их толкования заимствованы в [4]; элементы, касающиеся частных (грамматических) значений местоимений и глаголов, составлены на основе [12]. Упомянутые выше частные (грамматические) значения представлены в словарных статьях в виде отдельной секции, следующей вслед за описаниями смысловых значений слова и отделенной символом //. Все, приведенных в примерах, фрагменты согласованных словарных статей имеют условный характер.
Обобщенная структура систем согласованных (переводных) словарей представлена на Фиг. 1.
Расширенный пример словарных статей представлен на Фиг. 2.
Схемы, отражающие процессы универсального смыслового кодирования и потенциального перевода на тот или иной целевой язык, представлены на Фиг. 3 и на Фиг. 4.
Литература.
1. US Patent 5,285,386 Machine translation apparatus having means for translating polysemous words using dominated codes. Статья поступила в редакцию
2. US Patent 5,845,306 Context based system for accessing dictionary entries.
3. US Patent 5,677,835 Integrated authoring and translation system, US Patent 5,995,920 Computer-based method and system for monolingual document development, патент RU 2136038 Компьютерная система и способ подготовки текста на исходном языке и перевода на иностранные языки.
4. Кунин А.В. Англо-русский фразеологический словарь // Советская энциклопедия, М.:1967. С. 1233 - 1264
5. Большой толковый словарь русского языка // Норинт, С.-Петербург:2000.
6. Oxford Advanced Learner’s Dictionary of current English // Oxford University Press:1989.
7. The Concise Oxford Dictionary of current English // Clarendon Press Oxford:1995.
8. Oxford Russian Dictionary, Russian-English, English-Russian // Oxford University Press: 2000.
9. Рымашевская Э.Л., Немецко-русский и русско-немецкий словарь // Русский язык, М.:1990.
10. Смирницкий А.И. и др., Большой русско-английский словарь// Русский язык, М.:2002.
11. Русско – Ивритский словарь под редакцией Подольского Б. // Русский язык, М.:1992.
12. Качалова К.Н., Израилевич Е.Е. Практическая грамматика английского языка // М.:1999.С.72-76, 113-162, 166-184, 214-216, § 131, 279-287, 439-445
13. Циммерман М., Веденеева К. Русско – английский научно – технический словарь переводчика // Наука, М.: 1999. С.50, 340,509
14. Langenscheidts Growarterbuch Deutsch als Fremdsprache //Neubearbeitung, 1998.
15. Мюллер В.К., Англо – русский словарь. // Золотой век, Диамант, С.-П.:2000
16. И.М. Богуславский, Л.Л. Иомдин, А.В. Лазурский, Л.Г. Митюшин, А.С. Бердичевский. Интерактивное разрешение неоднозначности различных типов в машинном переводе (труды конференции Диалог 2005)
17. Панич Ю.В. Предварительная идентификация смысловых значений слов и словосочетаний и основанный на ней машинный перевод исходного текста с родного языка на конкретный целевой язык (труды 8-й конференции «Творческие поиски учёных Израиля, Ашкелон, 2004)
18. Панич Ю.В. Метод машинного перевода и система согласованных словарей (труды 9-й конференции «Творческие поиски учёных Израиля, Ашкелон, 2005)
19. Панич Ю.В. Универсальное смысловое кодирование исходного текста и его перевод на любой целевой язык с использованием на обоих этапах тех или иных элементов системы согласованных словарей (сообщ. в сайте Dialog–21, лингвистика и перевод, 2006).
19 апреля 2007 года