Составители:
Рубрика:
Беляева Л. Н. ТЕОРИЯ И ПРАКТИКА ПЕРЕВОДА
154
ляется специальный модуль предварительного структур
ного анализа, который отвечает за разделение текста на
предложения. Для языков с иероглификой или арабским
алфавитом этот модуль требует реализации специальных
процедур деления текста на слова, в других случаях гра
ницей слова считается пробел.
Разбивка текста на предложения требует разработки
специальных алгоритмов анализа знаков препинания,
особенно точки, которая может быть как признаком конца
предложения, так и частью аббревиатуры или имени соб
ственного. Эта задача требует решения даже в том случае,
когда в конце предложения точка отсутствует (как в слу
чае заголовка).
Заголовки, разделы оглавления, подписи к рисункам и
названия таблиц должны в исходном тексте помечаться
особым образом, так как чаще всего они представляют со
бой назывные предложения, требующие специального
парсинга: дело в том, что в этих предложениях нет необхо
димости искать глаголсказуемое, который в предложени
ях других типов составляет вершину дерева зависимостей.
Опыт показывает, что при средней длине предложения в
10 слов результат МП оптимальный, однако в реальном
тексте этот показатель очень часто превышается. Так, сред
няя длина предложения в газете составляет 22,4 слова, од
нако исследования показывают, что максимальная длина
предложения может достигать 199 слов. Поэтому одной из
функций пользователя, желающего получить результат
МП, требующий минимального редактирования, является
просмотр текста для упрощения структуры и уменьшения
длины самых сложных фрагментов текста. Очень часто та
кое редактирование позволяет уточнить смысл переводи
мых фрагментов, которые в техническом тексте также мо
Страницы
- « первая
- ‹ предыдущая
- …
- 152
- 153
- 154
- 155
- 156
- …
- следующая ›
- последняя »
