Описание работы пакета OOoFBTools. Создание книг FB2 - страница 23
Для поиска используется шаблон регулярных выражений: При включенной опции «Искать между цифрами»:
\‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alnum: ]+
При выключенной опции «Искать между цифрами»:
\‹[: alpha: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alpha: ]+
Кнопка Вставить пробелы активна только для этого режима. При нажатии на ней, если найдено слово, содержащие дефис, минус или тире, то слева и справа от этого минуса, дефиса или тире ставятся пробелы. Это полезно для «слипшихся» слов и тире… Например, найдено слово «Ты – нет!». После нажатия кнопки Вставить пробелы, получаем «Ты – нет!», как и должно было быть.
В этом режиме поиска предусмотрена возможность Запоминать найденное «хорошее» дефисное слово (Кнопка Запомнить), и Редактировать файл списка этих дефисных слов (Кнопка Править). Слова «запоминаются» в. txt-файл words_defis_list.txt, который создается в папке config пакета OOo. Для Unix – подобных систем – это папка
/home/XXX/.openoffice.org3/user/config/OOoFBTools. Для Windows – это папка C: \Documents and Settings\XXX\Application Data\OpenOffice.org3\user\config\OOoFBTools, где XXX – ваш логин (имя пользователя).
Как это работает? Когда найдено очередное слово с минусом, неразрывным дефисом, дефисом или тире, то, чтобы инструмент не останавливался в следующий раз на этом же слове, его можно «Запомнить». И теперь оно будет «благополучно» пропускаться при поиске.
Предусмотрены защиты от «глупости»: слово не будет «запоминаться», если:
– нет выделения в тексте;
– выделено слово, не содержащее ни минуса, ни тире, ни дефиса, ни неразрывного дефиса;
– случайно пользователем выделено несколько абзацев.
Во всех этих случаях будет выдано соответствующее предупреждение.
При Правке файла списка дефисных слов (нажатие кнопки Править) файл words_defis_list.txt будет запущен в ассоциированном с расширением. txt в вашей системе текстовом редакторе. Лучше ассоциировать. txt с редактором, который поддерживает Unicode и корректно «видит» перевод строк (абзацы). В Windows notepad.exe для этого не подходит.
В Windows я пользуюсь Notepad++.exe.
Поиск слов, в которых абзац разорвал перенос (дефис, тире или минус)
Этот инструмент позволяет искать в документе разрыва дефисов и слов. Например:
«давным-¶», «из-¶», «пересмотре-¶». Если после знака переноса стоит один или пробелов, то такие слова тоже находятся. Например: «давным- ¶», «из- ¶», «пересмотре- ¶»
Обрабатывается и неразрывный дефис.
Для поиска используется шаблон регулярных выражений:
"\‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$|\‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]$"
Поиск обрыва абзаца на словах, знаках препинания, кавычках и скобках
Например, есть текст:
Это пример того, как можно «найти»¶
разрыв предложения на кавычках,¶
запятой, (тексте в скобках) ¶
что часто бывает нужно после OCR.
Еще пример:
Здесь – разрыв после пробела и тире -¶
А здесь – разрыв после 2-х пробелов, минуса и пробела – ¶
Для поиска используется шаблон регулярных выражений:
"\‹[: alnum: ]+$|\‹[: alnum: ]+[)}\],»”\"":;]$|\‹[: alnum: ]+[)}\]\.,»”\"":;]+[)}\],»”\"":;]$|[: space: ]+ [-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$" amp; "|[: space: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]+$"
Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).
Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.
В этом варианте поиска активируется выпадающий список знака пунктуации, который можно выбрать, и при нажатии кнопки «Вставить» он будет вставлен «на свое место».
Кнопка «Склеить» позволяет просто удалить разрыв, не вставляя пробел. Это полезно, т. к. часто при OCR (особенно в FR10) слово оказывается разорванным не как, например «по-¶шел», а «по¶шел». Поэтому «Склейка» склеивает разорванное слово.
Поиск вероятного недостающего пробела между словами