Author | Message |
---|
JAW Член клуба The eBook
Joined: 27 Sep 2004 Posts: 22894
Location: Северная столица
| Posted: 27.09.2004 22:02 | |
| Долго искал, но к своему удивлению, так и не нашел в BookDesigner возможности автоматической корректировки текста в плане приведения его к неким полиграфическим стандартам. Что я под этим понимаю...
Вообще моментов много, но хотелось бы хотя бы... 1) Замена дефиса на тире 2) Замена кавычек на полиграфические кавычки (в русском языке принят вид полиграфических кавычек << >> для внешних и ,, '' для внутренних.) 4) Замена ... на символ (обязательно опционально). 3) Нормализация и приведение в порядок сокращений, как т.е., т.к., т.д. 4) Нормализация инициалов. 5) Нормализация списков, перечислений и т.п. 6) Нормализация знаков препинания (например убирать пробелы перед знаками препинания).
Вообще хорошим примером программы выполняющей такие преобразования является пакет "Перестройка" для MS Word. Поскольку некоторые фильтры в нем написаны на Микрософтовской породии на RegExp вполне можно разобраться и в алгоритмах.
Под нормализацией я понимаю приведение их к единому виду. К сожалению "неразрывного пробела" вроде как большинство читалок не поддерживает, так как и пробела фиксированной ширины, но хоть что-то...
Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид. |
| | | vvv Автор программы BookDesigner
Joined: 18 Jun 2003 Posts: 2690
| Posted: 27.09.2004 23:49 | |
| JAW wrote: | Долго искал, но к своему удивлению, так и не нашел в BookDesigner возможности автоматической корректировки текста в плане приведения его к неким полиграфическим стандартам. Что я под этим понимаю...
Вообще моментов много, но хотелось бы хотя бы... 1) Замена дефиса на тире 2) Замена кавычек на полиграфические кавычки (в русском языке принят вид полиграфических кавычек << >> для внешних и ,, '' для внутренних.) 4) Замена ... на символ (обязательно опционально). 3) Нормализация и приведение в порядок сокращений, как т.е., т.к., т.д. 4) Нормализация инициалов. 5) Нормализация списков, перечислений и т.п. 6) Нормализация знаков препинания (например убирать пробелы перед знаками препинания).
Вообще хорошим примером программы выполняющей такие преобразования является пакет "Перестройка" для MS Word. Поскольку некоторые фильтры в нем написаны на Микрософтовской породии на RegExp вполне можно разобраться и в алгоритмах.
Под нормализацией я понимаю приведение их к единому виду. К сожалению "неразрывного пробела" вроде как большинство читалок не поддерживает, так как и пробела фиксированной ширины, но хоть что-то...
Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид. |
Для приведения текста к виду, нужному пользователю, есть Book Cleaner (жаргонное название - "Метла Геры"). При помощи метлы пользователь может автоматически делать все необходимые замены. Причем на любых этапах подготовки книги (начиная с неформатированного текста и кончая редактированием выбранного фрагмента). По-правде говоря, я не хотел делать эту метлу, считая, что надо задавать стандарты по умолчанию. Но оказалось, что далеко не для всех удобны общепринятые стандарты. Поэтому по умолчанию делается только пара десятков очевидных операций, остальные же опции очистки оставлены на усмотрение пользователя. Причем список очистки в метлу надо ввести только один раз, после чего заказанная очистка будет происходть автоматически для всех книг. |
| | | GribUser Fictionbook.Lib, FB2, Divide&Conquer
Joined: 18 Jun 2003 Posts: 7297
Location: Мордор (северный Гандурас)
| Posted: 28.09.2004 00:26 | |
| JAW wrote: | Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид. |
Если тут каким-то боком упоминался fb2 (структура и все такое), то замечу что: 1. При приеме книг в библиотеку FictionBook.lib все эти операции выполняются 2. Скрипт, который все это делает в библиотеке, доступен всем. К вопросу об алгаритмах и т.п., можно оттуда просто regexp-ов надергать и напихать в метлу: http://www.gribuser.ru/xml/fictionbook/2.0/software/cleanup_book.zip |
| | | JAW Член клуба The eBook
Joined: 27 Sep 2004 Posts: 22894
Location: Северная столица
| Posted: 28.09.2004 21:35 | |
| [quote="vvvПо-правде говоря, я не хотел делать эту метлу, считая, что надо задавать стандарты по умолчанию. Но оказалось, что далеко не для всех удобны общепринятые стандарты. [/quote]
Закономерно, поскольку за невозможностью корректно отразить полиграфические требования приходится идти на компромисы. Например: Что ставить вместо 2 пунктовой шпации (пробела), пробел, или ничего? 2 пт. пробел слишком тонкий и его практически не видно, поэтому я предпочитаю его убирать, а кто-то считает, раз положен пробел, то должен быть пробел.
Quote: | Поэтому по умолчанию делается только пара десятков очевидных операций, остальные же опции очистки оставлены на усмотрение пользователя. Причем список очистки в метлу надо ввести только один раз, после чего заказанная очистка будет происходть автоматически для всех книг. |
Сперва пошли какие-то глюки, потом скачал вчерашний апдейт и вроде починилось. Одно но... Где найти спецификацию на эту, конкретную версию Регулярных выражений? Можно на английском, меня собственно интересует как задаются всякие начало/конец строки и разные дополнительные вещи. |
| | | JAW Член клуба The eBook
Joined: 27 Sep 2004 Posts: 22894
Location: Северная столица
| Posted: 28.09.2004 21:44 | |
| GribUser wrote: | JAW wrote: | Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид. |
Если тут каким-то боком упоминался fb2 (структура и все такое), то замечу что: 1. При приеме книг в библиотеку FictionBook.lib все эти операции выполняются
|
Скачал книгу с Альдебарана... Тире узкие, кавычки прямые. Формат fb2. Про FictionBook не скажу, не помню с чем там боролся...
Я сейчас пытаюсь понять и систематизировать правила для автокоррекции. Сделать их максимально универсальными и гибкими.
P.S. А, кстати... В спецификации FB есть спецификация на кодировку и используемые символы? |
| | | GribUser Fictionbook.Lib, FB2, Divide&Conquer
Joined: 18 Jun 2003 Posts: 7297
Location: Мордор (северный Гандурас)
| Posted: 28.09.2004 22:10 | |
| JAW wrote: | Скачал книгу с Альдебарана... Тире узкие, кавычки прямые. Формат fb2. Про FictionBook не скажу, не помню с чем там боролся... |
Хм. Забавно, я всю эту хренотень добавил в основном по его просьбе. И она 100% сейчас у меня работает. Он там, походу, от моего движка отказался, может это уже приносит свои плоды? Какая книжка-то, хоть посмотрю... Дайте URL
JAW wrote: | Я сейчас пытаюсь понять и систематизировать правила для автокоррекции. Сделать их максимально универсальными и гибкими. |
Ну я над этим поработал уже... Если неохота изобретать велосипед - милости прошу, скрипт лежит.
JAW wrote: | P.S. А, кстати... В спецификации FB есть спецификация на кодировку и используемые символы? |
FB2 это XML, а XML поддерживет по определению все символы. Кодировки, конечно, зависят от реализации, но уж UTF8 он поддерживает обязалово. Обычно и 1251 есть, и 1251 и т.д. и т.п. Формально в файле можно указать вообще любую существующую в природе кодировку. |
| | | vvv Автор программы BookDesigner
Joined: 18 Jun 2003 Posts: 2690
| Posted: 28.09.2004 22:21 | |
| JAW wrote: | Одно но... Где найти спецификацию на эту, конкретную версию Регулярных выражений? Можно на английском, меня собственно интересует как задаются всякие начало/конец строки и разные дополнительные вещи. |
Например, здесь http://msdn.microsoft.com/library/default.asp?url=/library/en-us/jscri pt7/html/jsreconintroductiontoregularexpressions.asp Со временем к метле будет общирный help, с примерами и типовыми файлами очистки. Но это попозже, когда будет готова пятая версия BD. А пока по конкретным вопросам советую обращаться к Гере или GribUser.
Gera wrote: | Попробовать помочь в написании некоторых конкретных выражений с использованием RegExp смогу. Присылайте типичный файл html0 и пожелания, что на что хотим поменять.
|
|
| | | vvv Автор программы BookDesigner
Joined: 18 Jun 2003 Posts: 2690
| Posted: 28.09.2004 22:27 | |
| JAW wrote: | Я сейчас пытаюсь понять и систематизировать правила для автокоррекции. Сделать их максимально универсальными и гибкими.
|
Когда систематизируешь и отладишь - пришли, пожалуйста, файл. Думаю, что для многих это будет интересно: иметь полиграфически корректные тексты. |
| | |
| You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum
|
© Libroom, 2021
|