BookDesigner. Полиграфическая корректность текста

 
Libroom Forum IndexBook Designer
AuthorMessage

JAW
Член клуба The eBook

Член клуба The eBook



Joined: 27 Sep 2004
Posts: 22894


Location: Северная столица

Posted: 27.09.2004 22:02    

Долго искал, но к своему удивлению, так и не нашел в BookDesigner возможности автоматической корректировки текста в плане приведения его к неким полиграфическим стандартам. Что я под этим понимаю...

Вообще моментов много, но хотелось бы хотя бы...
1) Замена дефиса на тире
2) Замена кавычек на полиграфические кавычки (в русском языке принят вид полиграфических кавычек << >> для внешних и ,, '' для внутренних.)
4) Замена ... на символ (обязательно опционально).
3) Нормализация и приведение в порядок сокращений, как т.е., т.к., т.д.
4) Нормализация инициалов.
5) Нормализация списков, перечислений и т.п.
6) Нормализация знаков препинания (например убирать пробелы перед знаками препинания).

Вообще хорошим примером программы выполняющей такие преобразования является пакет "Перестройка" для MS Word. Поскольку некоторые фильтры в нем написаны на Микрософтовской породии на RegExp вполне можно разобраться и в алгоритмах.

Под нормализацией я понимаю приведение их к единому виду.
К сожалению "неразрывного пробела" вроде как большинство читалок не поддерживает, так как и пробела фиксированной ширины, но хоть что-то...

Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид.
 
View user's profile ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



Posted: 27.09.2004 23:49    

JAW wrote:
Долго искал, но к своему удивлению, так и не нашел в BookDesigner возможности автоматической корректировки текста в плане приведения его к неким полиграфическим стандартам. Что я под этим понимаю...

Вообще моментов много, но хотелось бы хотя бы...
1) Замена дефиса на тире
2) Замена кавычек на полиграфические кавычки (в русском языке принят вид полиграфических кавычек << >> для внешних и ,, '' для внутренних.)
4) Замена ... на символ (обязательно опционально).
3) Нормализация и приведение в порядок сокращений, как т.е., т.к., т.д.
4) Нормализация инициалов.
5) Нормализация списков, перечислений и т.п.
6) Нормализация знаков препинания (например убирать пробелы перед знаками препинания).

Вообще хорошим примером программы выполняющей такие преобразования является пакет "Перестройка" для MS Word. Поскольку некоторые фильтры в нем написаны на Микрософтовской породии на RegExp вполне можно разобраться и в алгоритмах.

Под нормализацией я понимаю приведение их к единому виду.
К сожалению "неразрывного пробела" вроде как большинство читалок не поддерживает, так как и пробела фиксированной ширины, но хоть что-то...

Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид.

Для приведения текста к виду, нужному пользователю, есть Book Cleaner (жаргонное название - "Метла Геры"). При помощи метлы пользователь может автоматически делать все необходимые замены. Причем на любых этапах подготовки книги (начиная с неформатированного текста и кончая редактированием выбранного фрагмента).
По-правде говоря, я не хотел делать эту метлу, считая, что надо задавать стандарты по умолчанию. Но оказалось, что далеко не для всех удобны общепринятые стандарты. Поэтому по умолчанию делается только пара десятков очевидных операций, остальные же опции очистки оставлены на усмотрение пользователя. Причем список очистки в метлу надо ввести только один раз, после чего заказанная очистка будет происходть автоматически для всех книг.
 
View user's profile ^

GribUser
Fictionbook.Lib, FB2, Divide&Conquer

Fictionbook.Lib, FB2, Divide&Conquer



Joined: 18 Jun 2003
Posts: 7297


Location: Мордор (северный Гандурас)

Posted: 28.09.2004 00:26    

JAW wrote:
Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид.
Если тут каким-то боком упоминался fb2 (структура и все такое), то замечу что:
1. При приеме книг в библиотеку FictionBook.lib все эти операции выполняются
2. Скрипт, который все это делает в библиотеке, доступен всем. К вопросу об алгаритмах и т.п., можно оттуда просто regexp-ов надергать и напихать в метлу:
http://www.gribuser.ru/xml/fictionbook/2.0/software/cleanup_book.zip
 
View user's profile ^

JAW
Член клуба The eBook

Член клуба The eBook



Joined: 27 Sep 2004
Posts: 22894


Location: Северная столица

Posted: 28.09.2004 21:35    

[quote="vvvПо-правде говоря, я не хотел делать эту метлу, считая, что надо задавать стандарты по умолчанию. Но оказалось, что далеко не для всех удобны общепринятые стандарты.
[/quote]

Закономерно, поскольку за невозможностью корректно отразить полиграфические требования приходится идти на компромисы.
Например: Что ставить вместо 2 пунктовой шпации (пробела), пробел, или ничего? 2 пт. пробел слишком тонкий и его практически не видно, поэтому я предпочитаю его убирать, а кто-то считает, раз положен пробел, то должен быть пробел.

Quote:

Поэтому по умолчанию делается только пара десятков очевидных операций, остальные же опции очистки оставлены на усмотрение пользователя. Причем список очистки в метлу надо ввести только один раз, после чего заказанная очистка будет происходть автоматически для всех книг.


Сперва пошли какие-то глюки, потом скачал вчерашний апдейт и вроде починилось.
Одно но... Где найти спецификацию на эту, конкретную версию Регулярных выражений? Можно на английском, меня собственно интересует как задаются всякие начало/конец строки и разные дополнительные вещи.
 
View user's profile ^

JAW
Член клуба The eBook

Член клуба The eBook



Joined: 27 Sep 2004
Posts: 22894


Location: Северная столица

Posted: 28.09.2004 21:44    

GribUser wrote:
JAW wrote:
Сделать это IMHO необходимо, т.к. не имеет смысла организация структуры книги без ее преобразования в корректный вид.
Если тут каким-то боком упоминался fb2 (структура и все такое), то замечу что:
1. При приеме книг в библиотеку FictionBook.lib все эти операции выполняются


Скачал книгу с Альдебарана... Тире узкие, кавычки прямые. Формат fb2. Про FictionBook не скажу, не помню с чем там боролся...

Quote:

2. Скрипт, который все это делает в библиотеке, доступен всем. К вопросу об алгаритмах и т.п., можно оттуда просто regexp-ов надергать и напихать в метлу:
http://www.gribuser.ru/xml/fictionbook/2.0/software/cleanup_book.zip


Я сейчас пытаюсь понять и систематизировать правила для автокоррекции. Сделать их максимально универсальными и гибкими.

P.S. А, кстати... В спецификации FB есть спецификация на кодировку и используемые символы?
 
View user's profile ^

GribUser
Fictionbook.Lib, FB2, Divide&Conquer

Fictionbook.Lib, FB2, Divide&Conquer



Joined: 18 Jun 2003
Posts: 7297


Location: Мордор (северный Гандурас)

Posted: 28.09.2004 22:10    

JAW wrote:
Скачал книгу с Альдебарана... Тире узкие, кавычки прямые. Формат fb2. Про FictionBook не скажу, не помню с чем там боролся...
Хм. Забавно, я всю эту хренотень добавил в основном по его просьбе. И она 100% сейчас у меня работает. Он там, походу, от моего движка отказался, может это уже приносит свои плоды? Smile Какая книжка-то, хоть посмотрю... Дайте URL

JAW wrote:
Я сейчас пытаюсь понять и систематизировать правила для автокоррекции. Сделать их максимально универсальными и гибкими.
Ну я над этим поработал уже... Если неохота изобретать велосипед - милости прошу, скрипт лежит.

JAW wrote:
P.S. А, кстати... В спецификации FB есть спецификация на кодировку и используемые символы?
FB2 это XML, а XML поддерживет по определению все символы. Кодировки, конечно, зависят от реализации, но уж UTF8 он поддерживает обязалово. Обычно и 1251 есть, и 1251 и т.д. и т.п. Формально в файле можно указать вообще любую существующую в природе кодировку.
 
View user's profile ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



Posted: 28.09.2004 22:21    

JAW wrote:
Одно но... Где найти спецификацию на эту, конкретную версию Регулярных выражений? Можно на английском, меня собственно интересует как задаются всякие начало/конец строки и разные дополнительные вещи.

Например, здесь
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/jscri pt7/html/jsreconintroductiontoregularexpressions.asp
Со временем к метле будет общирный help, с примерами и типовыми файлами очистки. Но это попозже, когда будет готова пятая версия BD.
А пока по конкретным вопросам советую обращаться к Гере или GribUser.
Gera wrote:
Попробовать помочь в написании некоторых конкретных выражений с использованием RegExp смогу.
Присылайте типичный файл html0 и пожелания, что на что хотим поменять.
 
View user's profile ^

vvv
Автор программы BookDesigner

Автор программы BookDesigner



Joined: 18 Jun 2003
Posts: 2690



Posted: 28.09.2004 22:27    

JAW wrote:

Я сейчас пытаюсь понять и систематизировать правила для автокоррекции. Сделать их максимально универсальными и гибкими.

Когда систематизируешь и отладишь - пришли, пожалуйста, файл. Думаю, что для многих это будет интересно: иметь полиграфически корректные тексты.
 
View user's profile ^
Libroom Forum IndexBook DesignerAll times are GMT + 4 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum

© Libroom, 2021