h2fb - HTML to FictionBook converter.

Автор: Александр Евсеев

Благодарности

Выражаю благодарность Дмитрию Грибову за предоставление исходных текстов программы Any2FB2.

О программе

h2fb - HTML to FictionBook converter. Программа предназначена для преобразования текстовых и html файлов в формат Fiction book 2.

Поддерживаемые платформы:

Должно работать везде, где работает python. В первую очередь программа предназначена для пользователей операционных систем Linux, xBSD и т.д., поскольку для Windows программ-конвертеров достаточно.

Требования:

Краткое описание:

В h2fb использованы многие идеи и алгоритмы из программы Any to FB2 Дмитрия Грибова, но она не является простым переложением Any2FB2 на другой язык программирования.

Программа не нуждается в специальной установке. Достаточно скачать архив, разархивировать и скопировать файл h2fb.py в любое место, где он будет доступен для запуска. Если программа pETR не установлена, и необходимо авто-определение кодировки, нужно загрузить модуль recoding.py и поместить его в тот же каталог, где находится h2fb.py.

В качестве входных данных воспринимаются только html или простой текст (plain text). Для преобразования в fb2 файлов *.doc, *.rtf и др. их сначала нужно преобразовать в текст или html. Для этого можно воспользоваться специальными программами, например catdoc для преобразования *.doc - > html, либо программами, для которых эти программы являются "родными" (MS Word, OpenOffice).

По умолчанию h2fb ведет себя как фильтр, т.е. принимает данные со стандартного входа и выдает результат работы на стандартный выход. Сообщения о работе программы и об ошибках выводятся в стандартный поток ошибок. Изменить поведение можно путем указания различных опций.

Это первый выход программы в свет, наверняка она содержит ошибки и недочеты. Если обнаружиться ошибка, прошу обязательно написать мне.

Описание опций

-i, --input-file
Имя файла для обработки. По умолчанию стандартный вход (stdin).
-o, --output-file
имя файла, куда будет записан результат. По умолчанию стандартный выход (stdout).
-f, --encoding-from
Кодировка исходного текста. По умолчанию будет предпринята попытка автоматически определить кодировку (если установлен модуль recoding.py). В случае неудачи используется кодировка Windows-1251. Автоматически определяются кодировки Windows-1251, cp866, koi8-r, ISO-8859-5, utf-8.
-t, --encoding-to
Кодировка полученного документа. По умолчанию Windows-1251.
-h, --help
Краткая справка по использованию программы.
-r, --header-re
Регулярное выражение для определения заголовков в тексте. По умолчанию не задано.
--not-convert-quotes
Не преобразовывать двойные кавычки в тексте в "елочки".
--not-convert-hyphen
Не преобразовывать знаки '-' в тире.
--skip-images
Не вставлять изображения в выходной документ.
--skip-ext-links
Не вставлять в выходной документ внешние ссылки.
--allow-empty-lines
Разрешить теги <empty-line/> в выходном документе.
--not-detect-italic
Не пытаться выделить текст курсивом (текст между подчеркиваниями.
--not-detect-headers
Не пытаться найти заголовки в тексте.Не влияет на опцию --header-re, т.е. если задано регулярное выражение для поиска заголовков и запрещено искать заголовки в тексте, заголовки будут искаться только по регулярному выражению.
--not-detect-epigraphs
Не пытаться найти эпиграфы.
--not-detect-paragraphs
Не пытаться найти абзацы. Каждая строка будет отдельным абзацем.
--not-detect-annot
Не пытаться найти аннотацию.
--not-detect-verses
Не пытаться найти стихи в тексте.
--not-detect-notes
Не пытаться найти сноски в тексте (текст внутри квадратных или фигурных скобок.

Скачать

Скачать программу и дополнительный модуль можно тут.