h2fb - HTML to FictionBook converter.
Автор: Александр Евсеев
Благодарности
Выражаю благодарность Дмитрию Грибову за предоставление исходных текстов программы Any2FB2.
О программе
h2fb - HTML to FictionBook converter. Программа предназначена для преобразования текстовых и html
файлов в формат Fiction book 2.
Поддерживаемые платформы:
Должно работать везде, где работает python. В первую очередь программа предназначена для
пользователей операционных систем Linux, xBSD и т.д., поскольку для Windows программ-конвертеров достаточно.
Требования:
- Python 2.3 или старше
- Модуль авто-определения кодировки из pETR.
Если pETR не установлен, то этот модуль взять тут.
Программа будет работать и без этого модуля, кодировку исходного текста можно указать вручную.
Краткое описание:
В h2fb использованы многие идеи и алгоритмы из программы
Any to FB2
Дмитрия Грибова, но она не является простым переложением Any2FB2 на другой
язык программирования.
Программа не нуждается в специальной установке. Достаточно скачать архив,
разархивировать и скопировать файл h2fb.py в любое место, где он будет
доступен для запуска. Если программа pETR не установлена, и необходимо
авто-определение кодировки, нужно загрузить модуль recoding.py и поместить
его в тот же каталог, где находится h2fb.py.
В качестве входных данных воспринимаются только html или простой текст
(plain text). Для преобразования в fb2 файлов *.doc, *.rtf и др. их
сначала нужно преобразовать в текст или html. Для этого можно
воспользоваться специальными программами, например catdoc для преобразования
*.doc - > html, либо программами, для которых эти программы являются
"родными" (MS Word, OpenOffice).
По умолчанию h2fb ведет себя как фильтр, т.е. принимает данные со
стандартного входа и выдает результат работы на стандартный
выход. Сообщения о работе программы и об ошибках выводятся в стандартный
поток ошибок. Изменить поведение можно путем указания различных опций.
Это первый выход программы в свет, наверняка она содержит ошибки и недочеты.
Если обнаружиться ошибка, прошу обязательно написать мне.
Описание опций
- -i, --input-file
- Имя файла для обработки. По умолчанию стандартный вход (stdin).
- -o, --output-file
- имя файла, куда будет записан результат. По умолчанию стандартный выход (stdout).
- -f, --encoding-from
- Кодировка исходного текста. По умолчанию будет предпринята попытка автоматически
определить кодировку (если установлен модуль recoding.py). В случае неудачи
используется кодировка Windows-1251. Автоматически определяются кодировки
Windows-1251, cp866, koi8-r, ISO-8859-5, utf-8.
- -t, --encoding-to
- Кодировка полученного документа. По умолчанию Windows-1251.
- -h, --help
- Краткая справка по использованию программы.
- -r, --header-re
- Регулярное выражение для определения заголовков в тексте. По умолчанию не задано.
- --not-convert-quotes
- Не преобразовывать двойные кавычки в тексте в "елочки".
- --not-convert-hyphen
- Не преобразовывать знаки '-' в тире.
- --skip-images
- Не вставлять изображения в выходной документ.
- --skip-ext-links
- Не вставлять в выходной документ внешние ссылки.
- --allow-empty-lines
- Разрешить теги <empty-line/> в выходном документе.
- --not-detect-italic
- Не пытаться выделить текст курсивом (текст между подчеркиваниями.
- --not-detect-headers
- Не пытаться найти заголовки в тексте.Не влияет на опцию --header-re, т.е.
если задано регулярное выражение для поиска заголовков и запрещено искать заголовки в тексте,
заголовки будут искаться только по регулярному выражению.
- --not-detect-epigraphs
- Не пытаться найти эпиграфы.
- --not-detect-paragraphs
- Не пытаться найти абзацы. Каждая строка будет отдельным абзацем.
- --not-detect-annot
- Не пытаться найти аннотацию.
- --not-detect-verses
- Не пытаться найти стихи в тексте.
- --not-detect-notes
- Не пытаться найти сноски в тексте (текст внутри квадратных или фигурных скобок.
Скачать
Скачать программу и дополнительный модуль можно тут.