Мохнатые уроды и моральные пёзды. Войти !bnw Сегодня Клубы
Каким образом можно древнюю корявую HTML перегнать в HTML5 или во что-либо другое, что нормлаьно соответствует стандартам? Юскейс: есть хорошая старая книжка в виде архива с HTML-файлами, сделанными в 1999 г. В начале каждого файла написано такое: ``` <HTML> <HEAD> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1251"> <META NAME="Author" CONTENT="Alex"> <META NAME="GENERATOR" CONTENT="Mozilla/4.04 [en] (Win95; I) [Netscape]"> ``` Очень, конечно, трогательно, но хотелось бы на выходе получить что-нибудь в духе EPub. Хотя в духе Markdown, чтобы прогнать через Pаndoc и сделать потом что угодно, тоже сойдёт.
#1URSDY / @dluciv / 1760 дней назад

оно у тебя не открывается в современном брауезере?
#1URSDY/3BW / @telegram / 1760 дней назад
*насущные решения надуманных проблем
#1URSDY/IJJ / @plzno / 1760 дней назад
@telegram В браузере открывается конечно. Я хочу сделать EPub и читать на читалке в итоге. Его даже можно из браузера скопипастить в LibreOffice или в M$ Ворд по кускам, там 20 файлов, я не тресну. А потом сохранить в EPub. Там форматирование простое. Но поскольку EPub — это и есть ZIP c HTML-ками, то как-то хочется попрямее с этим рахобраться.
#1URSDY/DDA / @dluciv --> #1URSDY/3BW / 1760 дней назад
@dluciv Если браузером норм, то, наверняка любая тулза, принимающая HTML, тоже съест. А значит в HTML5 точно нет необходимости.
#1URSDY/NSE / @anonymous --> #1URSDY/DDA / 1760 дней назад
calibre
#1URSDY/PKF / @telegram / 1760 дней назад
@anonymous Ну как-бы EPub вроде подразумевает HTML5. Может у меня читалка съест, у Васяна съест, а ещё какая и не съест...
#1URSDY/UB1 / @dluciv --> #1URSDY/NSE / 1760 дней назад
@telegram А он именно умеет, что я сказал, или просто как удобный редактор для EPub?
#1URSDY/ZEB / @dluciv --> #1URSDY/PKF / 1760 дней назад
@dluciv там точно произвольный HTML5, а не какое-то очень ограниченное подмножество?
#1URSDY/GUE / @anonymous --> #1URSDY/UB1 / 1760 дней назад
@anonymous Скорее всего подмножество, хотя и довольно мощное (MathML есть, например). И уж явно не то подмножество, которое использовал в 1999 г. Васян по прозвищу Alex.
#1URSDY/8XT / @dluciv --> #1URSDY/GUE / 1760 дней назад
@dluciv Я к тому, что не факт, что простого освежения версии стандарта хватит для того, чтобы везде открывалось. Насколько кривой-то HTML тот? Шапка выглядит норм, только доктайпа не хватает, капсом теги можно писать.
#1URSDY/5FU / @anonymous --> #1URSDY/8XT / 1760 дней назад
@dluciv Вообще, судя по тому, что я нагуглил, там не просто HTML5, а XHTML5. Можно попробовать скормить какому-нибудь конвертору из html в xhtml и посмотреть, будет ли тот плеваться (а скорее всего нет).
#1URSDY/LXS / @anonymous --> #1URSDY/8XT / 1760 дней назад
@anonymous Куча стилевых атрибутов у тегов, куча тегов, опять же, предназначенных для форматирования. Ни намёка на CSS, естественно (он в конце 1990-х только начал внедряться), ни в каком виде вообще. В общем полный набор того, из чего с тех пор мучительно вырастали.
#1URSDY/2OL / @dluciv --> #1URSDY/5FU / 1760 дней назад
@anonymous Господь с тобой, какой XHTML. Там тег `<p>` используется, как *разделитель* параграфов.
#1URSDY/CDB / @dluciv --> #1URSDY/LXS / 1760 дней назад
@dluciv Бля, 6nw затроттлили, хотя хз, зачем я писал анонимно (хотя так быстрее). Это всё равно ведь поддерживается в HTML5, про EPUB, конечно, хуй знает. Вообще, XHTML5 это, пишут, EPUB3, а до этого было что-то гораздо более ограниченное. Многие читалки поддерживают EPUB3?
#1URSDY/V1I / @slaviq --> #1URSDY/2OL / 1760 дней назад
@dluciv Это абсолютно нормально. XHTML в EPUB.
#1URSDY/OAQ / @slaviq --> #1URSDY/CDB / 1760 дней назад

@dluciv Он берёт из исходных форматов только текст и минимум его оформления.

#1URSDY/EW0 / @ceyt --> #1URSDY/ZEB / 1760 дней назад
@slaviq EPub3 — не, кстати, не очень многие.
#1URSDY/DC3 / @dluciv --> #1URSDY/V1I / 1760 дней назад
@ceyt Во. Попробую, спасибо. Я в своё время Sigil пользовался и сколько-то EPub при помощи Pandoc и всяких побочных напильников нагенерил, а Calibre только издалека видел.
#1URSDY/6TC / @dluciv --> #1URSDY/EW0 / 1760 дней назад

@dluciv Я вообще ничем не пользовался, я мануал посмотрел.

#1URSDY/4XF / @ceyt --> #1URSDY/6TC / 1760 дней назад
@ceyt А кстати он похоже всё сам очень здорово засосал, и заметно, хоть и не полностью, почистил (не знаю, чем). Может результат и не идеальный, но зато я только Next пару раз нажал. Что-то в этом есть.
#1URSDY/0PT / @dluciv --> #1URSDY/4XF / 1760 дней назад
Если нужен маркдаун, то можно скопипастить с форматированием в какой-нибудь онлайн markdown-редактор вроде https://stackedit.io/app и потом оттуда плейнтекст скопировать.
#1URSDY/Y05 / @slaviq / 1760 дней назад
@slaviq Вряд ли оно распарсит всё, что угодно, но если форматирования не очень много, то может быть.
#1URSDY/ZSV / @slaviq --> #1URSDY/Y05 / 1760 дней назад
@slaviq (Внутрях оно использует вот это вот: https://github.com/domchristie/turndown )
#1URSDY/TIB / @slaviq --> #1URSDY/Y05 / 1760 дней назад
@slaviq О. Спасибо. Если мне не понравится, я эту штуку руками и напущу на весь этот исходный зоопарк. Но пока вроде как ничего. С другой стороны, если оно оставляет теги типа `<center>`, то это, я подозреваю, не полноценный Markdown, а Markdown, в котором оставили HTML, где не разобрались =).
#1URSDY/90V / @dluciv --> #1URSDY/TIB / 1760 дней назад
@dluciv Кстати я зря так про васяна по прозвищу Alex. Alex оказался не васяном, а одним из соавторов книжки.
#1URSDY/S46 / @dluciv --> #1URSDY/8XT / 1760 дней назад

@dluciv Спасибо WYSIWYG редактору Netscape Composer!

#1URSDY/GCW / @ceyt --> #1URSDY/S46 / 1760 дней назад
@ceyt А также ещё, скорее всего, Ворду, в котором оно похоже было написано изначально. Но это не точно =)
#1URSDY/GET / @dluciv --> #1URSDY/GCW / 1760 дней назад
htmltidy
#1URSDY/E80 / @l29ah / 1760 дней назад
@l29ah Ну кстати да. Оно всё на халяву не сделает, но поможет хорошо.
#1URSDY/SMU / @dluciv --> #1URSDY/E80 / 1760 дней назад

@dluciv Если заголовки сделаны через <FONT SIZE=X>, да и вообще <FONT> стоит для каждого параграфа, то, да, только 97-й Ворд.

#1URSDY/NSX / @ceyt --> #1URSDY/GET / 1760 дней назад
@ceyt Не, там по счастью `h2` и `h3` — в этом плане норм.
#1URSDY/ATO / @dluciv --> #1URSDY/NSX / 1760 дней назад
Просто пиздец. Во проблемы у людей.
#1URSDY/3D1 / @komar / 1760 дней назад
@komar это тебе не за короновирусом следить тут думать надо!
#1URSDY/GV9 / @anonymous --> #1URSDY/3D1 / 1759 дней назад
ipv6 ready BnW для ведрофона BnW на Реформале Викивач Котятки

Цоперайт © 2010-2016 @stiletto.