После таких пидоров потом через тессеракт пдфки гонять приходится, чтобы по ключевым словам в тексте нужное искать - нелюди хуже пережиматоров картинок!
k2pdfopt -mode copy -ocr- doc.pdf и другие параметры из документации (-bpc, -c, -dpi) по необходимости.
Или можно mutool convert -o p%02d.png -O resolution=150 doc.pdf и затем mutool convert -o doc_i.pdf -O compress p01.png p02.png … (подстановкой имён шаблоном, само собой).
Собрать pdf-файл из картинок можно и при помощи питоновского img2pdf, но тогда по ним надо сначала пройтись optipng (ставить кучу итераций и часами ждать потенциальной выгоды в 1% не надо, стандартные настройки подойдут), потому что пережимать готовые совместимые потоки эта утилита не будет. Если же на некоторых страницах есть фотки и прочая сложная графика, и они выходят огромными, то можно отсортировать результаты по размеру и выходящие за произвольно выбранную границу перевести в JPEG. Вызывать сборку, следовательно, надо будет … p01.png p02.jpg p03.png …. Имеющиеся полностраничные оригиналы иллюстраций или сканов можно просто добавить без пережатия как отдельные страницы (убрав метаданные и поставив DPI под размер). Наконец, какие-то страницы можно не портить и отдельно вытащить в оригинальном PDF-формате и собирать финальный документ из исходников самых разных форматов.
Если в документе один векторный текст, и надо, чтобы он не выглядел как говно при печати, либо там куча страниц, и файл выходит огроменный, можно растеризовать все чисто текстовые страницы как однобитные чёрно-белые с разрешением 300 или 600 dpi. Алгоритм сжатия факсов их сожмёт гораздо лучше обычного deflate.
А визуально всё это можно проделать в свободном и бесплатном NAPS2.
После таких пидоров потом через тессеракт пдфки гонять приходится, чтобы по ключевым словам в тексте нужное искать - нелюди хуже пережиматоров картинок!
k2pdfopt -mode copy -ocr- doc.pdf
и другие параметры из документации (-bpc, -c, -dpi) по необходимости.Или можно
mutool convert -o p%02d.png -O resolution=150 doc.pdf
и затемmutool convert -o doc_i.pdf -O compress p01.png p02.png …
(подстановкой имён шаблоном, само собой).Собрать pdf-файл из картинок можно и при помощи питоновского img2pdf, но тогда по ним надо сначала пройтись optipng (ставить кучу итераций и часами ждать потенциальной выгоды в 1% не надо, стандартные настройки подойдут), потому что пережимать готовые совместимые потоки эта утилита не будет. Если же на некоторых страницах есть фотки и прочая сложная графика, и они выходят огромными, то можно отсортировать результаты по размеру и выходящие за произвольно выбранную границу перевести в JPEG. Вызывать сборку, следовательно, надо будет
… p01.png p02.jpg p03.png …
. Имеющиеся полностраничные оригиналы иллюстраций или сканов можно просто добавить без пережатия как отдельные страницы (убрав метаданные и поставив DPI под размер). Наконец, какие-то страницы можно не портить и отдельно вытащить в оригинальном PDF-формате и собирать финальный документ из исходников самых разных форматов.Если в документе один векторный текст, и надо, чтобы он не выглядел как говно при печати, либо там куча страниц, и файл выходит огроменный, можно растеризовать все чисто текстовые страницы как однобитные чёрно-белые с разрешением 300 или 600 dpi. Алгоритм сжатия факсов их сожмёт гораздо лучше обычного deflate.
А визуально всё это можно проделать в свободном и бесплатном NAPS2.
Продемонстрировать знание трендов и разрядить обстановку на переговорах можно при помощи элементов интернетного юмора:
http://kvazi-k700i.narod.ru/images_no_ie_jj_pechati.html
@l29ah Может, Ucoz Европу забанил, может, она его.