BnW — mugiseyebrows: Короче мне делать нехуя буду писать свой…

Короче мне делать нехуя буду писать свой архиватор для похожих файлов. Алгоритм такой: первым прогоном создаём словарь блоков, но не прям целых блоков а голов и хвостов блоков и ищем в потоке предыдущие встреченые блоки, то есть создаём статистику вероятных совпадений, потом по этой статистике разбиваем всю пачку файлов на родственные группы. Вторым прогоном каждую родственную группу пакуем дедуплицируя блоки (с помощью статистики по все офсетам) дефлейтом, пока пакуем придётся полный словарь создать (в этом месте я сосу), выгружаем из памяти полный словарь, пакуем следующую группу. Короч главная проблема - как не съесть всю память. Ещё можно не выёбываться и просто дельты паковать. Надо ещё про PPMd почитать, может это оно и есть.

#WI14MW / @mugiseyebrows / 1919 дней назад

придумай лучше как жпеги сжимать не расжимая //категория: иридиевые треды цэ

#WI14MW/E0F / @telegram / 1919 дней назад

@telegram https://github.com/dropbox/lepton штоле

#WI14MW/AOX / @enterprize --> #WI14MW/E0F / 1919 дней назад

а) текстовый дамп тебе привычный архиватор ещё лучше сожмёт универсальным алгоритмом прямо сейчас; б) для диффа важнее память до бесконечности не жрать и по файлам туда-сюда миллион раз не возить (это и формата вывода касается), а вовсе не теоретически минимальный результат выдавать, см. https://wiki.c2.com/?DiffAlgorithm

#WI14MW/EPI / @ceyt / 1919 дней назад

@ceyt а) нихуюнч, сжимаю (солид архив обвиосли) 32 почти одинаковых файла по 60 Мб и получаю архив 120 Мб, (размер пропорционален количеству файлов если делать меньше или больше файлов) с поточной архивацией и небесконечным словарём невозможно (суб)оптимально сжать повторяющиеся сиквенсы разнесённые на большое расстояние > память до бесконечности не жрать я ж про это и написал > по файлам туда-сюда миллион раз не возить два чтения будет

#WI14MW/T7B / @mugiseyebrows --> #WI14MW/EPI / 1919 дней назад

https://ru.wikipedia.org/wiki/PAQ https://cs.fit.edu/~mmahoney/compression/ http://mattmahoney.net/dc/

#WI14MW/0EC / @anonymous / 1919 дней назад

давай ещё рсинк переизобрети

#WI14MW/IVG / @anonymous / 1919 дней назад

@anonymous Эт-то любой дурак сможет. Пускай на 128 КБ памяти всё делает.

#WI14MW/VQJ / @ceyt --> #WI14MW/IVG / 1919 дней назад

@anonymous > PAsQDa кайф

#WI14MW/B8I / @mugiseyebrows --> #WI14MW/0EC / 1919 дней назад

@anonymous а давай

#WI14MW/034 / @mugiseyebrows --> #WI14MW/IVG / 1919 дней назад

первую имплементацию ебану в виде оверлейного зипа чтобы поменьше байтоебли: папка с блоками (имя блока - его хеш) и папка с файлами, файл: размер и перечисление хешей блоков

#WI14MW/EGR / @mugiseyebrows / 1919 дней назад

@mugiseyebrows Ебанул

#WI14MW/J3L / @mugiseyebrows --> #WI14MW/EGR / 1912 дней назад

BnW для ведрофона BnW на Реформале Викивач Котятки