BnW — l29ah: Завёл на Framework 13 LLM «Qwen3 30B…

Завёл на Framework 13 LLM «Qwen3 30B A3B» посредством llama.cpp. Очень хорошо работает, спасибо MoE. Q4_K_M выдаёт 12 токенов в секунду на iGPU через Vulkan. Наговнякал саммаризатор транскриптов видосов с ютуба: #!/bin/sh exec llama-cli -m ~llama/llama.cpp/models/Qwen3-30B-A3B/Qwen3-30B-A3B.i1-Q4_K_M.gguf -n -1 -t 6 --ctx-size 32768 -ngl 666 --device Vulkan0 --top-p 0.95 --top-k 20 --min-p 0 --temp 0.6 -sys 'Summarize the provided video transcript in a few sentences.' --single-turn --prompt "$(yt-text "$@")" --no-display-prompt 2> /dev/null | sed -ne '0,/<\/think>/d' -e p Возможно думалку вообще стоит отключить, поскольку думать там особо нечего. Также попробовал Qwen3 0.6B, с саммаризацией справляется плохо, и вообще не очень понятно, на что такое годится, но зато 50+ токенов в секунду строчит.

#HYPI00 / @l29ah / 105 дней назад

Хотел посоветовать дёргать краткое содержание прямо со странички, но понял, что даже Гугол не может тратить дофига электричества на добавление этой игрушки во все видео подряд.

#HYPI00/T0W / @ceyt / 105 дней назад