Завёл на Framework 13 LLM «Qwen3 30B A3B» посредством llama.cpp. Очень хорошо работает, спасибо MoE. Q4_K_M выдаёт 12 токенов в секунду на iGPU через Vulkan. Наговнякал саммаризатор транскриптов видосов с ютуба:
#!/bin/sh
exec llama-cli -m ~llama/llama.cpp/models/Qwen3-30B-A3B/Qwen3-30B-A3B.i1-Q4_K_M.gguf -n -1 -t 6 --ctx-size 32768 -ngl 666 --device Vulkan0 --top-p 0.95 --top-k 20 --min-p 0 --temp 0.6 -sys 'Summarize the provided video transcript in a few sentences.' --single-turn --prompt "$(yt-text "$@")" --no-display-prompt 2> /dev/null | sed -ne '0,/<\/think>/d' -e p
Возможно думалку вообще стоит отключить, поскольку думать там особо нечего.
Также попробовал Qwen3 0.6B, с саммаризацией справляется плохо, и вообще не очень понятно, на что такое годится, но зато 50+ токенов в секунду строчит.
Хотел посоветовать дёргать краткое содержание прямо со странички, но понял, что даже Гугол не может тратить дофига электричества на добавление этой игрушки во все видео подряд.