Набыдлокодил простенький CLI для llama-server на Haskell: https://github.com/l29ah/llama-cpp-haskell
Позволяет использовать LLM в скриптах без необходимости каждый раз её вгружать в память видюхи, как с llama-cli, и без страшного не поддающегося аудиту блоата aichat с форками.
Не знаю пока буду ли tool calling в ближайшем будущем прикручивать: эксперименты с openhands показывают что код проще самому написать как надо, чем итеративно проверять и описывать нейронке что она делает не так, а не-программерских юзкейсов для него у меня пока нету.