Compare commits
9 Commits
main
...
feat/switc
| Author | SHA1 | Date | |
|---|---|---|---|
| c233d06dcb | |||
| df3b927985 | |||
| 6ea3e870bd | |||
| 55ac2e5568 | |||
| 2d852879b6 | |||
| c6e4901dee | |||
| 8ab4213b62 | |||
| ebc71492c3 | |||
| 3034f987d7 |
@ -8,7 +8,9 @@ services:
|
|||||||
- "/srv/docker/ai/data/data:/app/backend/data" # Double data is intentional
|
- "/srv/docker/ai/data/data:/app/backend/data" # Double data is intentional
|
||||||
- "/srv/docker/ai/data/.webui_secret_key:/app/backend/.webui_secret_key"
|
- "/srv/docker/ai/data/.webui_secret_key:/app/backend/.webui_secret_key"
|
||||||
environment:
|
environment:
|
||||||
- OLLAMA_BASE_URL=https://ollama.lan.poldebra.me
|
- OPENAI_API_BASE_URL=https://ollama.lan.poldebra.me/v1
|
||||||
|
- OPENAI_API_KEY=sk-no-key-required
|
||||||
|
- ENABLE_OLLAMA_API=false
|
||||||
networks:
|
networks:
|
||||||
internal:
|
internal:
|
||||||
ipv4_address: 172.24.0.5
|
ipv4_address: 172.24.0.5
|
||||||
|
|||||||
@ -21,7 +21,7 @@
|
|||||||
X-Forwarded-Host {host}
|
X-Forwarded-Host {host}
|
||||||
X-Forwarded-Port {server_port}
|
X-Forwarded-Port {server_port}
|
||||||
}
|
}
|
||||||
reverse_proxy 172.23.0.5:11434 {
|
reverse_proxy 172.23.0.5:8080 {
|
||||||
header_up X-Forwarded-Proto {scheme}
|
header_up X-Forwarded-Proto {scheme}
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
|
|||||||
12
ollama/Dockerfile
Normal file
12
ollama/Dockerfile
Normal file
@ -0,0 +1,12 @@
|
|||||||
|
# syntax=docker/dockerfile:1
|
||||||
|
FROM ghcr.io/ggml-org/llama.cpp:server-rocm
|
||||||
|
|
||||||
|
ARG LLAMA_SWAP_VERSION=v199
|
||||||
|
ADD https://github.com/mostlygeek/llama-swap/releases/download/${LLAMA_SWAP_VERSION}/llama-swap_199_linux_amd64.tar.gz /tmp/llama-swap.tar.gz
|
||||||
|
RUN tar -xzf /tmp/llama-swap.tar.gz -C /usr/local/bin llama-swap \
|
||||||
|
&& chmod +x /usr/local/bin/llama-swap \
|
||||||
|
&& rm /tmp/llama-swap.tar.gz
|
||||||
|
|
||||||
|
EXPOSE 8080
|
||||||
|
ENTRYPOINT ["/usr/local/bin/llama-swap"]
|
||||||
|
CMD ["-config", "/etc/llama-swap/config.yaml", "-listen", ":8080"]
|
||||||
@ -1,15 +1,21 @@
|
|||||||
services:
|
services:
|
||||||
app:
|
app:
|
||||||
image: ollama/ollama:rocm
|
build: .
|
||||||
|
image: local/llama-swap-rocm:latest
|
||||||
restart: unless-stopped
|
restart: unless-stopped
|
||||||
hostname: ollama
|
hostname: ollama
|
||||||
container_name: ollama
|
container_name: ollama
|
||||||
user: 1000:1000
|
|
||||||
volumes:
|
volumes:
|
||||||
- "/srv/docker/ollama/data:/ubuntu/.ollama"
|
- "/srv/docker/ollama/data/models:/models:ro"
|
||||||
|
- "./llama-swap.yaml:/etc/llama-swap/config.yaml:ro"
|
||||||
|
environment:
|
||||||
|
- HIP_VISIBLE_DEVICES=0
|
||||||
devices:
|
devices:
|
||||||
- "/dev/kfd:/dev/kfd"
|
- "/dev/kfd:/dev/kfd"
|
||||||
- "/dev/dri:/dev/dri"
|
- "/dev/dri:/dev/dri"
|
||||||
|
group_add:
|
||||||
|
- video
|
||||||
|
- render
|
||||||
networks:
|
networks:
|
||||||
internal:
|
internal:
|
||||||
ipv4_address: 172.23.0.5
|
ipv4_address: 172.23.0.5
|
||||||
|
|||||||
130
ollama/llama-swap.yaml
Normal file
130
ollama/llama-swap.yaml
Normal file
@ -0,0 +1,130 @@
|
|||||||
|
healthCheckTimeout: 180
|
||||||
|
logLevel: info
|
||||||
|
|
||||||
|
models:
|
||||||
|
"qwen3.5:9b":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/Qwen3.5-9B-Q4_K_M.gguf
|
||||||
|
--mmproj /models/Qwen3.5-9B-mmproj-F16.gguf
|
||||||
|
--alias qwen3.5:9b
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 8192
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--temp 0.7 --top-p 0.9
|
||||||
|
|
||||||
|
"qwen3.5:9b-32k":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/Qwen3.5-9B-Q4_K_M.gguf
|
||||||
|
--mmproj /models/Qwen3.5-9B-mmproj-F16.gguf
|
||||||
|
--alias qwen3.5:9b-32k
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 32768
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--cache-type-k q8_0
|
||||||
|
--cache-type-v q8_0
|
||||||
|
--temp 0.7 --top-p 0.9
|
||||||
|
|
||||||
|
"qwen3.5:9b-uncensored":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/HauhauCS-Qwen3.5-9B-Uncensored-Aggressive.q4_k_m.gguf
|
||||||
|
--mmproj /models/HauhauCS-Qwen3.5-9B-Uncensored-Aggressive.mmproj.gguf
|
||||||
|
--alias "hf.co/HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive:q4_k_m"
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 32768
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--cache-type-k q8_0
|
||||||
|
--cache-type-v q8_0
|
||||||
|
--temp 0.7 --top-p 0.9
|
||||||
|
|
||||||
|
"qwen3.5:9b-claude-4.6-opus-reasoning":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/Jackrong-Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2.q4_k_m.gguf
|
||||||
|
--mmproj /models/Jackrong-Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2.mmproj.gguf
|
||||||
|
--alias "hf.co/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF:q4_k_m"
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 32768
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--cache-type-k q8_0
|
||||||
|
--cache-type-v q8_0
|
||||||
|
--temp 0.6 --top-p 0.95
|
||||||
|
|
||||||
|
"qwen3.5:9b-128k":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/Qwen3.5-9B-Q4_K_M.gguf
|
||||||
|
--mmproj /models/Qwen3.5-9B-mmproj-F16.gguf
|
||||||
|
--alias qwen3.5:9b-128k
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 131072
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--cache-type-k q8_0
|
||||||
|
--cache-type-v q8_0
|
||||||
|
--temp 0.7 --top-p 0.9
|
||||||
|
|
||||||
|
"qwen3.5:9b-uncensored-128k":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/HauhauCS-Qwen3.5-9B-Uncensored-Aggressive.q4_k_m.gguf
|
||||||
|
--mmproj /models/HauhauCS-Qwen3.5-9B-Uncensored-Aggressive.mmproj.gguf
|
||||||
|
--alias "hf.co/HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive:q4_k_m"
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 131072
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--cache-type-k q8_0
|
||||||
|
--cache-type-v q8_0
|
||||||
|
--temp 0.7 --top-p 0.9
|
||||||
|
|
||||||
|
"qwen3.5:9b-claude-4.6-opus-reasoning-128k":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/Jackrong-Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2.q4_k_m.gguf
|
||||||
|
--mmproj /models/Jackrong-Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2.mmproj.gguf
|
||||||
|
--alias "hf.co/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF:q4_k_m"
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 131072
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
--cache-type-k q8_0
|
||||||
|
--cache-type-v q8_0
|
||||||
|
--temp 0.6 --top-p 0.95
|
||||||
|
|
||||||
|
"gemma4:e4b-uncensored":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q8_K_P.gguf
|
||||||
|
--mmproj /models/mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf
|
||||||
|
--alias "hf.co/HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive:q8_k_p"
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 8192
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
|
|
||||||
|
"gemma4:26b-a4b":
|
||||||
|
cmd: |
|
||||||
|
/app/llama-server
|
||||||
|
--host 0.0.0.0 --port ${PORT}
|
||||||
|
--model /models/gemma-4-26B-A4B-it-UD-IQ4_NL.gguf
|
||||||
|
--mmproj /models/gemma-4-26B-A4B-it-UD-IQ4_NL-mmproj-BF16.gguf
|
||||||
|
--alias "hf.co/unsloth/gemma-4-26B-A4B-it:ud-iq4_nl"
|
||||||
|
--n-gpu-layers 999
|
||||||
|
--ctx-size 8192
|
||||||
|
--flash-attn on
|
||||||
|
--jinja
|
||||||
Loading…
x
Reference in New Issue
Block a user