Hoi
Ik ben me wat aan het proberen inlezen in het gebruik van Local AI. Ik heb al wat gespeeld met Ollama en verschillende modellen, en op zich gaat dat wel goed, maar vrij traag op "normale" hardware.
Wat is zowat de aanbevolen hardware/software om hier effectief iets uit te halen?
Ik zag laatst deze
Leek me op zich wel interessant aangezien hardware/software vrij straightforward lijken maar ken er eigenlijk te weinig van.
Zijn er al Userbasers aan de slag hiermee die hun ervaringen kunnen delen?
Voor op het werk zijn we ook op zoek naar iets dat enerzijds betaalbaar is en anderzijds waar we de touwtjes qua gegevensuitwisseling zelf in handen hebben en dan kom je al snel bij een lokale setup
Local AI
-
liber!
- Elite Poster

- Berichten: 994
- Lid geworden op: 09 apr 2006, 17:48
- Twitter: nathan_gs
- Uitgedeelde bedankjes: 295 keer
- Bedankt: 100 keer
Interessant, maar NVIDIA consumer kaarten mag je niet voor commericieel gebruik gebruiken, dus is het puur eigen ollama zit je safe, ga je verder dan weer niet.
- keerekeerweere
- Pro Member

- Berichten: 280
- Lid geworden op: 09 nov 2008, 10:47
- Locatie: Opwijk
- Uitgedeelde bedankjes: 83 keer
- Bedankt: 27 keer
geen ervaring met dit type toestel.
wat me opvalt: uiteindelijk krijg je 96GB DDR5 voor cpu/mainboard en 24GB VRAM op RTX5090 mobile chip. maar die 24GB VRAM is wel wat krap voor zo'n bedrag.
llama_cpp (en dus ollama) kunnen wel overweg met overflow op het main geheugen, dus je kan wel wat modellen (met grotere context) voor inference gebruiken, maar voor dat geld zijn er beter opties denk ik.
je krijgt wel veel 'out-of-the-box' eenvoud voor de geïnstalleerde software. ik zou het daarvoor niet doen.
En dan nog altijd dezelfde aanbeveling, tenzij je echt je prompts, data lokaal en privacy afgeschermd wil houden, zou ik of wel voor inference providers gaan (die heb je tegenwoordig ook in de EU). zodra je met iets grotere modellen en/of grotere contexts aan de slag gaat is eigen koop of bouw niet echt voordelig.
tenzij je echt 24u per dag gaat agents, prompts, finetuning gaat doen, dan nog kom je met 2400,- EUR al een heel eind. de antwoordtijden met degelijke providers zijn dan ook een stuk lager dan met dit soort hardware.
wat je eens moet doen is bij een GPU hosting provider gaan kijken, neem eens een RTX5090 voor een uurtje of zo kost je een paar euro's, draai er ollama/openwebui op en probeer eens met wat modellen. doe hetzelfde met een AI inference provider (via de openai compatible api's), dat kost je afhankelijk van de tokens eveneens een paar euro's. daar heb je toegang tot heel wat grotere modellen en contexts. en probeer het zelf maar eens uit. zo leuk als zelfbouw of lokaal draaien kan zijn, zo duur is het geworden en eingelijk niet economisch interessant. vergeet ook je elektriciteit niet te rekenen
wat me opvalt: uiteindelijk krijg je 96GB DDR5 voor cpu/mainboard en 24GB VRAM op RTX5090 mobile chip. maar die 24GB VRAM is wel wat krap voor zo'n bedrag.
llama_cpp (en dus ollama) kunnen wel overweg met overflow op het main geheugen, dus je kan wel wat modellen (met grotere context) voor inference gebruiken, maar voor dat geld zijn er beter opties denk ik.
je krijgt wel veel 'out-of-the-box' eenvoud voor de geïnstalleerde software. ik zou het daarvoor niet doen.
En dan nog altijd dezelfde aanbeveling, tenzij je echt je prompts, data lokaal en privacy afgeschermd wil houden, zou ik of wel voor inference providers gaan (die heb je tegenwoordig ook in de EU). zodra je met iets grotere modellen en/of grotere contexts aan de slag gaat is eigen koop of bouw niet echt voordelig.
tenzij je echt 24u per dag gaat agents, prompts, finetuning gaat doen, dan nog kom je met 2400,- EUR al een heel eind. de antwoordtijden met degelijke providers zijn dan ook een stuk lager dan met dit soort hardware.
genoeg low cost inference providers met 3090, 4090, 5090, ... wel of niet voor commercieel gebruik.liber! schreef: 2 weken geleden Interessant, maar NVIDIA consumer kaarten mag je niet voor commericieel gebruik gebruiken, dus is het puur eigen ollama zit je safe, ga je verder dan weer niet.
wat je eens moet doen is bij een GPU hosting provider gaan kijken, neem eens een RTX5090 voor een uurtje of zo kost je een paar euro's, draai er ollama/openwebui op en probeer eens met wat modellen. doe hetzelfde met een AI inference provider (via de openai compatible api's), dat kost je afhankelijk van de tokens eveneens een paar euro's. daar heb je toegang tot heel wat grotere modellen en contexts. en probeer het zelf maar eens uit. zo leuk als zelfbouw of lokaal draaien kan zijn, zo duur is het geworden en eingelijk niet economisch interessant. vergeet ook je elektriciteit niet te rekenen
Telenet OneUp 1000/40 - Edpnet 100/40 - OPNSense
- NuKeM
- Administrator

- Berichten: 5710
- Lid geworden op: 10 nov 2002, 00:55
- Uitgedeelde bedankjes: 132 keer
- Bedankt: 270 keer
Ga voor een Mac met Apple Silicon Pro of Max CPU/GPU (omwille van bandbreedte), bijt door de zure geheugenprijs appel en kies voor genoeg geheugen (>=32GB). Aan de huidige geheugenprijzen valt het nog wel mee 
Het zal niet zo snel zijn als een top Nvidia-GPU, maar snel genoeg, je kan meer modellen draaien door meer geheugen en hij verbruikt aanzienlijk minder energie.
Als je even kan wachten, wacht dan op de M5 Pro of Max, naar verwachting gaat die weer grote stappen zetten, ook voor LLMs etc.
Naast LLMs kan je ook makkelijk text-to-image modellen draaien of (sinds kort) ook verschillende (recente) Macs clusteren met een performante backbone dankzij RDMA (Remote Direct Memory Access).
Het zal niet zo snel zijn als een top Nvidia-GPU, maar snel genoeg, je kan meer modellen draaien door meer geheugen en hij verbruikt aanzienlijk minder energie.
Als je even kan wachten, wacht dan op de M5 Pro of Max, naar verwachting gaat die weer grote stappen zetten, ook voor LLMs etc.
Naast LLMs kan je ook makkelijk text-to-image modellen draaien of (sinds kort) ook verschillende (recente) Macs clusteren met een performante backbone dankzij RDMA (Remote Direct Memory Access).
