Local AI

Plaats reactie
BertG3
Administrator
Administrator
Berichten: 1840
Lid geworden op: 27 okt 2014, 20:46
Uitgedeelde bedankjes: 177 keer
Bedankt: 251 keer
Provider

Hoi

Ik ben me wat aan het proberen inlezen in het gebruik van Local AI. Ik heb al wat gespeeld met Ollama en verschillende modellen, en op zich gaat dat wel goed, maar vrij traag op "normale" hardware.

Wat is zowat de aanbevolen hardware/software om hier effectief iets uit te halen?

Ik zag laatst deze



Leek me op zich wel interessant aangezien hardware/software vrij straightforward lijken maar ken er eigenlijk te weinig van.

Zijn er al Userbasers aan de slag hiermee die hun ervaringen kunnen delen?

Voor op het werk zijn we ook op zoek naar iets dat enerzijds betaalbaar is en anderzijds waar we de touwtjes qua gegevensuitwisseling zelf in handen hebben en dan kom je al snel bij een lokale setup
liber!
Elite Poster
Elite Poster
Berichten: 994
Lid geworden op: 09 apr 2006, 17:48
Twitter: nathan_gs
Uitgedeelde bedankjes: 295 keer
Bedankt: 100 keer
Te Koop forum

Interessant, maar NVIDIA consumer kaarten mag je niet voor commericieel gebruik gebruiken, dus is het puur eigen ollama zit je safe, ga je verder dan weer niet.
Gebruikersavatar
keerekeerweere
Pro Member
Pro Member
Berichten: 280
Lid geworden op: 09 nov 2008, 10:47
Locatie: Opwijk
Uitgedeelde bedankjes: 83 keer
Bedankt: 27 keer
Provider
Te Koop forum

geen ervaring met dit type toestel.

wat me opvalt: uiteindelijk krijg je 96GB DDR5 voor cpu/mainboard en 24GB VRAM op RTX5090 mobile chip. maar die 24GB VRAM is wel wat krap voor zo'n bedrag.
llama_cpp (en dus ollama) kunnen wel overweg met overflow op het main geheugen, dus je kan wel wat modellen (met grotere context) voor inference gebruiken, maar voor dat geld zijn er beter opties denk ik.

je krijgt wel veel 'out-of-the-box' eenvoud voor de geïnstalleerde software. ik zou het daarvoor niet doen.

En dan nog altijd dezelfde aanbeveling, tenzij je echt je prompts, data lokaal en privacy afgeschermd wil houden, zou ik of wel voor inference providers gaan (die heb je tegenwoordig ook in de EU). zodra je met iets grotere modellen en/of grotere contexts aan de slag gaat is eigen koop of bouw niet echt voordelig.
tenzij je echt 24u per dag gaat agents, prompts, finetuning gaat doen, dan nog kom je met 2400,- EUR al een heel eind. de antwoordtijden met degelijke providers zijn dan ook een stuk lager dan met dit soort hardware.
liber! schreef: 2 weken geleden Interessant, maar NVIDIA consumer kaarten mag je niet voor commericieel gebruik gebruiken, dus is het puur eigen ollama zit je safe, ga je verder dan weer niet.
genoeg low cost inference providers met 3090, 4090, 5090, ... wel of niet voor commercieel gebruik.


wat je eens moet doen is bij een GPU hosting provider gaan kijken, neem eens een RTX5090 voor een uurtje of zo kost je een paar euro's, draai er ollama/openwebui op en probeer eens met wat modellen. doe hetzelfde met een AI inference provider (via de openai compatible api's), dat kost je afhankelijk van de tokens eveneens een paar euro's. daar heb je toegang tot heel wat grotere modellen en contexts. en probeer het zelf maar eens uit. zo leuk als zelfbouw of lokaal draaien kan zijn, zo duur is het geworden en eingelijk niet economisch interessant. vergeet ook je elektriciteit niet te rekenen :-)
Telenet OneUp 1000/40 - Edpnet 100/40 - OPNSense
Gebruikersavatar
NuKeM
Administrator
Administrator
Berichten: 5710
Lid geworden op: 10 nov 2002, 00:55
Uitgedeelde bedankjes: 132 keer
Bedankt: 270 keer

Ga voor een Mac met Apple Silicon Pro of Max CPU/GPU (omwille van bandbreedte), bijt door de zure geheugenprijs appel en kies voor genoeg geheugen (>=32GB). Aan de huidige geheugenprijzen valt het nog wel mee ;)
Het zal niet zo snel zijn als een top Nvidia-GPU, maar snel genoeg, je kan meer modellen draaien door meer geheugen en hij verbruikt aanzienlijk minder energie.
Als je even kan wachten, wacht dan op de M5 Pro of Max, naar verwachting gaat die weer grote stappen zetten, ook voor LLMs etc.
Naast LLMs kan je ook makkelijk text-to-image modellen draaien of (sinds kort) ook verschillende (recente) Macs clusteren met een performante backbone dankzij RDMA (Remote Direct Memory Access).
Plaats reactie

Terug naar “Artificial intelligence (prompts, llm, apps, ...)”