LocalAI: open source alternativa pro zcela lokální umělou inteligenci

  • LocalAI nabízí API kompatibilní s OpenAI pro spouštění LLM, kamer, zvuku a agentů zcela lokálně a bez spoléhání se na cloud.
  • Jeho modulární architektura stahuje pouze nezbytné backendy, automaticky detekuje hardware a podporuje CPU, GPU, Metal, Jetson a distribuovanou akceleraci.
  • Ekosystém zahrnuje LocalAGI, LocalRecall a přepracované webové rozhraní s podporou MCP, agenty s externími nástroji a pokročilou správu modelů.
  • Komunita velmi aktivně pracuje na vývoji a vývoji odvozených aplikací, jako jsou například mobilní klienti s lokálním chatem s umělou inteligencí zaměření na soukromí a offline.

LocalAI

Pokud máte zájem o nastavení vlastní umělé inteligence doma nebo na serverech, aniž byste byli na někom závislí, LocalAI se stala jednou z klíčových referencí v ekosystému open source.Není to jen další projekt: je to Celá rodina nástrojů navržených jako přímá náhrada za OpenAI API a další komerční platformyale běží lokálně, s plnou kontrolou nad vašimi daty a bez povinných požadavků na GPU.

LocalAI zdaleka není jen modelovým serverem, ale vyvinul se v Kompletní agentová platforma, sémantická paměť, multimodální generování a distribuované nasazeníTo vše s modulární architekturou, která se přizpůsobí jak velmi skromnému hardwaru, tak pokročilým infrastrukturám s GPU, Jetsonem nebo distribuovanými clustery.

Co je LocalAI a proč se o něm tolik mluví?

LocalAI je open-source projekt pod licencí MIT, který funguje jako REST API kompatibilní se specifikací OpenAI (a podobnými službami jako Anthropic nebo Elevenlabs)Ale běží výhradně na vašem vlastním počítači nebo v místní infrastruktuře. Spravuje ho Ettore Di Giacinto a velmi aktivní komunita a na GitHubu si již získal desítky tisíc hvězdiček, což odráží obrovský zájem o cloudová řešení umělé inteligence.

Hlavní myšlenkou je, že můžete Používejte své klienty, SDK a nástroje určené pro OpenAI API bez nutnosti měnit kódJednoduše nasměrujte koncové body na vaši instanci LocalAI. Odtud můžete spouštět LLM, generovat obrázky a zvuk, používat TTS, provádět sémantické vyhledávání, detekci objektů a další, to vše lokálně, bez odesílání jakýchkoli dat ven.

Jednou z nejvýraznějších výhod je, že Nepotřebujete nutně GPUMnoho modelů může běžet pouze na CPU, což otevírá dveře k jejich montáži na NAS, NUC, starý server nebo jakýkoli počítač s minimálními zdroji, a umožňuje tak přizpůsobit velikost a kvantizaci modelů vašim hardwarovým omezením.

Rodina Local Stack: LocalAI, LocalAGI a LocalRecall

Jak projekt rostl, transformoval se do „rodina“ propojených nástrojů, které pokrývají mnohem více než jen jednoduché odvozování modelůDnes se tzv. „Local Stack“ skládá hlavně ze tří klíčových komponent, které mohou fungovat společně nebo samostatně.

Na jedné straně zůstává LocalAI centrální pilíř jako API kompatibilní s OpenAI pro text, obrázky, zvuk a další modalityZajišťuje komunikaci s různými inferenčními backendy (llama.cpp, vLLM, transformátory, difuzéry atd.) a poskytuje standardní rozhraní, které podporuje chat, doplňování, generování obrázků, převod textu na jazyk, vkládání textu, změnu pořadí a dokonce i experimentální koncové body, jako je převod textu na video.

Vedle něj se objevuje LocalAGI, která funguje jako Platforma pro správu agentů s umělou inteligencí a pokročilou podporou nástrojů a pracovních postupů pro agentyFunguje jako vylepšená náhrada za Responses API od OpenAI a umožňuje definovat agenty, kteří dokáží uvažovat, plánovat kroky, vyvolávat externí nástroje a koordinovat složité úkoly autonomně, ale vždy běží lokálně.

Třetím prvkem je LocalRecall, navržený jako REST API a systém správy znalostí s perzistentní pamětí pro agentyV podstatě poskytuje vrstvu sémantického úložiště, vektorovou databázi a dlouhodobou správu kontextu, aby si agenti a modely mohli v průběhu času pamatovat informace, dokumenty a stavy konverzace, aniž by museli záviset na externích službách.

Klíčové schopnosti: nad rámec jednoduchého lokálního LLM

Jedním z důvodů, proč si LocalAI získala takovou popularitu, je to, že Není omezeno na obsluhu velkých jazykových modelůProjekt pokrývá velmi širokou škálu možností umělé inteligence, což z něj činí jakousi „obecnou infrastrukturu“ pro samostatně hostované inteligentní aplikace.

V oblasti jazyka umožňuje LocalAI spouštět LLM kompatibilní s více rodinami modelů (Llama, Gemma, Qwen, Phi, Mistral, SmollVLM a další) s podporou modelů ve formátu GGUF prostřednictvím llama.cpp nebo prostřednictvím backendů, jako jsou transformers nebo vLLM, v závislosti na dostupném hardwaru a požadavcích na výkon.

Pokud jde o multimodální vizi a generování, LocalAI nabízí podpora difúzních modelů, editace obrázků, modely vizuální řeči a detekce objektů v reálném časeTo zahrnuje integraci s projekty jako stable-diffusion.cpp, difuzéry HuggingFace, modely jako FLUX, WAN nebo Qwen 3 VL a specializované API pro detekci objektů podporované rf-detr, které může běžet velmi efektivně i na CPU.

Zvuk je další silnou stránkou: LocalAI se integruje backendy pro hlas v reálném čase, převod textu na řeč a rozpoznávání řeči s klonovánímNašli jsme vše od whisper.cpp a faster-whisper pro transkripci, až po TTS enginy jako Bark, Bark-cpp, Coqui, Kokoro, KittenTTS, Piper, Chatterbox, neutts nebo Vibevoice, a také modely detekce hlasové aktivity (VAD) jako silero-vad pro řízení, kdy mluvit nebo přerušovat ticho.

Modulární architektura: lehké binární a on-demand backendy

Jednou z hlavních nedávných revolucí v projektu byl přechod na plně modulární architektura, kde je hlavní binární soubor LocalAI oddělen od backendůDříve byly obrazy „vše v jednom“ velké a standardně obsahovaly všechny možné enginy, což komplikovalo lehké nasazení a upgrady.

S touto novou filozofií jsou základní obraz Dockeru a binární soubor LocalAI mnohem menší a stahují potřebné backendy pouze v případě potřebyKdyž nainstalujete model z galerie nebo prostřednictvím souborů YAML, LocalAI automaticky detekuje váš hardware (CPU, NVIDIA, AMD nebo Intel GPU) a stáhne vhodnou variantu backendu, kterou model potřebuje.

Navíc díky tomuto designu nyní Backendy můžete spravovat nezávisle z vyhrazené galerie, a to i ve vývojových verzích.To znamená, že nemusíte čekat na novou verzi LocalAI, abyste si mohli vyzkoušet nejnovější backend llama.cpp, whisper.cpp nebo diffusers: jednoduše aktualizujte danou komponentu a systém ji bude používat za chodu.

Dalším praktickým detailem, který si vysoce cení ti, kteří pracují v izolovaném prostředí nebo s velmi specifickými požadavky, je možnost načíst vlastní backendy pouhým zkopírováním binárních souborů do určené složkyBez nutnosti rekompilace celých kontejnerů můžete testovat optimalizované sestavení, varianty pro specifické architektury nebo opravené sestavení backendů, aniž byste museli ovlivnit celý systém.

Kompatibilita s více backendy umělé inteligence

LocalAI integruje skutečně rozsáhlý seznam backendů, které pokrývají různé typy modelů a případů užití. podpora akcelerace přizpůsobená každému hardwaruSrdcem LLM se obvykle točí kolem llama.cpp, vLLM a transformátorů, ale existuje jich mnohem více.

V obecné části LLM poskytuje soubor llama.cpp Efektivní inference v C/C++ s podporou pro CUDA, ROCm, Intel SYCL, Vulkan, Metal a čistě CPUumožňuje běh kvantovaných modelů na počítačích bez GPU. vLLM přináší PagedAttention a optimalizace zaměřené na propustnost s akcelerací pro CUDA a ROCm, zatímco transformers otevírá dveře k rozsáhlé kolekci modelů HuggingFace na platformách CUDA, ROCm, Intel a CPU.

Pro zvuk jsou kombinovány backendy jako whisper.cpp a faster-whisper do Rychlé a přenosné rozpoznávání řeči na CPU nebo GPU, a širokou škálu TTS enginů: Bark and Bark-cpp, Coqui, Kokoro, Kitten-TTS, Piper, Chatterbox, Neutts a Vibevoice, každý s vlastní rovnováhou mezi kvalitou, latencí a hardwarovými požadavky, od čistě CPU až po CUDA, ROCm, Metal nebo Intel.

Z hlediska vize a šíření projekt podporuje stablediffusion.cpp jako implementace Stable Diffusion v C/C++a také knihovnu difuzérů HuggingFace pro novější modely generování a úprav obrázků. V závislosti na backendu lze využít CUDA, ROCm, Intel SYCL, Metal nebo jednoduše CPU.

Kromě LLM, zvuku a obrázků integruje LocalAI Specifické backendy, jako je rfdetr pro detekci objektů, moduly pro přehodnocení dokumentů a lokální úložiště vektorůKromě toho se integruje s rozhraním HuggingFace API, aby v případě potřeby kombinovala lokální a vzdálenou inferenci. Díky tomu je platforma velmi komplexní pro vytváření rozšířených vyhledávacích systémů, asistentů pro navigaci v dokumentech nebo lokálních MLOps kanálů.

Akcelerace: Od optimalizace pro CPU po GPU, Metal a Jetson

Aby se zajistilo, že nikdo nezůstane stranou, LocalAI nabízí vrstvu Vysoce flexibilní akcelerace s konfiguracemi pro téměř jakýkoli typ moderního hardwaruPokud máte grafickou kartu NVIDIA, můžete využít CUDA 12 nebo 13 ve většině kompatibilních backendů, od llama.cpp až po difuzéry nebo coqui, a upravit počet vrstev GPU nebo zátěž podle vašich zdrojů.

V případě grafických karet AMD se LocalAI spoléhá na ROCm. Zrychlete klíčové backendy, jako jsou llama.cpp, whisper, vLLM, transformátory, difuzéry, rerankery a různé TTSTo je velmi zajímavé pro ty, kteří si zakládají domácí laboratoře s kartami Radeon. Pro hardware Intel je podpora zajištěna prostřednictvím oneAPI a dalších technologií, které nasazují akceleraci v backendech, jako jsou llama.cpp, whisper, stablediffusion, vLLM, diffusery, rfdetr, rerankery a hlasové enginy jako Coqui nebo Bark.

Pokud pracujete s Macem, platforma se integruje s Metalem a nativními backendy MLX a MLX-VLM od společnosti Apple a nabízí… Optimalizovaná inference na čipech M1, M2 a M3+ jak pro LLM, tak pro multimodální modely, navíc s podporou v bark-cpp a dalších komponentách kompatibilních s Metal.

Nezapomněli ani na vložené scénáře: pro ně existuje specifická podpora. NVIDIA Jetson s CUDA 12 a 13To umožňuje spouštět llama.cpp, shippet, stablediffusion, diffusers a rfdetr na zařízeních ARM64, jako je AGX Orin, nebo na platformách edge computingu, což je velmi užitečné pro projekty robotiky, bezpečnosti nebo inteligentního internetu věcí.

A to vše je samozřejmě doplněno Spustitelné soubory optimalizované pro CPU s podporou instrukčních sad, jako jsou AVX, AVX2 a AVX512Kromě variant pro backend, jako je whisper.cpp, kompilovaných speciálně podle možností procesoru, čímž se zabrání chybám „neplatné instrukce“ na starších nebo nízkopříkonových strojích.

Instalace: binární soubory, skript, Docker a AIO

V praxi tým LocalAI vynaložil velké úsilí, aby zajistil, že Zprovoznění by nemělo být odyseouExistuje několik metod instalace v závislosti na prostředí a úrovni zkušeností, a to jak pro rychlé testy, tak pro serióznější nasazení.

Na jedné straně můžete začít s instalační skript, který stáhne příslušný binární soubor a nakonfiguruje základní nastaveníPřímé binární soubory existují i ​​pro různé desktopové platformy, i když například v systému macOS nejsou DMG podepsány společností Apple, což může způsobit, že je systém označí jako „v karanténě“ a k jejich otevření bude potřeba malá oklika (tým průběžně informuje o problémech s řešeními a možnými vylepšeními).

Dalším velmi běžným způsobem je použití Dockeru k nasazení LocalAI jako samostatný kontejner, ať už pro obrazy CPU, GPU nebo AIO s předem staženými modelyMůžete si vybrat pouze obrazy CPU, kombinované obrazy CPU+GPU nebo obrazy All-In-One, které obsahují počáteční sadu modelů připravených k použití, ačkoli ty druhé zabírají více místa a bylo varováno, že v budoucnu by některé „dodatečné“ varianty mohly být zastaralé ve prospěch nového systému správy backendu.

Při práci s Dockerem je důležité rozlišovat mezi docker run, který vytvoří a spustí nový kontejnerA `docker start`, který jednoduše spouští existující. Pokud jste již spustili LocalAI a chcete ho restartovat, správný způsob je použít něco jako `docker start -i local-ai`, abyste se vyhnuli duplicitě kontejnerů nebo vytváření konfliktů s již registrovanými názvy.

Načítání modelu a automatická detekce backendu

Jakmile máte LocalAI spuštěnou a funkční, dalším krokem je Načtěte modely, které budete používat, buď z oficiální galerie, nebo pomocí konfiguračních souborů YAML.Toto je fáze, ve které vstupuje do hry logika automatické detekce hardwaru a backendu.

Když vyberete model ve WebUI nebo jej definujete v YAML, LocalAI Analyzujte možnosti vašeho počítače (typ GPU, zda se jedná o NVIDIA, AMD nebo Intel, podpora CPU atd.) a stáhněte si vhodný backend. pro danou kombinaci modelu a zařízení. Tímto způsobem se vyhnete ručnímu zjišťování, který binární soubor llama.cpp, diffusers nebo whisper.cpp potřebujete pro vaše konkrétní prostředí.

Pokud potřebujete větší kontrolu, konfigurace YAML vám to umožní Upravte parametry, jako je velikost kontextu, počet vrstev GPU, využití mmap, kvantizace nebo definice nástrojů agentůA díky přepracovanému WebUI je nyní možné upravovat veškerý YAML přímo z grafického rozhraní, aniž byste se museli připojovat k serveru přes SSH nebo ručně upravovat soubory.

Přepracované webové rozhraní: Vizuální správa modelů, chatu a agentů v LocalAI

Webové rozhraní prošlo zásadním redesignem zaměřeným na pokročilé uživatele a zároveň zůstalo přístupné i těm, kteří si chtějí web prohlédnout pouze vizuálně. Migrace z HTML na kombinaci Alpine.js a nativní JavaScript výrazně zlepšily rychlost a plynulost. ze zkušeností, zejména v prostředích s mnoha konfiguracemi nebo modely.

Z tohoto webového rozhraní máte přístup rozhraní chatu, generování obrázků, zvuk, správa modelů a interní konfiguraceK dispozici je seznam modelů s fuzzy vyhledáváním, takže i když při psaní uděláte chybu (například „gema“ místo „gemma“), systém vám zobrazí správné výsledky, aniž byste se museli zbláznit snahou upřesnit přesný výraz.

Jedním z nejpraktičtějších bodů je, že webové rozhraní umožňuje Zobrazení a úprava kompletní konfigurace YAML pro každý model Z prohlížeče, aniž byste museli opustit aplikaci. Zde můžete změnit maximální kontext, povolit nebo zakázat multimodální podporu, upravit parametry výkonu nebo definovat nástroje a MCP servery pro agenty, to vše s okamžitou platností po uložení změn.

Agenti a podpora MCP: Umělá inteligence, která používá nástroje lokálně

Ve svých nedávných verzích LocalAI udělala významný krok vpřed začleněním Plná podpora modelu kontextu protokolu (PCM) a pokročilých agentních funkcíTo umožňuje konstrukci agentů, kteří nejen odpovídají na otázky, ale také mohou používat externí nástroje, plánovat kroky a orchestrovat složité úkoly.

Integrace MCP je založena na frameworku vyvinutém z LocalAGI a souvisejících projektů, jako je Cogito, což vede k jednoduchému způsobu Definujte „MCP servery“ jako kontejnery nebo externí služby, které zpřístupňují nástrojeNapříklad můžete mít server MCP, který provádí vyhledávání na DuckDuckGo, další, který se dotazuje na interní API vaší společnosti, nebo server, který spouští skripty na vašem lokálním počítači.

Z pohledu vývojáře stačí Nakonfigurujte tyto MCP servery v YAML modelu, aniž byste museli psát kód v Pythonu nebo používat specifické knihovny.Po konfiguraci můžete použít koncový bod /mcp/v1/chat/completions, kompatibilní s OpenAI API, nebo přímo aktivovat „MCP Agent Mode“ z webového rozhraní chatu, aby model začal vyvolávat nástroje, když to považuje za nutné.

Tým také investoval úsilí do Zlepšit robustnost volání funkcí a zpracování schémat JSONToto opravuje chyby a panické situace, ke kterým mohlo docházet, když modely generovaly nedokonalé definice nástrojů. Díky těmto vylepšením je používání nástrojů a agentní pracovní postup v produkčním prostředí mnohem stabilnější.

Plán LocalAI a neustálý vývoj projektu

LocalAI se pohybuje velmi rychle, s veřejný plán ve formě označených problémů kde můžete sledovat nejnovější aktualizace a ty plánované na nadcházející měsíce. Plán ukazuje nepřetržitou posloupnost vylepšení, která zahrnují jak nové funkce, tak interní vylepšení.

V posledních letech byly přidány následující Funkce jako distribuovaná inference, federovaný režim, P2P pro spouštění LLM v síti, dashboardy pro správu rojů instancí a podpora nových modelů a backendů. (Flux, MLX-Audio, WAN, SANA, Bark.cpp, stablediffusion.cpp atd.), stejně jako Reranker API a integrované API pro vyhledávání objektů.

Došlo také k milníkům, jako např. Migrace všech backendů z hlavního binárního souboru pro snížení hmotnostiSoučástí plánu je příchod nového launcheru pro macOS a Linux, průběžné vylepšování webového uživatelského rozhraní a přidání experimentálních API, jako je převod textu na video přes /v1/videos, které se propojuje s lokálními nástroji umělé inteligence, jako je lokální střih videa. Budoucí plány zahrnují dynamičtější správu paměti, vylepšenou podporu více GPU, nové integrace agentů a rozšířený ekosystém nástrojů MCP.

Příklady použití v komunitě a mobilní aplikaci Local AI Chatbot

Duch LocalAI je úzce spjat s komunitou, což se odráží v vlastní příspěvky tvůrce na fórech, jako je r/selfhosted nebo/LocalLLaMAToto fórum je místem, kde se z první ruky sdílí vývoj architektury a dostávají se odpovědi na otázky uživatelů. Mnoho komentářů se točí kolem toho, jak integrovat LocalAI jako soukromý „mozek“ pro automatizaci a osobní projekty.

Jedním z případů, které ilustrují přístup „zcela lokální“, je vznik Mobilní aplikace jako Local AI Chatbot od Software Tailor, které nabízejí chat s pokročilými modelkami přímo na zařízení bez připojení k internetu.Tato aplikace vám umožňuje komunikovat s modely jako DeepSeek R1, Qwen, Mistral, Llama 3 nebo Phi zcela offline, přičemž zachovává 100% soukromí a využívá hardwarové možnosti telefonu.

Mezi jeho vlastnosti patří Podpora více modelů s rychlým přepínáním mezi nimi, design zaměřený na efektivní spotřebu zdrojů a čisté rozhraní pro bezproblémové chatování.Je zaměřen na uživatele, kteří dbají na soukromí, profesionály nakládající s citlivými informacemi, lidi v oblastech se špatným připojením k internetu a nadšence do umělé inteligence, kteří se zajímají o experimentování s lokálními modely.

Tyto typy řešení ukazují, jak ekosystém kolem LocalAI a lokální AI přesahuje hlavní server, přináší filozofii „vše na vašem zařízení“ na mobilní telefony, stolní počítače a další formáty, s cílem, aby si kdokoli mohl užívat pokročilé asistenty, aniž by se musel spoléhat na vzdálené služby.

Projekt LocalAI a jeho rodina nástrojů ukazují, jak to lze udělat Vybudovat kompletní sadu privátní, rozšiřitelné, modulární a multimodální umělé inteligence, schopné pokrýt vše od jednoduchého chatu až po komplexní agenty s pamětí a nástroji, aniž by se člověk musel vzdát svobody svobodného softwaru nebo úplné kontroly nad daty., která se prezentuje jako velmi seriózní alternativa pro ty, kteří nechtějí, aby umělá inteligence jejich projektů závisela na třetích stranách.

Nadace Agent AI
Související článek:
Nadace pro agentickou umělou inteligenci: nová společná fronta pro otevřenou agentickou umělou inteligenci, na které spolupracuje Nadace pro Linux.