LLMs Open Source: Alternativas Gratuitas ao ChatGPT
Llama 3, Mistral, Mixtral e outros modelos que você pode rodar de graça
•15 min de leitura
Você não precisa pagar pela API da OpenAI para usar LLMs. Existem modelos open source poderosos que você pode rodar localmente ou em cloud própria — de graça.
Os Melhores LLMs Open Source
🦙 Llama 3 (Meta)
Llama 3 (Meta AI)
📊 Versões:
- Llama 3 8B: Roda em GPUs consumer
- Llama 3 70B: Precisa de GPUs enterprise
- Llama 3 405B: Comparável ao GPT-4
✅ Pontos fortes:
- Melhor modelo open source
- 128k contexto
- Excelente para código
- Licença permissiva (uso comercial OK)
💻 Requisitos (8B):
- 16GB RAM
- 8GB VRAM (RTX 3070+)
💻 Requisitos (70B):
- 64GB+ RAM
- 40GB+ VRAM (A100, 2x RTX 4090)🌬️ Mistral / Mixtral
Mistral AI (empresa francesa)
📊 Versões:
- Mistral 7B: Pequeno e eficiente
- Mixtral 8x7B: MoE, muito capaz
- Mixtral 8x22B: Top tier
✅ Pontos fortes:
- Muito eficiente (qualidade/tamanho)
- Mixtral usa Mixture of Experts
- Bom para raciocínio
💻 Requisitos (Mistral 7B):
- 16GB RAM
- 6GB VRAM
💻 Requisitos (Mixtral 8x7B):
- 32GB RAM
- 24GB VRAM🐬 Phi-3 (Microsoft)
Phi-3 (Microsoft Research)
📊 Versões:
- Phi-3 Mini (3.8B)
- Phi-3 Small (7B)
- Phi-3 Medium (14B)
✅ Pontos fortes:
- MUITO pequeno para a qualidade
- Roda até em celular
- Bom para edge computing
💻 Requisitos (Mini):
- 8GB RAM
- 4GB VRAMOutros Modelos Notáveis
Qwen 2 (Alibaba)
- Até 72B parâmetros
- Muito bom em chinês e inglês
- Bom para código
Gemma 2 (Google)
- 2B, 9B, 27B parâmetros
- Licença permissiva
- Otimizado para eficiência
CodeLlama (Meta)
- Especializado em código
- 7B, 13B, 34B, 70B
- Melhor que Llama base para programação
StarCoder 2 (BigCode)
- Focado 100% em código
- Treinado em código open source
- Licença responsávelComo Rodar Localmente
Opção 1: Ollama (Mais Fácil)
# Instalar Ollama
# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: baixe em ollama.com
# Rodar modelo
ollama run llama3
# Listar modelos disponíveis
ollama list
# Baixar modelo específico
ollama pull mistral
ollama pull mixtral
ollama pull phi3
# Usar via API (compatível com OpenAI!)
curl http://localhost:11434/v1/chat/completions \
-d '{
"model": "llama3",
"messages": [{"role": "user", "content": "Olá!"}]
}'Opção 2: LM Studio (Interface Gráfica)
LM Studio - Interface amigável
1. Baixe em lmstudio.ai
2. Busque modelos no app
3. Baixe com 1 click
4. Chat interface incluída
5. API local compatível com OpenAI
Bom para:
- Iniciantes
- Testar modelos
- Uso pessoalOpção 3: vLLM (Produção)
# vLLM - Para produção de alto volume
pip install vllm
# Rodar servidor
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Meta-Llama-3-8B-Instruct
# Features:
# - Muito rápido (PagedAttention)
# - Batching automático
# - Compatível com OpenAI API
# - Escala horizontalOpção 4: Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)
messages = [
{"role": "user", "content": "Explique Python em uma frase."}
]
input_ids = tokenizer.apply_chat_template(
messages,
return_tensors="pt"
).to(model.device)
outputs = model.generate(input_ids, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)Usando no Código (API Local)
# Ollama é compatível com OpenAI SDK!
from openai import OpenAI
# Apontar para Ollama local
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Qualquer string funciona
)
response = client.chat.completions.create(
model="llama3",
messages=[
{"role": "user", "content": "Olá! Como você está?"}
]
)
print(response.choices[0].message.content)
# Mesmo código funciona com OpenAI ou local!
# Só muda o base_urlComparativo: Open Source vs Proprietário
| Aspecto | Open Source | Proprietário |
|---|---|---|
| Custo | Gratuito* | Por token |
| Privacidade | 100% local | Dados vão para cloud |
| Qualidade (top) | ~90% do GPT-4 | Referência |
| Setup | Mais complexo | API key e pronto |
| Latência | Depende do hardware | Otimizada |
| Customização | Total (fine-tuning) | Limitada |
* Custo de hardware/cloud se não tiver GPU
Quando Usar Open Source
✅ Use Open Source quando:
1. PRIVACIDADE É CRÍTICA
- Dados sensíveis (saúde, financeiro)
- Compliance (LGPD, HIPAA)
- Não pode enviar dados para terceiros
2. VOLUME MUITO ALTO
- Milhões de requests/mês
- Custo de API seria proibitivo
- Latência precisa ser mínima
3. CUSTOMIZAÇÃO NECESSÁRIA
- Fine-tuning em dados próprios
- Modificar o modelo
- Casos de uso muito específicos
4. OFFLINE / EDGE
- Aplicações que rodam sem internet
- Dispositivos IoT
- Ambientes air-gapped❌ Use Proprietário quando:
1. QUALIDADE MÁXIMA
- GPT-4 ainda é melhor em muitas tarefas
- Raciocínio complexo
2. SEM INFRA
- Não quer gerenciar GPUs
- Time pequeno
- MVP rápido
3. VOLUME BAIXO/MÉDIO
- Custo de API é aceitável
- Mais barato que manter infra
4. FEATURES ESPECÍFICAS
- GPT-4V (visão)
- DALL-E (imagens)
- Whisper (voz)Cloud para Open Source
Se você não tem GPU local, use cloud:
Opções de Cloud:
1. Together AI
- API para modelos open source
- Paga por token (mais barato que OpenAI)
- Llama, Mistral, etc.
2. Replicate
- Pay per second
- Muitos modelos disponíveis
- Fácil de usar
3. Groq
- MUITO rápido (LPU chips)
- Llama, Mixtral
- Free tier generoso
4. AWS Bedrock
- Llama, Mistral no AWS
- Integrado com serviços AWS
5. GPU Cloud (DIY)
- RunPod, Vast.ai, Lambda Labs
- Aluga GPU por hora
- Mais controleConclusão
LLMs open source evoluíram muito. Llama 3 70B é comparável ao GPT-3.5, e modelos menores como Llama 3 8B ou Mistral 7B são suficientes para muitas aplicações.
Para a maioria dos casos, recomendo:
- Desenvolvimento/teste: Ollama + Llama 3 8B
- Produção com privacidade: vLLM + Llama 3 70B
- Sem infra: Together AI ou Groq
- Máxima qualidade: GPT-4 (ainda é o melhor)
Quer Dominar LLMs?
Nosso curso ensina a trabalhar com modelos open source e proprietários.
Conhecer o Curso