ServicesModèlesTarifsCas d’utilisationRégionsAperçu
🍁

IA souveraine — vos données restent au Canada

Vos requêtes d’inférence, vos données d’entraînement et vos modèles personnalisés ne quittent jamais l’infrastructure canadienne. Conforme aux lois sur la protection des renseignements personnels du Canada et du Québec (Loi 25).

Deux façons de faire de l’IA

GPU dédié ou Inference API — vous choisissez

Louez des GPUs pour un contrôle total, ou utilisez notre API d’inférence pour des modèles prêts à l’emploi.

GPU dédié

Pour les équipes qui veulent le contrôle total

Louez des instances GPU à l’heure. Installez ce que vous voulez — vos frameworks, vos modèles, vos pipelines. Accès SSH complet.

  • Accès root complet à l’instance
  • PyTorch, TensorFlow, vLLM, Ollama — votre choix
  • Stockage SSD haute performance inclus
  • Réseau privé vers vos autres ressources UBQT
  • Facturation à l’heure, arrêtez quand vous voulez
🔗

Inference API

Pour les développeurs qui veulent aller vite

Envoyez une requête, recevez une réponse. API compatible OpenAI avec des modèles open-source pré-déployés et optimisés.

  • API compatible OpenAI — changez un URL, c’est tout
  • Modèles open-source optimisés et prêts
  • Auto-scaling selon la demande
  • Facturation au token — pas d’utilisation, pas de coût
  • Endpoints dédiés disponibles sur demande
🔒

Isolation complète

GPUs dédiés, pas de partage. Vos données en mémoire ne sont jamais accessibles par d’autres.

📊

Monitoring GPU

Utilisation GPU/VRAM, température, throughput en tokens/sec — tout dans la console UBQT.

💾

Stockage de modèles

Stockez vos modèles sur le Stockage Objet UBQT. Chargement rapide via réseau interne.

🔧

Images pré-configurées

Images avec CUDA, PyTorch, vLLM, et Ollama pré-installés. Prêt à inférer en minutes.

Catalogue de modèles

Modèles open-source pré-optimisés

Disponibles sur l’Inference API et en téléchargement pour vos instances GPU dédiées.

Llama 3.1

8B · 70B — Meta

Mistral

7B · Mixtral 8x7B

Qwen 2.5

7B · 32B · 72B

CodeLlama

7B · 34B — Code

Gemma 2

9B · 27B — Google

Embeddings

BGE · E5 · Nomic

Catalogue en constante expansion. Vous pouvez également déployer n’importe quel modèle compatible Hugging Face sur vos instances GPU dédiées.

Tarifs

GPU à l’heure, inférence au token

Deux modèles de facturation selon votre usage.

TierVRAMvCPURAMStockageModèles supportésPrix /heure
gpu.starter16 Go832 Go200 Go SSD≤ 7B paramètres1.25$Réserver
gpu.pro Populaire24 Go1264 Go500 Go SSD≤ 13B paramètres2.50$Réserver
gpu.performance48 Go16128 Go1 To SSD≤ 70B paramètres5.00$Réserver
gpu.multiMulti-GPU sur mesureSur mesureSur mesureSur mesure70B+ paramètresContactez-nousContacter

* Facturation à l’heure (minimum 1h). Réservation mensuelle disponible avec rabais de 30%. Images CUDA/PyTorch/vLLM incluses. Tarifs en CAD.

Modèles petits (≤ 7B)

0.15$
par million de tokens (input)
Output : 0.30$ /M tokens. Llama 3.1 8B, Mistral 7B, Gemma 9B.

Modèles moyens (8B-34B)

0.50$
par million de tokens (input)
Output : 1.00$ /M tokens. Qwen 32B, CodeLlama 34B, Mixtral 8x7B.

Modèles larges (35B+)

1.50$
par million de tokens (input)
Output : 3.00$ /M tokens. Llama 3.1 70B, Qwen 72B.

Embeddings

0.02$
par million de tokens
BGE, E5, Nomic Embed. Idéal pour la recherche sémantique et le RAG.

* Pas de minimum. Pas de frais d’engagement. Tarifs en CAD. Taxes en sus.

Cas d’utilisation

L’IA souveraine pour votre entreprise

Des cas concrets où l’hébergement canadien fait toute la différence.

🏥 Santé & données sensibles

Analysez des dossiers patients, résumez des rapports médicaux, assistez le diagnostic — avec la garantie que les données restent au Canada et respectent les lois provinciales.

⚖️ Services juridiques

Recherche jurisprudentielle, analyse de contrats, rédaction assistée. Données confidentielles de vos clients protégées par la souveraineté canadienne.

🏦 Services financiers

Analyse de risques, détection de fraude, service client intelligent. Conformité réglementaire canadienne assurée par la localisation des données.

🏛️ Secteur public

Automatisation des services aux citoyens, traitement de documents, analyse de politiques. Infrastructure 100% canadienne pour les exigences gouvernementales.

💬 Chatbots & assistants

Déployez des assistants IA sur l’Inference API avec l’API compatible OpenAI. Migrez depuis OpenAI/Azure en changeant un seul URL.

🔍 RAG & recherche sémantique

Combinez les embeddings UBQT avec vos bases de données vectorielles pour une recherche intelligente sur vos documents internes.

Régions

Calcul IA au Canada

Vos modèles s’exécutent exclusivement sur de l’infrastructure canadienne.

Québec Prévu au lancement

Canada-QC01

Ontario Bientôt

Canada-ON01
Aperçu

De zéro à l’inférence en 2 minutes

Voici l’expérience avec l’Inference API.

1

Obtenez votre clé API

Une seule clé pour tous les modèles de l’Inference API.

$ ubqt ai apikey create --name mon-app
Clé créée — ubqt-ai-sk-xxxxxxxxxxxx
2

Envoyez votre première requête

API compatible OpenAI — utilisez le SDK que vous connaissez déjà.

# Compatible avec le SDK OpenAI
$ curl https://ai.ca-qc01.ubqt.cloud/v1/chat/completions \
  -H "Authorization: Bearer ubqt-ai-sk-xxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-3.1-8b",
    "messages": [{
      "role": "user",
      "content": "Bonjour depuis le Cloud d'ici!"
    }]
  }'
3

Ou avec le SDK Python

Changez le base_url — le reste de votre code reste identique.

# pip install openai
from openai import OpenAI

client = OpenAI(
  base_url="https://ai.ca-qc01.ubqt.cloud/v1",
  api_key="ubqt-ai-sk-xxxx"
)

response = client.chat.completions.create(
  model="llama-3.1-8b",
  messages=[{"role": "user", "content": "Bonjour!"}]
)

print(response.choices[0].message.content)
# Bonjour! Comment puis-je vous aider aujourd'hui?

L’IA souveraine arrive

Inscrivez-vous pour être averti dès que les services LLM / IA seront disponibles.

M’avertir au lancement →