Mardi 23 juillet 2024 à 15:54

#JaiDécouvert que Scaleway a déployé en public beta une offre d'Managed Inference Service : Scaleway Managed Inference.

Added : Managed Inference is available in Public Beta

Managed Inference lets you deploy generative AI models and answer prompts from European end-consumers securely. Now available in public beta! (from)

C'est une alternative à Replicate.com.

Models now support longer and better conversations :

All models on catalog now support conversations to their full context window (e.g Mixtral-8x7b up to 32K tokens, Llama3 up to 8k tokens).

Llama3 70B is now available in FP8 quantization, INT8 is deprecated.

Llama3 8b is now available in FP8 quantization, BF16 remains default.

L'offre est beaucoup moins large que celle de Replicate mais c'est un bon début 🙂.

Tarif de l'offre de Scaleway :

Tarif de l'offre de Replicate.com :

Bien que le matériel soit différent, j'essaie tout de même de faire une comparaison de prix :

Scaleway : 0,93 € / heure pour une machine à 24Go de Ram GPU
Replicate : 0,81 $ / heure pour une machine à 16GB de Ram GPU

Ensuite :

Scaleway : 3,40 € / heure pour une machine à 80Go de Ram GPU
Replicate : 5,04 € / heure pour une machine à 80Go de Ram GPU

Je précise, que je n'ai aucune idée si ma comparaison a du sens ou non.
Je n'ai pas creusé plus que cela le sujet.

Note en lien avec 2024-05-17_1257.