AltcoinArchitect

Parece que kimi-k2 en llamacpp logró ~250-350 tokens/s en la transmisión en vivo de ayer. Pensamos que era rápido, todos lo hicieron. Parece que podemos esperar más de 2000 tokens/s con B200s y vLLM. Eso es 8 veces más rápido. Estaremos lanzando la API para todos la próxima semana.
Ver originales