xAI meluncurkan API Speech-to-Text dan Text-to-Speech Grok dengan harga kompetitif. Transkripsi 25 bahasa, 5 voice karakter, dan akurasi tinggi untuk developer voice AI.
Elon Musk kembali bikin gebrakan lewat xAI. Kali ini mereka meluncurkan dua API audio standalone: Speech-to-Text (STT) dan Text-to-Speech (TTS).
Kedua API ini dibangun di atas infrastruktur yang sama dengan Grok Voice. Kamu pasti familiar—fitur ini sudah aktif di aplikasi mobile Grok, kendaraan Tesla, hingga customer support Starlink.
Langkah ini menempatkan xAI langsung bersaing di pasar speech API yang dikuasai ElevenLabs, Deepgram, dan AssemblyAI.
Grok Speech-to-Text API kini tersedia untuk umum. API ini menawarkan transkripsi untuk 25 bahasa dengan dua mode: batch dan streaming.
Mode batch cocok untuk file audio yang sudah direkam sebelumnya. Sementara streaming memungkinkan transkripsi real-time saat audio direkam.
Harganya cukup terjangkau: $0.10 per jam untuk batch dan $0.20 per jam untuk streaming.
Fitur yang ditawarkan cukup lengkap. Ada word-level timestamps, speaker diarization, dan multichannel support.
Speaker diarization itu penting banget untuk meeting atau interview. Fitur ini bisa memisahkan siapa yang bicara di setiap bagian percakapan.
Ada juga Inverse Text Normalization yang mengubah ucapan seperti 'seratus enam puluh tujuh ribu' menjadi angka tertulis $167,983.15.
API ini menerima 12 format audio berbeda. Dari WAV, MP3, OGG, hingga FLAC dan AAC. Ukuran file maksimal 500 MB per request.
Tim riset xAI membuat klaim yang cukup berani soal akurasi. Untuk pengenalan entitas di panggilan telepon—seperti nama, nomor akun, tanggal—Grok STT mencatat error rate 5.0%.
Angka ini jauh lebih baik dari ElevenLabs (12.0%), Deepgram (13.5%), dan AssemblyAI (21.3%). Perbedaannya cukup signifikan kalau memang valid di produksi.
Untuk transkripsi video dan podcast, Grok dan ElevenLabs sama-sama di 2.4% error rate. Deepgram dan AssemblyAI sedikit tertinggal di 3.0% dan 3.2%.
Sekarang kita bahas Grok Text-to-Speech API. Fitur ini mengubah teks menjadi audio bicara yang natural.
Developer biasanya pakai TTS untuk voice assistant, fitur read-aloud, generate podcast, sistem IVR, atau tools aksesibilitas.
Grok TTS menawarkan speech synthesis cepat dengan kontrol detail via speech tags. Harganya $4.20 per 1 juta karakter.
Setiap REST request bisa menangani sampai 15.000 karakter. Untuk konten lebih panjang, ada endpoint WebSocket streaming tanpa batas panjang teks.
API ini mendukung 20 bahasa dengan 5 voice berbeda: Ara, Eve, Leo, Rex, dan Sal. Eve jadi default-nya.
Yang menarik, kamu bisa pakai speech tags untuk kontrol ekspresi. Inline tags seperti [laugh], [sigh], dan [breath] bikin suara lebih hidup.
Ada juga wrapping tags untuk mengatur pitch dan kecepatan bicara. Ini mengatasi masalah TTS tradisional yang sering terdengar datar dan robotik.
Practical takeaway untuk kamu: kalau sedang bangun voice agent atau aplikasi audio, Grok API worth dicoba.
Harga STT-nya kompetitif banget untuk transkripsi batch. TTS-nya juga punya ekspresivitas yang biasanya cuma ada di layanan premium.
Benchmark akurasi mereka menggiurkan, tapi pastikan lakukan testing dengan dataset kamu sendiri sebelum commit ke production.
Dengan infrastruktur yang sudah proven di Tesla dan Starlink, reliability-nya seharusnya solid untuk enterprise use case.
AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost
Catatan redaksi
Kalau lo cuma ambil satu hal dari artikel ini
AI Updates update dari MarkTechPost.
Sumber asli
Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.
Baca artikel asli di MarkTechPost→


