IBM Granite Speech 4.1 2B: Dua Model ASR Open Source untuk Kebutuhan Enterprise

Kenalan dengan Granite Speech 4.1 2B dan versi NAR-nya. Dua model ASR open source dari IBM yang ringkas tapi powerful untuk transcription dan translation.

IBM baru saja merilis dua model speech recognition terbaru yang bisa kamu coba langsung: Granite Speech 4.1 2B dan Granite Speech 4.1 2B-NAR. Kedua model ini punya ukuran sekitar 2 miliar parameter dan tersedia gratis dengan lisensi Apache 2.0.

Masalah yang coba diselesaikan IBM ini sebenarnya familiar banget buat tim AI di perusahaan. Sistem ASR (Automatic Speech Recognition) yang bagus biasanya butuh komputasi besar, sementara yang ringan seringkali kurang akurat. IBM membuktikan kalau dengan desain arsitektur yang tepat, kamu bisa dapat keduanya.

Model pertama, Granite Speech 4.1 2B, dirancang untuk multilingual ASR dan speech translation dua arah. Dia mendukung enam bahasa: Inggris, Prancis, Jerman, Spanyol, Portugis, dan Jepang.

Adiknya, Granite Speech 4.1 2B-NAR, fokus eksklusif ke ASR dengan target deployment yang sensitif terhadap latency. Dia mendukung lima bahasa (tidak termasuk Jepang) dan tidak punya fitur translation.

Jadi kalau kamu butuh transkripsi bahasa Jepang atau fitur translasi suara, pilih yang versi standar. Tapi kalau kecepatan adalah prioritas utama, versi NAR lebih cocok.

Ada juga varian ketiga yang dirilis diam-diam: Granite Speech 4.1 2B-Plus. Dia punya fitur speaker-attributed ASR dan timestamp level kata. Berguna banget kalau kamu perlu tahu siapa yang bicara dan kapan tepatnya.

Soal akurasi, IBM menggunakan metrik Word Error Rate (WER). Semakin rendah angkanya, semakin bagus. Model standar mencetak skor mean WER 5.33 di Open ASR Leaderboard per April 2026.

Di dataset LibriSpeech clean, WER-nya hanya 1.33. Di LibriSpeech other, 2.5. Angka ini kompetitif banget bahkan dibanding model yang ukurannya jauh lebih besar.

Arsitekturnya terdiri dari tiga komponen utama. Pertama, speech encoder dengan 16 blok conformer yang dilatih menggunakan CTC (Connectionist Temporal Classification). Kedua, modality adapter berupa 2-layer window query transformer yang men-downsample representasi audio.

Ketiga, language model berbasis granite-4.0-1b-base. Versi NAR punya perbedaan signifikan di sini: dia menggunakan LLM yang sama tapi dengan causal attention mask yang dihapus untuk enable bidirectional context. Ini memungkinkan model melakukan editing secara non-autoregressive.

Perbedaan paling krusial ada di mekanisme decoding. Model standar bekerja autoregressive: generate token satu per satu secara berurutan. Hasilnya akurat dan stabil, tapi prosesnya sequential dan relatif lambat.

Model NAR mengambil pendekatan berbeda. Dia melakukan editing terhadap CTC hypothesis dalam satu forward pass saja menggunakan LLM bidirectional. Teknik ini disebut NLE (Non-autoregressive LLM-based Editing).

Caranya gini: encoder CTC menghasilkan draft transcript kasar, kemudian LLM memprediksi edit (copy, insert, delete, atau replace) di semua posisi secara simultan. Hasilnya, inferensi jauh lebih cepat tanpa mengorbankan akurasi secara signifikan.

Seberapa cepat? Model NAR mencatat RTFx sekitar 1820 di single H100 GPU dengan batch size 128. RTFx (real-time factor multiplier) artinya kalau audio satu jam bisa ditranskripsikan dalam waktu kurang dari dua detik.

Catatan teknis untuk engineer: model NAR membutuhkan flash_attention_2 untuk inference karena backend ini mendukung sequence packing dan flag is_causal=False.

Data trainingnya juga beda. Model standar dilatih dengan 174.000 jam audio publik plus synthetic datasets untuk Japanese ASR dan keyword-biased ASR. Model NAR pakai sekitar 130.000 jam dari dataset publik seperti CommonVoice, MLS, dan LibriSpeech.

Waktu trainingnya beda jauh. Model standar butuh 30 hari di 8 GPU H100, sementara NAR hanya 3 hari di 16 H100 GPU. Perbedaan ini mencerminkan kesederhanaan arsitektur editing dibanding generasi autoregressive penuh.

Kalau kamu sedang membangun aplikasi transcription untuk enterprise, pilih Granite Speech 4.1 2B standar kalau butuh fitur lengkap: translasi bahasa, keyword biasing, dan dukungan Jepang. Tapi kalau kamu butuh processing real-time dengan throughput tinggi—misalnya untuk live captioning atau call center analytics—versi NAR adalah pilihan yang lebih masuk akal secara biaya dan kecepatan. Ingat saja, versi NAR butuh setup flash_attention_2 dan tidak support bahasa Jepang.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari MarkTechPost.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.

Baca artikel asli di MarkTechPost→

#AIUpdates#MarkTechPost#rss

IBM Granite Speech 4.1 2B: Dua Model ASR Open Source untuk Kebutuhan Enterprise

MarkTechPost

AI Updates update dari MarkTechPost.

Kalau lo cuma ambil satu hal dari artikel ini

Ditulis oleh Captivela AI

Bacaan selanjutnya

A Report on Burnout in Open Source Software Communities (2025) [pdf]

Meta Introduces Autodata: An Agentic Framework That Turns AI Models into Autonomous Data Scientists for High-Quality Training Data Creation

U.S. to Withdraw 5k Troops from Germany, Pentagon Says