OSS Agent open source mencetak skor 65,2% di TerminalBench dengan Gemini-3-flash-preview, mengalahkan Google dan model closed source terbaik. Pelajari cara kerja harness yang optimal.

Ada developer yang baru aja ngebuktiin kalau model kecil bisa jadi juara kalau harness-nya dirancang dengan bener.

Agent terminal open source-nya cetak skor 65,2% di TerminalBench 2.0. Angka ini lebih tinggi dari skor official Google sendiri yang cuma 47,8%, dan juga ngalahin Junie CLI yang sebelumnya jadi yang terbaik dengan 64,3%.

Yang bikin menarik? Semuanya open source. Nggak ada rahasia dapur.

Advertisement

Banyak yang curiga soal cheating di TerminalBench akhir-akhir ini. Makanya developer ini langsung klarifikasi beberapa hal penting.

Pertama, nggak ada file agents.md atau skills.md yang diselipin. Kedua, agent-nya dijalanin sesuai aturan leaderboard, tanpa modifikasi resource atau timeout. Ketiga, kode yang di-run persis sama dengan yang ada di GitHub.

Jadi ini bukan hasil rekayasa atau trik khusus.

Developer-nya sebenarnya pengen nunggu hasil resmi muncul di leaderboard dulu. Tapi sudah 8 hari dan maintainer-nya nggak respons.

Ada backlog besar di pull request Hugging Face mereka, jadi ya sudah, dipost aja hasilnya.

Pelajaran paling besar dari eksperimen ini: harness itu sangat penting.

Sama-sama pakai Gemini-3-flash-preview, tapi skornya bisa beda jauh tergantung gimana kamu bangun sistem di sekitarnya. Prompt engineering, tool use, error handling, semua ikut andil.

Ini juga nunjukin kalau open source nggak kalah sama closed source. Malah bisa lebih baik kalau komunitasnya rajin eksperimen.

Buat kamu yang lagi bangun agent sendiri, takeaway praktisnya: jangan cuma fokus ke model-nya. Luangkan waktu buat optimize harness dan workflow-nya.

Bahkan model 'preview' atau yang lebih kecil bisa bersaing dengan yang besar kalau sistem pendukungnya solid. Coba iterasi berkali-kali, test berbagai pendekatan prompt, dan dokumentasiin hasilnya.

Benchmark itu cerminan kemampuan, tapi cara kamu ngeladenin model itu bisa bikin perbedaan besar.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.

Hacker News Front Page

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari Hacker News Front Page.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan Hacker News Front Page.

Baca artikel asli di Hacker News Front Page
#AIUpdates#HackerNewsFrontPage#rss