Studi DX Terminal Pro menunjukkan bagaimana 3.505 agen language-model trading ETH sungguhan mencapai 99.9% success rate. Pelajari mengapa kontrol operasi lebih krusial daripada base model dalam mengelola kapital nyata.

Bayangkan kamu mempercayakan robot pintar untuk trading crypto pakai uang sungguhan. Bukan simulasi, bukan demo, tapi ETH asli dengan nilai miliaran rupiah. Nah, penelitian terbaru ini menelusuri apa yang terjadi ketika 3.505 agen language-model diberi kendali penuh selama 21 hari non-stop.

Studi ini berlangsung di DX Terminal Pro, sebuah platform DeFi di mana pengguna mengkonfigurasi vault dengan strategi bahasa alami. Pengguna menentukan aturan dan risk parameter, tapi hanya agen AI yang punya otoritas eksekusi buy dan sell. Selama tiga minggu penuh, sistem ini mencatat 7,5 juta invokasi agen dan sekitar 300 ribu aksi onchain.

Angkanya cukup menggila: lebih dari $20 juta volume trading, 5.000 ETH dideploy, dan konsumsi 70 miliar inference tokens. Yang lebih penting, tingkat keberhasilan settlement mencapai 99,9% untuk transaksi yang lolos validasi kebijakan. Tapi yang menarik bukan cuma angka suksesnya, melainkan rahasia di balik keandalan sistem ini.

Advertisement

Banyak developer mengira keandalan AI datang dari base model yang besar dan canggih. Ternyata asumsi itu salah besar. Reliabilitas 99,9% ini justru muncul dari operating layer di sekitar model, bukan dari model itu sendiri.

Komponen kritis ini mencakup kompilasi prompt yang terstruktur, kontrol bertipe data, validasi kebijakan ketat, execution guards, desain memori yang efisien, dan observabilitas di level trace. Jadi bukan cuma soal seberapa pintar LLM-nya, tapi seberapa kuat infrastruktur pengawas dan pengaman di sekelilingnya.

Sebelum deployment, tim melakukan pre-launch testing intensif dan menemukan kegagalan yang nggak pernah muncul di benchmark teks standar. Ada fenomena fabricated trading rules di mana AI mengarang aturan jual beli yang nggak ada di instruksi pengguna. Ada fee paralysis saat AI terlalu paranoid soal biaya gas sampai nggak mau eksekusi trade yang sebenarnya profitable.

Masalah lainnya termasuk numeric anchoring di mana AI terpaku pada angka tertentu tanpa konteks, cadence trading yang mengikuti pola waktu tanpa alasan strategis, dan misread tokenomics saat AI salah memahami mekanisme ekonomi token. Ini bukan bug teknis, tapi failure mode khas LLM yang berinteraksi dengan sistem finansial kompleks.

Bayangkan agen AI yang tiba-tiba menciptakan aturan 'jual kalau harga naik 10%' padahal pengguna nggak pernah minta itu. Atau robot yang macet total karena takut bayar gas fee $5, padahal opportunity profitnya $500. Tanpa kontrol yang tepat, LLM bisa bertindak irasional meski modelnya canggih sekalipun.

Tim kemudian melakukan perubahan terarah pada system harness. Hasilnya signifikan dan terukur: fabricated sell rules turun dari 57% menjadi cuma 3%. Observasi yang terjebak pada fee-led behavior turun dari 32,5% di bawah 10%. Yang paling krusial, capital deployment naik dari 42,9% menjadi 78,0% pada kelompok pengujian yang terdampak.

Perbaikan ini membuktikan pentingnya end-to-end testing dalam sistem finansial otomatis. Kamu nggak bisa cukup evaluasi model berdasarkan output teksnya saja atau benchmark akademis. Perlu dilihat seluruh jalur eksekusi: dari mandate pengguna, kompilasi prompt, reasoning internal model, validasi aksi, hingga final settlement di blockchain.

Agen yang berjalan terus-menerus mengumpulkan ribuan keputusan berurutan. Beberapa agen mencatat 6.000 siklus prompt-state-action tanpa henti selama deployment. Data trace lengkap ini—dari user mandate sampai portfolio state—jadi sumber belajar berharga buat paham behavior AI di pasar nyata.

Takeaway praktisnya jelas buat kamu yang develop agen AI atau founder Web3: kalau sistemmu mengelola kapital sungguhan, investasi di operating layer itu non-negotiable. Jangan cuma andalkan kemampuan reasoning LLM, sekalipun pakai model kelas terbaik sekalipun.

Bangun sistem validation layered, guardrails yang bisa pause eksekusi saat deteksi anomali, dan observability yang memungkinkan human oversight kapan saja. Desain prompt harus terstruktur dengan kontrol tipe data yang ketat, bukan cuma string bebas.

Ingat, di dunia onchain dengan real capital, satu kesalahan kecil bisa berarti kehilangan dana permanen yang nggak bisa direverse. Model AI memang pintar, tapi tanpa kontrol operasi yang matang, dia cuma autonomous agent tanpa pengawas yang siap bikin blunder mahal. Keberhasilan 99,9% di studi ini bukti bahwa safety engineering di sekitar model jauh lebih kritis daripada size model itu sendiri.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.

arXiv CS.AI

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari arXiv CS.AI.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan arXiv CS.AI.

Baca artikel asli di arXiv CS.AI
#AIUpdates#arXivCSAI#rss