AlphaEvolve dari Google DeepMind pakai LLM Gemini 2.5 Pro buat menulis ulang kode algoritma game theory. Hasilnya dua algoritma baru yang outperform desain manual di sebagian besar game uji.
Bayangin kamu lagi main poker. Kamu gak bisa lihat kartu lawan, cuma bisa nebak dari pola taruhan mereka. Inilah yang disebut imperfect-information game — salah satu tantangan paling sulit di artificial intelligence. Selama ini, algoritma buat game kayak gini didesain manual sama peneliti. Mereka coba-coba berbagai rumus, tuning parameter, dan berharap hasilnya bagus. Prosesnya lama dan banyak trial-and-error.
Google DeepMind punya ide berbeda. Kenapa gak biarin AI aja yang nulis algoritmanya sendiri? Mereka bikin AlphaEvolve, sistem evolutionary yang pakai LLM buat mutasi source code — bukan cuma angka-angka parameter, tapi kode Python-nya langsung. LLM yang dipakai adalah Gemini 2.5 Pro.
AlphaEvolve kerjanya kayak evolusi alam. Dia mulai dari populasi algoritma dasar, lalu pilih yang paling 'fit', kasih ke LLM buat dimodifikasi, evaluasi hasilnya, dan ulang lagi. Proses ini berjalan secara distributed dan bisa optimize multiple objectives sekaligus. Yang menarik, LLM-nya diminta buat nulis kode modifikasi, bukan sekadar pilih dari template yang ada.
Advertisement
Slot in-article yang tampil setelah paragraf ketiga.
Tim riset menerapkan AlphaEvolve ke dua paradigma populer: CFR (Counterfactual Regret Minimization) dan PSRO (Policy Space Response Oracles). Keduanya adalah fondasi algoritma untuk game dengan informasi tidak sempurna. Hasilnya? Dua algoritma baru yang performanya kompetitif atau bahkan lebih baik dari state-of-the-art yang didesain manual.
Algoritma pertama adalah VAD-CFR, singkatan dari Volatility-Adaptive Discounted CFR. Bedanya dengan CFR biasa? Dia bisa adaptif sama kondisi belajarnya. Kalau 'volatilitas' regret-nya tinggi — artinya hasilnya masih berantakan — dia bakal lebih agresif melupakan history lama. Tapi kalau sudah stabil, dia pertahankan lebih banyak informasi masa lalu.
VAD-CFR punya tiga mekanisme unik. Pertama, volatility-adaptive discounting pakai Exponential Weighted Moving Average (EWMA) buat tracking magnitude regret. Kedua, asymmetric instantaneous boosting — regret positif dikali 1.1 sebelum ditambah, bikin algoritma lebih responsif sama aksi yang lagi bagus. Ketiga, hard warm-start: policy averaging ditunda sampe iterasi ke-500. Angka 500 ini ditemukan LLM sendiri, padahal gak ada yang kasih tahu kalau evaluasi totalnya 1000 iterasi.
Hasil testing VAD-CFR mengesankan. Dari 11 game yang diuji, dia match atau outperform baseline di 10 game. Cuma di 4-player Kuhn Poker dia kalah sedikit. Yang diuji bukan cuma game training — tim pakai game yang lebih besar dan kompleks yang gak pernah dilihat selama evolusi.
Algoritma kedua adalah SHOR-PSRO untuk framework PSRO. PSRO itu level abstraksinya lebih tinggi: dia maintain populasi policy, bangun meta-game dari kombinasi policy, lalu solve meta-strategy-nya. Desain manual biasanya fokus di meta-strategy solver-nya.
SHOR-PSRO nemuin hybrid solver yang blend dua komponen: Optimistic Regret Matching (ORM) buat stabilitas, dan Smoothed Best Pure Strategy pakai softmax distribution. Kedua komponen ini di-blend dengan faktor λ yang berubah-ubah selama training — dari 0.3 turun ke 0.05. Artinya, di awal lebih eksploratif, lama-lama makin fokus ke equilibrium.
Yang keren dari SHOR-PSRO: training solver dan evaluation solver-nya beda konfigurasi. Training pakai parameter dinamis dan return time-averaged strategy. Evaluation pakai parameter fixed dan return last-iterate strategy. Asymmetry ini juga hasil evolusi, bukan desain manusia. Dari 11 game, SHOR-PSRO menang atau imbang di 8 game.
Ada juga AOD-CFR, varian lain yang ditemukan di training set berbeda. Dia pakai mekanisme lebih konvensional tapi tetap kompetitif. Ini nunjukin kalau AlphaEvolve bisa nemuin berbagai solusi valid, gak cuma satu jawaban 'benar'.
Praktisnya gimana buat kamu yang kerja di ML atau AI research? AlphaEvolve nunjukin kalau automated algorithm discovery itu udah feasible. Gak perlu lagi spending bulanan buat manual tuning CFR atau PSRO variant. Kamu bisa define search space-nya, kasih fitness function, dan biarkan LLM explore design space yang terlalu luas buat manusia.
Tapi ada catatan penting. AlphaEvolve butuh exact best response oracle dan exact payoff values di eksperimen ini. Di game kompleks dunia nyata yang butuh Monte Carlo sampling, hasilnya bisa beda. Juga, fitness function-nya masih harus didesain manual — negative exploitability setelah K iterasi.
Takeaway praktisnya: kalau kamu lagi develop algoritma iterative kayak CFR atau meta-learning framework kayak PSRO, pertimbangkan buat otomasi search-nya pakai LLM. Start dari define komponen evolvable-nya — misalnya regret accumulator, policy solver, atau meta-strategy solver — lalu buat interface yang expressive enough buat representasi berbagai varian yang mungkin.
Yang paling mengesankan: mekanisme yang ditemukan AI seringkali non-intuitif. Warm-start di iterasi 500, boost factor tepat 1.1, atau training/evaluation asymmetry — ini bukan pilihan yang manusia biasanya buat. Tapi justru karena 'gak masuk akal' inilah, performanya bisa lebih baik. AlphaEvolve bukti kalau ada banyak treasure di design space yang kita belum explore, dan LLM bisa jadi peta kompasnya.
AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost
Catatan redaksi
Kalau lo cuma ambil satu hal dari artikel ini
AI Updates update dari MarkTechPost.
Sumber asli
Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.
Baca artikel asli di MarkTechPost→

