OpenMythos adalah proyek open-source PyTorch yang merekonstruksi kemungkinan arsitektur Claude Mythos menggunakan Recurrent-Depth Transformer dengan efisiensi parameter tinggi.
Anthropic memang nggak pernah nerbitin paper teknis soal Claude Mythos. Tapi komunitas riset tetap aja penasaran dan nebak-nebak.
Nah, Kye Gomez baru aja rilis proyek open-source namanya OpenMythos di GitHub. Proyek ini ambisius banget: nyoba rekonstruksi arsitektur Claude Mythos dari nol, pakai PyTorch, dan berdasarkan riset peer-reviewed.
Ini bukan model yang bocor, bukan fine-tune, juga bukan distillation. Ini hipotesis yang diwujudin jadi kode — dan hipotesisnya spesifik sampai bisa dibuktiin salah, makanya menarik.
OpenMythos ngusulin kalau Claude Mythos itu tipe arsitektur yang namanya Recurrent-Depth Transformer (RDT), atau yang di literatur sering disebut Looped Transformer.
Bedanya signifikan sama transformer standar. Di transformer biasa kayak GPT atau LLaMA, input dilewatin layer-layer yang beda-beda, masing-masing punya bobot sendiri. Makin canggih, makin banyak layer dan parameter.
Di RDT, satu set bobot tetap dipake berulang-ulang dalam satu forward pass. Bobot yang sama jalan beberapa kali. Kedalaman reasoning nggak ditentuin jumlah parameter, tapi jumlah iterasi waktu inference.
Bayanginnya kayak nulis ulang draft, bukan baca buku. Model balik lagi ke blok komputasi yang sama, terus-terusan memperbaiki representasi internalnya.
Strukturnya dibagi tiga bagian: Prelude → Recurrent Block → Coda. Prelude dan Coda itu layer transformer standar yang jalan sekali aja.
Recurrent Block ini intinya. Bisa di-loop sampai T=16 kali. Tiap loop, hidden state di-update pakai rumus yang reinject input dari Prelude.
Reinjection ini sengaja dibikin. Tanpa ini, hidden state bakal nyimpang jauh dari sinyal input asli kalau loop-nya dalam.
Matriks A dan B yang dipelajari ngatur seberapa banyak hidden state sebelumnya dan encoded input yang dibawa ke step berikutnya.
FFN di dalam Recurrent Block juga beda. OpenMythos ganti pake Mixture-of-Experts (MoE) yang desainnya ngikut DeepSeekMoE.
Ada banyak expert yang fine-grained, cuma subset top-K yang aktif per token, plus beberapa shared expert yang selalu aktif buat nangkep pattern umum.
Yang keren, router pilih expert yang beda-beda tiap kedalaman loop. Jadi tiap iterasi komputasinya beda meski bobot dasarnya sama.
MoE ngasih breadth domain, looping ngasih depth reasoning. Attention-nya pake Multi-Latent Attention dari DeepSeek-V2 yang cache KV latent terkompresi, hemat memori 10-20x.
Salah satu properti penting: reasoning terjadi sepenuhnya di continuous latent space. Nggak ada token yang dihasilkan di antara loop steps.
Model nggak produksi teks di tengah proses berpikir terus dibaca ulang. Ini beda banget sama chain-of-thought prompting yang eksternalisasi reasoning jadi urutan token.
Saunshi et al. (2025) nunjukin formal kalau tiap loop iteration di RDT fungsionalnya setara satu step chain-of-thought, tapi operasinya di vektor real-valued bukan token diskrit.
Continuous latent thoughts bisa encode beberapa alternative next steps sekaligus. Ini ngasih kemampuan breadth-first search di reasoning space dalam satu forward pass.
Ini juga jelasin keunggulan konkret. Transformer standar yang dilatih 5-hop reasoning bakal gagal di 10-hop test — dia nggak punya mekanisme buat extend depth diluar training.
RDT handle ini dengan natural: jalanin lebih banyak loop waktu inference extend reasoning chain tanpa retraining. Masalah yang lebih susah dapet compute lebih banyak, yang gampang exit lebih awal.
Training model looped itu historisnya brittle. Hidden state bisa tumbuh tanpa batas tiap iterasi — ini yang namanya residual explosion.
OpenMythos atasi ini pakai Linear Time-Invariant (LTI) injection constraint dari arsitektur Parcae. Spectral radius dari A dibikin kurang dari 1, jamin stabilitas regardless learning rate atau gradient noise.
Ada juga failure mode di ekstrem lain: di kedalaman loop tertentu, recurrence yang berlebihan malah nurunin prediksi. Hidden state nyimpang melewati solusi ke noise. Ini masalah 'overthinking'.
Adaptive Computation Time (ACT) halting ngatasin ini pakai learned scalar per posisi yang dinamis nentuin kapan berhenti looping. Posisi yang lebih susah diproses dapet komputasi lebih, token yang udah konvergen berhenti lebih awal.
Terus ada Depth-Wise LoRA adapters yang nambahin matriks adaptasi rank-r kecil tiap kedalaman iterasi. Ini kasih tiap loop step behavior yang sedikit beda tanpa nambah parameter substantial.
Paper Parcae (Prairie et al., 2026) kasih landasan empiris buat klaim efisiensi. Di 770M parameter, RDT setara sama transformer standar 1.3B yang dilatih data identik — setengah parameter untuk kualitas downstream yang sama.
Optimal recurrence dan optimal token count ngikut power laws dengan eksponen konsisten di berbagai skala. Ini ngebentuk scaling laws yang predictable buat looped training pertama kalinya.
Implikasinya signifikan: kedalaman reasoning scale dengan inference-time compute, bukan jumlah parameter yang disimpan. Ini reframing asumsi dominan di debat scaling.
Sumbangan OpenMythos ada empat: implementasi PyTorch yang fully configurable dari hipotesis RDT dengan MoE FFN dan Multi-Latent Attention; LTI-stable recurrent injection jadi training primitive kelas satu; depth-wise LoRA adapters buat behavioral differentiation per iterasi; dan baseline riset yang reproducible buat studi looped transformer dynamics dan inference-time reasoning depth.
Meski Mythos beneran RDT atau nggak, OpenMythos kasih komunitas riset sesuatu yang konkret dan bisa dijalanin — implementasi dari kelas arsitektur yang literatur makin nunjukkin underexplored, dan yang mungkin representasiin jalur fundamentally beda ke AI yang capable dibanding sekadar training model yang lebih gede.
AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost
Catatan redaksi
Kalau lo cuma ambil satu hal dari artikel ini
AI Updates update dari MarkTechPost.
Sumber asli
Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.
Baca artikel asli di MarkTechPost→
![A Report on Burnout in Open Source Software Communities (2025) [pdf]](https://cdn.sanity.io/images/dc330kkz/production/5abef2280c91c15bf2815dd8fd0ec564c6d1c72d-1024x576.jpg?w=1400&h=788&fit=crop&auto=format&q=82)

