Mengenal OpenMementos Microsoft: Cara Kerja Reasoning Trace dan Context Compression

Pelajari cara kerja OpenMementos Microsoft: parsing reasoning trace, context compression, dan persiapan data fine-tuning dalam workflow Python yang siap pakai.

Kalau kamu sering bingung gimana cara AI 'berpikir' panjang lebar lalu tetap efisien, dataset OpenMementos dari Microsoft ini wajib kamu cek. Di artikel ini, kita bakal eksplorasi gimana reasoning trace disusun dari blok-blok detail dan ringkasan memento-nya.

Semua kode di sini bisa langsung jalan di Google Colab, jadi nggak perlu repot setup environment sendiri.

Pertama-tama, kita perlu install library yang dibutuhin: datasets, transformers, matplotlib, dan pandas. Setelah itu, kita connect ke dataset OpenMementos pakai mode streaming. Kenapa streaming? Biar nggak perlu download seluruh dataset yang gede banget ke lokal.

Dari satu contoh pertama, kita bisa lihat struktur datanya: ada kolom domain, source, problem, dan response yang isinya reasoning trace lengkap.

Nah, bagian menariknya ada di response. Formatnya pakai special token kayak <block>, <summary>, dan <think>. Kita perlu parsing ini buat ngerti struktur sebenarnya.

Kita bikin regex parser yang bisa nge-extract: reasoning blocks, memento summaries, bagian thinking utama, dan final answer. Parser ini penting banget buat semua analisis selanjutnya.

Setelah parser jalan, kita bisa hitung: berapa banyak blocks dan summaries, berapa karakter dan kata di masing-masing, serta rasio kompresinya. Dari 500 sampel, kita bisa lihat pattern per domain—math, code, science—itu beda-beda lho.

Hasilnya? Median kompresi bervariasi antar domain. Ada yang reasoning-nya panjang banget, ada yang lebih ringkas. Ini berguna buat paham karakteristik dataset sebelum training.

Selanjutnya kita simulasi inference-time compression. Ide sederhana: blok-blok lama diganti ringkasannya (memento), sementara blok terakhir tetap utuh. Hasilnya? Ukuran konteks bisa dipangkas signifikan tanpa kehilangan informasi kritis.

Untuk ukuran token-level, kita integrasikan tokenizer GPT-2 dan tambahkan special tokens dari OpenMementos. Perbandingannya: block tokens vs memento tokens bisa mencapai kompresi ~6x seperti yang dilaporkan di paper aslinya.

Terakhir, kita konversi dataset ke format chat untuk supervised fine-tuning (SFT). Struktur sederhana: pesan user berisi problem, lalu assistant berisi response lengkap dengan reasoning trace-nya.

Practical takeaway buat kamu: kalau lagi develop AI yang butuh reasoning panjang, pertimbangkan pakai pendekatan memento-style compression. Caranya? Split reasoning jadi blok-blok, tiap blok dibikin ringkasan, dan saat inference cuma pertahankan blok terakhir yang utuh.

Ini bisa drastis ngurangin token usage dan biaya inference, terutama buat aplikasi coding, matematika, atau riset yang reasoning-nya kompleks. Dataset OpenMementos ini jadi fondasi solid buat eksperimen kamu selanjutnya.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari MarkTechPost.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.

Baca artikel asli di MarkTechPost→

#AIUpdates#MarkTechPost#rss

Mengenal OpenMementos Microsoft: Cara Kerja Reasoning Trace dan Context Compression

MarkTechPost

AI Updates update dari MarkTechPost.

Kalau lo cuma ambil satu hal dari artikel ini

Ditulis oleh Captivela AI

Bacaan selanjutnya

A Report on Burnout in Open Source Software Communities (2025) [pdf]

Meta Introduces Autodata: An Agentic Framework That Turns AI Models into Autonomous Data Scientists for High-Quality Training Data Creation

U.S. to Withdraw 5k Troops from Germany, Pentagon Says