Simula dari Google adalah framework reasoning-first untuk generate dataset sintetis yang scalable dan kontrolable, solusi untuk krisis data spesialis di AI.

Kamu pasti sadar kalau training model AI yang powerful butuh data — dan data yang spesifik itu makin langka. Internet memang penuh teks dan gambar untuk model generalis, tapi domain niche seperti cybersecurity, hukum, dan healthcare? Data-nya要么 terbatas,要么 terkunci karena privacy.

Nah, tim riset Google dan EPFL punya solusi: Simula. Framework ini bikin dataset sintetis pakai reasoning, bukan cuma prompt LLM biasa. Bedanya? Simula nggak butuh seed data atau hand-crafted prompts. Semua dibangun dari first principles.

Kenapa bikin data sintetis itu susah? Ada tiga axis yang harus dikontrol: quality, diversity, dan complexity. Quality = data bener secara semantic dan syntactic. Diversity = coverage luas dan variasi lokal. Complexity = seberapa rumit atau jarang contohnya.

Advertisement

Kontrol ketiganya sekaligus, dalam skala besar, dengan explainability? Itu challenge yang belum terselesaikan — sampai Simula datang.

Simula kerja dalam empat step yang bisa dikontrol satu per satu. Step pertama: global diversity pakai hierarchical taxonomies. Model multi-modal (M3) identify prime factors of variation, lalu expand jadi tree structure.

Biar nggak miss subcategory penting, pakai Best-of-N proposal plus critic refinement. Hasilnya? Taxonomy jadi sampling scaffold — 512 ribu contoh pun tetap cover long tail domain, nggak cuma cluster di mode umum.

Step kedua: local diversity. Kombinasi taxonomy nodes (disebut 'mixes') diubah jadi meta-prompts. Contoh: {house cat, poem, travel enthusiast} jadi 'Compose an exciting haiku about a house cat who goes on an adventure.'

Biar nggak mode collapse, Simula generate multiple meta-prompts sekaligus lalu sub-sample. Jadi tiap contoh tetap distinct, nggak repetitif.

Step ketiga: complexification. Fraksi c dari meta-prompts dilewatkan step ini untuk dinaikin complexity-nya. Pentingnya? Complexity control terpisah dari coverage control — kamu bisa naikin difficulty tanpa sacrifice breadth.

Step keempat: quality enhancement pakai dual-critic approach. Model ditanya dua kali: jawaban ini bener? Dan jawaban ini salah? Design ini ngurangin sycophancy bias, khususnya untuk task dengan correctness yang jelas kayak multiple-choice atau math.

Eksperimen pakai Gemini 2.5 Flash (non-thinking) sebagai teacher model dan Gemma 3 4B sebagai student. Dataset sampai 512K data points di lima domain: CTI-MCQ, CTI-RCM, LEXam, GSM8k, dan Global MMLU.

Hasilnya? Full Simula system — global + local diversification + complexification + critiquing — konsisten outperform baseline. Kombinasi global dan local diversification itu krusial; salah satu aja hasilnya suboptimal.

Soal complexity, hasilnya menarik. Di GSM8k, High Complexity split naikin accuracy 10% dibanding Low Complexity di 64K data. Tapi di LEXam, complexity tinggi malah nurunin performa.

Kenapa? Teacher model cuma 57% accuracy di LEXam. Data kompleks cuma bermanfaat kalau teacher model cukup kuat buat generate reliable labels. Critic rejection rate LEXam 61%, vs 2-9% di domain lain.

Ada fenomena Student-Teacher Gap effect. Di CTI-RCM, student performance saturated di ~128K data setelah bridge 83% gap dari 40% ke 70%. GSM8k nggak saturated karena gap masih besar: student peak 75% vs teacher 88%.

Simula juga kenalin dua metode evaluasi baru. Taxonomic Coverage: ukur fraksi taxonomy nodes yang tercover. Ini lebih actionable daripada embedding-based cosine distance yang sering misleading.

Calibrated Complexity Scoring kasih Elo ratings ke individual data points via pairwise comparisons. Hasilnya align well dengan human-annotated complexity labels di MATH dataset.

Finding penting: real-world reference datasets hampir selalu cover lebih sedikit domain daripada Simula-generated variants — meski cosine distance bilang sebaliknya. Jangan andelin cosine distance doang buat judge dataset quality.

Practical takeaway buat kamu: kalau lagi fine-tune model untuk domain spesifik, pertimbangkan generate data sintetis pakai reasoning-first approach. Kontrol quality, diversity, complexity sebagai independent axes.

Jangan asal scale data tanpa pikirin properties-nya. Data scaling laws driven by properties, bukan size alone. Simula reach higher performance dengan fewer samples, lebih cost-effective meski butuh ~5x inference calls per data point.

Terakhir: complexity itu double-edged sword. Naikin kalau teacher model kuat, turunin kalau teacher model lemah di domain tersebut. Monitor critic rejection rate sebagai proxy untuk teacher model strength.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.

MarkTechPost

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari MarkTechPost.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.

Baca artikel asli di MarkTechPost
#AIUpdates#MarkTechPost#rss