Vision Banana dari Google DeepMind menunjukkan image generation pretraining bisa jadi fondasi universal untuk computer vision, mengalahkan specialist models di berbagai benchmark.
Selama ini, dunia computer vision dibagi dua jalur: model generatif yang bikin gambar, dan model diskriminatif yang memahami gambar. Asumsinya sederhana—yang jago bikin gambar belum tentu paham isinya.
Google baru aja menghancurkan asumsi itu. Lewat paper "Image Generators are Generalist Vision Learners", tim DeepMind memperkenalkan Vision Banana. Satu model unified yang ngalahin atau setara dengan sistem specialist di berbagai tugas visual—sementara tetap bisa generate gambar kayak model aslinya.
Analoginya mirip LLM. Kamu pasti familiar: pretrain dulu di data teks masif, baru instruction-tuning untuk tugas spesifik. Pretraining itu yang bangun representasi internal kaya yang bisa dipakai apa aja.
Tim Google klaim image generation training punya peran sama untuk vision. Base model mereka, Nano Banana Pro (NBP), adalah image generator state-of-the-art Google. Dengan instruction-tuning ringan—campur sedikit data computer vision ke training mixture asli—lahirlah Vision Banana.
Insight kuncinya: generate gambar fotorealistik butuh pemahaman geometri, semantik, depth, dan relasi objek. Vision Banana belajar mengekspresikan pengetahuan laten itu dalam format yang bisa diukur.
Pentingnya, data training dari benchmark evaluasi sama sekali nggak dimasukkan. Jadi hasilnya memang generalist capability, bukan memorisasi in-domain.
Cara kerjanya unik. Semua output tugas vision diparameterisasi sebagai RGB images. Model di-instruction-tune untuk produce visualisasi dengan color scheme presisi dan invertible—jadi gambar yang dihasilkan bisa didecode balik ke output kuantitatif.
Ada tiga keuntungan strategi ini. Pertama, satu model unified untuk berbagai tugas—cuma prompt yang berubah, bobot tetap sama. Kedua, butuh data training baru relatif sedikit. Ketiga, kemampuan generate gambar asli tetap terjaga.
Untuk semantic segmentation, model diprompt kayak: "Generate segmentation visualization, cat=red, background=yellow." Tiap pixel diwarnai sesuai kelas prediksi. Nggak perlu fixed label vocabulary karena color assignment ada di prompt.
Instance segmentation lebih tricky karena jumlah instance nggak diketahui. Vision Banana pakai per-class inference—jalanin pass terpisah per kelas, assign warna unik dinamis. Mask direcover dengan clustering pixel warna mirip.
Metric depth estimation pakai bijective mapping antara depth values [0, ∞) dan RGB [0, 1]³. Power transform dulu "melengkungkan" nilai depth, lalu di-encode sebagai false-color visualization yang mengikuti edges RGB cube via 3D Hilbert curve.
Transform ini strictly invertible, jadi depth image yang dihasilkan decode balik ke physical metric distances dengan bersih. Nggak perlu camera parameters—intrinsics maupun extrinsics—baik training maupun inference. Model infer absolute scale purely dari visual cues dan world knowledge.
Data training depth-nya juga 100% synthetic dari simulation rendering engines. Zero real-world depth data.
Surface normal estimation lebih straightforward. Normals adalah unit vectors (x,y,z) dari -1.0 ke 1.0, yang map natural ke RGB channels. Normal menghadap kiri jadi pinkish-red, ke atas jadi light green, ke kamera jadi light blue/purple.
Angkanya speak for themselves. Semua dalam zero-shot transfer—model nggak pernah lihat training data dari dataset yang dievaluasi.
Semantic segmentation Cityscapes val: mIoU 0.699 vs SAM 3 0.652. Referring expression segmentation RefCOCOg: cIoU 0.738 vs SAM 3 Agent 0.734. Reasoning segmentation ReasonSeg: gIoU 0.793 vs SAM 3 Agent 0.770—bahkan ngalahin method non-zero-shot yang trained on in-domain data.
Instance segmentation SA-Co/Gold: pmF1 0.540, on par dengan DINO-X 0.552, ahead of Gemini 2.5, APE-D, OWLv2. Metric depth estimation: average δ1 0.882 across six benchmarks. Di empat dataset Depth Anything V3: Vision Banana 0.929 vs DAV3 0.918—pakai zero real-world data, no camera parameters.
Surface normal estimation: average mean angle error 18.928° vs Lotus-2 19.642°. Di indoor datasets specifically, Vision Banana lowest mean angle error (15.549°) dan lowest median (9.300°).
Di generative benchmarks, Vision Banana tetap kompetitif. 53.5% win rate vs Nano Banana Pro di GenAI-Bench, 47.8% di ImgEdit. Instruction-tuning ringan nggak degrade kemampuan generatif.
Practical takeaway buat kamu: paradigmanya berubah. Image generation pretraining itu foundational untuk computer vision—mirip GPT-style pretraining untuk NLP. Kalau kamu kerja di computer vision, pertimbangkan generate-then-decode approach untuk unified model. Nggak perlu arsitektur specialist yang kompleks untuk tiap tugas.
Vision Banana nunjukkan image generation bisa jadi universal interface untuk vision—analog dengan text generation untuk language tasks. Generative vision pretraining mungkin akan power true Foundational Vision Models, untuk generation dan understanding sekaligus.
AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost
Catatan redaksi
Kalau lo cuma ambil satu hal dari artikel ini
AI Updates update dari MarkTechPost.
Sumber asli
Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.
Baca artikel asli di MarkTechPost→
![A Report on Burnout in Open Source Software Communities (2025) [pdf]](https://cdn.sanity.io/images/dc330kkz/production/5abef2280c91c15bf2815dd8fd0ec564c6d1c72d-1024x576.jpg?w=1400&h=788&fit=crop&auto=format&q=82)

