BAGEL : โอเพนซอสมัลติโมเดล จาก Bytedance
- Gasia
- 21 พ.ค.
- ยาว 1 นาที
🥯 เปิดตัว BAGEL: โมเดลมัลติโมดัลโอเพ่นซอร์สที่ท้าชน GPT-4o และ Gemini 2.0

วันนี้ขอแนะนำ BAGEL – โมเดลมัลติโมดัลโอเพ่นซอร์สใหม่ล่าสุดที่สามารถ ปรับแต่ง (fine-tune), ย่อขนาด (distill), และใช้งานได้ทุกที่ โดยไม่ต้องพึ่งระบบปิดอีกต่อไป
ด้วยขนาด 7B พารามิเตอร์ที่ใช้งานได้ (14B รวมทั้งหมด) และสถาปัตยกรรม Mixture-of-Transformer-Experts (MoT) ทำให้ BAGEL มีความสามารถเทียบเท่าระบบชั้นนำอย่าง GPT-4o และ Gemini 2.0 ในด้าน:
การเข้าใจและสนทนาในรูปแบบข้อความและภาพ (Multimodal Understanding + Chat)
การสร้างภาพที่สมจริงและแม่นยำสูงจากข้อความ (Photorealistic Image Generation)
การแก้ไขภาพแบบเฉพาะจุด ไปจนถึงการจัดองค์ประกอบใหม่อย่างชาญฉลาด (Editing + Composition)
การปรับเปลี่ยนสไตล์ภาพ เช่น จากภาพจริงเป็น 3D แอนิเมชัน (Style Transfer)
การ “นำทาง” และคาดการณ์การเคลื่อนไหวในโลกเสมือน (Navigation)
การ "คิด" และวางเหตุผลก่อนสร้างภาพหรือวิดีโอ เช่น prompt แบบ <think> ที่แปลงคำสั่งธรรมดาให้มีตรรกะและรายละเอียดลึกซึ้ง
🔍 ตัวอย่างความสามารถ https://bagel-ai.org/
สร้างภาพ แปลงสไตล์ edit ภาพ
ตอบคำถามเชิงวิเคราะห์ภาพ เช่น ประวัติรูปปั้นเดวิดของ Michelangelo
สร้างรถยนต์ที่ประกอบจากรถเล็กนับร้อยคัน ด้วย prompt แบบมีการคิดวิเคราะห์
ตัดต่อวิดีโอเฟรมต่อเฟรม และปรับองค์ประกอบ 3 มิติได้อย่างแม่นยำ
📊 ผลคะแนนทดสอบ (Benchmarks)
BAGEL มีผลการทดสอบสูงกว่าโมเดลโอเพ่นซอร์สชื่อดังหลายรุ่นทั้งในด้านความเข้าใจและการสร้าง เช่น


หมายเหตุ: BAGEL ใช้โครงสร้างที่เรียนรู้จากข้อมูลภาพ-ข้อความ-วิดีโอขนาดใหญ่ (interleaved multimodal tokens) เพื่อพัฒนาไปสู่ความสามารถที่ซับซ้อนอย่างมีลำดับขั้น เช่น จากการเข้าใจพื้นฐาน ไปสู่การตัดต่ออัจฉริยะ และการคิดเป็นเหตุเป็นผลร่วมกับภาพ
BAGEL คือก้าวใหม่ของวงการ AI ที่เปิดกว้าง ปรับแต่งได้ และทรงพลังพอจะเปลี่ยนภาพฝันของ Multimodal AI ให้กลายเป็นจริงสำหรับทุกคน
________________________________
อ้างอิง : https://bagel-ai.org/
อยากเจนเอไอบนคอมมั้ย? ต้องใช้การ์ดจอ Nvidia : https://s.shopee.co.th/8zsgVfqS8L
Comments