ทำความรู้จักกับ Craiyon: DALL-E Mini ที่ได้รับการปรับปรุงใหม่

หัวข้อต่างๆ ในบทความ

Craiyon คืออะไร?
ลองมาดู DALL-E เวอร์ชั่นดั้งเดิมจาก OpenAI แบบคร่าว ๆ กันก่อน
Craiyon ทำงานอย่างไร?
ศักยภาพของ Craiyon ที่จะส่งผลกระทบต่ออุตสาหกรรมต่างๆ ตั้งแต่วงการศิลปะไปจนถึงวงการเกม
การใช้งาน AI ที่อาจนำไปสู่ทางที่ผิด
จุดยืนของ Craiyon ที่มีต่อคู่แข่งของพวกเขา
คำถามที่พบบ่อย

Craiyon เป็นเครื่องมือในการแปลงข้อความเป็นรูปภาพ (Text-to-Image) ที่สามารถสร้างรูปภาพที่สวยงามตระการตาได้จากชุดคำสั่งข้อความเหมือนกับ DALL-E ของ OpenAI แต่เรื่องหนึ่งที่เราจะต้องอธิบายเพื่อแก้ไขความเข้าใจผิดที่ถูกพูดถึงกันเป็นอย่างมากก็คือ Craiyon ไม่ใช่ผลงานของ OpenAI และนั่นเป็นเหตุผลที่ทำให้ทีมงานที่อยู่เบื้องหลังแบบจำลอง Generative AI นี้ ทำการรีแบรนด์มันจาก DALL-E Mini ให้เป็น Craiyon ในบทความนี้ เราจะไปเจาะลึกกันในเรื่องโครงสร้างการทำงานของ Craiyon โดยจะให้คำอธิบายทั้งในเรื่องวัตถุประสงค์ และการวิเคราะห์เกี่ยวกับความสามารถ รวมไปถึงข้อจำกัดต่าง ๆ เอาล่ะครับ เรามาเริ่มกันที่เรื่องพื้นฐานกันก่อนดีกว่า

หากคุณเชื่อว่า AI จะกลายมาเป็นอนาคตของเรา มาเข้าร่วมกลุ่มคนรักคริปโตอย่าง BeInCrypto Trading Community บน Telegram สิ: เรียนรู้สิ่งต่างๆ มากมายเกี่ยวกับสกุลเงินแห่งอนาคตและระบบการกระจายอำนาจ, มาเรียนรู้คอร์สพื้นฐานการซื้อขายฟรี และสอบถามข้อมูลต่างๆ ที่คุณต้องการจากทีมงานนักเทรดมืออาชีพของเรา! มาเข้าร่วมกันเลย!

Craiyon คืออะไร?

Craiyon ที่เดิมรู้จักกันในชื่อ DALL-E Mini คือ เครื่องมือสร้างผลงานศิลปะด้วย AI ด้วยการแปลงข้อความเป็นรูปภาพ ที่ได้รับการพัฒนาโดย Boris Dayma ผู้ประกอบการและวิศวกรสายงาน Machine Learning ได้รับแรงบันดาลใจมาจากเทคโนโลยีของ OpenAI และพัฒนา Generative AI (ปัญญาประดิษฐ์ที่ถูกออกแบบมาเพื่อให้มีความสามารถในการสร้างข้อมูลใหม่จากชุดข้อมูลเดิมที่มีอยู่ ด้วยอัลกอริธึมแบบ Generative Model) นี้ขึ้นมาหลังจากได้ทำการฝึกฝนมันด้วยคอลเล็กชั่นรูปภาพจำนวนมาก

ผู้สนับสนุน

Craiyon ถูกฝึกฝนให้จดจำส่วนประกอบของรูปภาพผ่านคำอธิบายในรูปแบบของข้อความ การผสานรวมข้อมูลจำนวนมากเข้ากับ Natural Language Processing (การประมวลผลภาษาธรรมชาติ) ได้ทำให้ AI มีการพัฒนาขีดความสามารถในการทำความเข้าใจ และสามารถเชื่อมโยงชุดคำสั่งข้อความกับรูปภาพที่สอดคล้องกันได้

ด้วยความพยายามของ Dayma และความร่วมมือจากโอเพ่นซอร์สคอมมูนิตี้ Craiyon ได้ก้าวเข้าสู่ขอบเขตของการสร้างภาพคุณภาพสูงได้อย่างรวดเร็ว

เรื่องน่ารู้อีกเรื่องหนึ่งก็คือ การรีแบรนด์จาก DALL-E Mini มาเป็น Craiyon เกิดขึ้นหลังจากที่ OpenAI ขอให้ Dayma เปลี่ยนชื่อผลิตภัณฑ์ของเขาเพื่อหลีกเลี่ยงไม่ให้เกิดความสับสนในหมู่ผู้ใช้งาน

ลองมาดู DALL-E เวอร์ชั่นดั้งเดิมจาก OpenAI แบบคร่าว ๆ กันก่อน

OpenAI คือผู้นำในสังเวียนโมเดลภาษาขนาดใหญ่ (Large Language Model หรือ LLM) รวมถึงแอปพลิเคชั่นที่ตอบสนองต่อการใช้งานของผู้บริโภคของพวกเขา DALL-E 2 และเทคโนโลยีแปลงข้อความเป็นภาพ คือหนึ่งในผลิตภัณฑ์ที่ประสบความสำเร็จเป็นอย่างมากขององค์กร

นวัตกรรมที่ล้ำสมัยนี้ ช่วยให้ผู้ใช้งานสามารถป้อนชุดคำสั่งข้อความ (Text Prompt) ให้กับระบบ AI เพื่อทำการตีความและแปลงมันออกมาเป็นรูปภาพที่สวยงามได้ ศักยภาพในการสร้างภาพโดยอ้างอิงจากคำอธิบายที่เป็นข้อความนั้นมีอยู่มากมายมหาศาล มันเป็นการเปิดประตูสู่ประโยชน์การใช้งานส่วนต่าง ๆ มากมาย เช่น การออกแบบ ความบันเทิง และการศึกษา ฯลฯ

กระบวนการการฝึกฝนโมเดลการแปลงข้อความเป็นรูปภาพของ OpenAI จะเป็นกระบวนการการตรวจสอบรูปภาพ ที่มีที่มาจากอินเตอร์เน็ตเป็นจำนวนมาก รูปภาพแต่ละใบจะได้รับการ “อธิบาย” ให้กับโมเดลให้รับรู้ด้วยการใช้คำอธิบายประกอบ ด้วยการวิเคราะห์และเชื่อมโยง “ข้อความ-รูปภาพ” เหล่านี้ โมเดลจะฝึกฝนความสามารถในการสร้างรูปภาพ เพื่อตอบสนองต่อข้อความที่ป้อนเข้าไป และในขณะที่โมเดลสามารถเรียกใช้แนวคิดบางส่วนจากหน่วยความทรงจำของมันได้ มันก็ยังสามารถสร้างภาพที่แปลกใหม่ได้ ด้วยการผสมผสานแนวคิดต่างๆ เช่นเดียวกัน

ส่วนประกอบที่สำคัญนั้นรวมไปถึง:

ตัวเข้ารหัสภาพที่จะเปลี่ยนภาพต้นฉบับให้เป็นลำดับตัวเลข
ตัวถอดรหัสภาพที่จะเปลี่ยนลำดับตัวเลขให้กลับเป็นภาพ
โมเดลที่เชี่ยวชาญในการแปลงชุดคำสั่งข้อความ ให้เป็นรูปภาพแบบเข้ารหัส
โมเดลอีกตัวที่ทำหน้าที่ประเมินคุณภาพของรูปภาพ ที่ผลิตขึ้นมาเพื่อการคัดกรองอย่างมีประสิทธิภาพมากขึ้น

Craiyon ทำงานอย่างไร?

Craiyon เป็นเวอร์ชั่น Scaled-down (เวอร์ชั่นที่มีการปรับลดบางสิ่งลงจากตัวต้นฉบับ) ของ DALL-E ตัวดั้งเดิมของ OpenAI (มันจึงถูกเรียกว่า DALL-E Mini) มันเป็นการใช้งานการผสมผสานของโครงข่ายประสาทเทียม 2 ประเภท ได้แก่ Transformer และ Generator ถึงแม้ว่าในส่วน Generator ของ Craiyon จะมีความคล้ายคลึงกับ Generative Adversarial Network (GAN) อยู่บ้าง แต่มันก็ไม่เหมือนกับ GAN ทั่วไป

ส่วนประกอบของ Generator ใน Craiyon จะประมวลผลคำอธิบายที่เป็นข้อความในฐานะของ “อินพุต” และสร้างภาพที่สอดคล้องกับคำอธิบายเหล่านั้น จากนั้น มันจะใช้เครือข่าย Transformer เพื่อแปลง “ข้อความที่ป้อนเข้ามา” ให้เป็น “Latent Representation” (รูปแบบของคำอธิบายภาพอย่างเรียบง่าย ของข้อมูลอินพุตที่ถูกสร้างขึ้นโดยโครงข่ายประสาทเทียม) ซึ่งจากนั้นจะถูกนำไปใช้เพื่อสร้างรูปภาพผ่าน Convolutional Neural Network (CNN) การฝึกฝนของ Generator จะเป็นการผสมผสานระหว่าง Reconstruction Loss และ Adversarial Loss (รูปแบบการหาค่าเฉลี่ยความถูกต้องระหว่างอินพุตและเอาต์พุต) โดย Adversarial Loss นั้นเป็นแนวทางที่มักจะถูกใช้ใน GANs

การฝึกฝนของ Craiyon จะเป็นการตรวจสอบภาพจำนวนนับไม่ถ้วนจากเว็บไซต์ โดยจับคู่มันเข้ากับคำอธิบาย และจะไม่มีการลงลึกในรายละเอียดทางด้านเทคนิคใด ๆ ผลลัพท์ที่ได้ก็คือ โมเดลจะเรียนรู้ในเรื่องการสร้างภาพโดยการตีความชุดคำสั่งข้อความ และถึงแม้ว่าโมเดลจะสามารถเรียกใช้งานรูปภาพบางส่วน ที่มีคอนเซปต์ที่คล้ายคลึงกันจากหน่วยความจำของมันได้ แต่มันก็ยังมีความสามารถในสร้างภาพขึ้นมาใหม่ได้อย่างสมบูรณ์ โดยการผสมผสานแนวคิดต่าง ๆ

ผู้สนับสนุน

ผมลองยกตัวอย่างเป็นการใส่ Prompt “สุนัขที่กำลังใช้ชีวิตอยู่บนดาวเคราะห์สีแดง”

เพื่อให้บรรลุผลลัพท์ที่น่าประทับใจ ส่วนประกอบเหล่านี้จะต้องทำงานสอดประสานกัน:

คู่ตัวเข้ารหัสและถอดรหัส ที่จะแปลงภาพต้นฉบับให้เป็นลำดับตัวเลข รวมถึงกระบวนการในทางกลับกัน
โมเดลที่เชี่ยวชาญในการแปลงชุดคำสั่งข้อความให้เป็นรูปภาพเข้ารหัส
โมเดลสำหรับประเมินคุณภาพของรูปภาพที่สร้างขึ้นมา ทำให้สามารถคัดกรองได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

ด้วยการผสมผสานการทำงานของโมเดลเหล่านี้ AI จะสามารถสร้างรูปภาพในจินตนาการของคุณขึ้นมาได้

ศักยภาพของ Craiyon ที่จะส่งผลกระทบต่ออุตสาหกรรมต่างๆ ตั้งแต่วงการศิลปะไปจนถึงวงการเกม

ความสามารถของ Craiyon ในการเปลี่ยนชุดคำสั่งข้อความให้เป็นภาพที่สวยงาม เป็นการแสดงให้เห็นถึงศักยภาพในการก่อให้เกิดแนวทางใหม่ๆ ในแวดวงศิลปะ การออกแบบ การโฆษณา การตลาด ความบันเทิง และเกม รวมไปถึงภาคส่วนอื่น ๆ อีกมากมาย และอย่าลืมว่า ศักยภาพที่สามารถพลิกโฉมวงการได้นี้ ไม่ได้สงวนไว้สำหรับ Craiyon เท่านั้น แต่เป็นกลุ่มอุตสาหกรรมที่เครื่องมือแปลงข้อความเป็นรูปภาพด้วย AI นี้จะไปเข้าร่วมด้วย

ประโยชน์การใช้งานในอุตสาหกรรมอื่นๆ บางส่วน ได้แก่:

ผลงานศิลปะและงานออกแบบที่สร้างโดย AI

Craiyon คือเครื่องมือที่ช่วยเปิดประตูสู่แนวทางในการสร้างผลงานศิลปะ และงานออกแบบที่สร้างสรรค์โดย AI เป็นการมอบเครื่องมือล้ำสมัยให้เหล่าศิลปินและนักออกแบบเพื่อการสร้างภาพที่ไม่เหมือนใครออกมาได้ ด้วยการใช้ชุดคำสั่งข้อความ เหล่าครีเอทีฟสามารถปรับแต่งองค์ประกอบของภาพให้เหมาะสมตามที่ต้องการ ซึ่งจะช่วยเพิ่มความมีระดับให้กับโปรเจกต์ของพวกเขาได้

คอนเซปต์ภาพและความคิดสร้างสรรค์

Craiyon จะช่วยให้การระดมสมองกลายเป็นสิ่งที่เหนือขึ้นไปอีกขั้น เทคโนโลยีนี้จะมีประโยชน์เป็นอย่างมากในการพัฒนาคอนเซปต์ภาพแบบคิดนอกกรอบ โดยอ้างอิงจากคำอธิบายเท่านั้น ซึ่งจะทำให้ทีมงานสามารถสำรวจและพัฒนาแนวคิดของพวกเขาได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

การโฆษณาและการตลาด

ความสามารถในการแปลงข้อความเป็นรูปภาพของ Craiyon นั้นยังช่วยปลดล็อกความเป็นไปได้ใหม่ ๆ สำหรับเหล่านักโฆษณาและนักการตลาดอีกด้วย รูปภาพที่สร้างขึ้นโดย AI จะสามารถสร้างสื่อการตลาดและการโฆษณาที่สะดุดตา ดึงดูดเป้าหมาย และช่วยให้เกิดการจดจำแบรนด์สินค้าได้ง่ายยิ่งขึ้น

ข้อมูลด้านล่างคือมูลค่าตลาดของ AI ในแวดวงการตลาดในระดับโลกที่ได้มีการคาดการณ์ไว้ตั้งแต่ปี 2020 ถึง 2028

Craiyon AI ดีไหม — การคาดการณ์มูลค่าตลาดของ AI: Statista

วงการเกมและความบันเทิง

เทคโนโลยีของ Craiyon นั้นก็มีศักยภาพที่สูงมากต่ออุตสาหกรรมบันเทิงและเกมด้วยเช่นกัน นักพัฒนาเกมและคอมเท้นต์ครีเอเตอร์สามารถใช้รูปภาพที่สร้างขึ้นโดย AI เพื่อช่วยในการพัฒนาสภาพแวดล้อมการเล่นเกมที่สมจริง ตัวละครที่โดดเด่น และภาพกราฟิกที่ดึงดูดสายตาทั้งกับเหล่าผู้เล่นและผู้ชมได้

การใช้งาน AI ที่อาจนำไปสู่ทางที่ผิด

ถึงแม้ว่าการใช้งานเครื่องมือแปลงข้อความเป็นรูปภาพด้วย AI อย่าง Craiyon นั้นจะสร้างความประทับใจได้เป็นอย่างมาก แต่มันก็ยังมีข้อกังวลด้านจริยธรรมอยู่บางประการที่เราควรจะรับทราบเอาไว้

ด้านมืดของการสร้างภาพด้วย AI

ถ้าหากใครซักคนที่มีเจตนาไม่ดีใช้เครื่องมือเหล่านี้ ในการสร้างภาพที่ไม่เหมาะสมหรือภาพเพื่อการหมิ่นประมาทขึ้นมา ในโลกที่ Fake News แพร่สะพัดออกไปรวดเร็วราวกับไฟลามทุ่ง ภาพที่ถูกสร้างขึ้นด้วย AI อาจจะสร้างความเสียหายได้เป็นอย่างมาก มันอาจจะถูกนำไปใช้ในการให้ข้อมูลเท็จ บิดเบือนความคิดเห็นของสาธารณชน หรือแม้กระทั่งก่อให้เกิดอันตรายต่อบุคคลใด ๆ ได้เลย

ตัวอย่างหนึ่งที่น่ากลัวมาก คือการเติบโตของเทคโนโลยี Deep Fakes ที่ใช้ AI ช่วยในการสร้างภาพหรือวิดีโอที่จะแสดงผลเป็นใบหน้าของบุคคลที่ต้องการ ถึงแม้ว่า Craiyon จะไม่ได้ถูกออกแบบมาให้สามารถดัดแปลงวิดีโอได้ แต่มันก็มีความเสี่ยงที่เรื่องนี้อาจจะเกิดขึ้นกับเทคโนโลยีแปลงข้อความเป็นรูปภาพได้เช่นกัน

ความท้าทายในเรื่องทรัพย์สินทางปัญญา

อีกหนึ่งในแง่มุมด้านจริยธรรมที่จะต้องพิจารณาก็คือ การตีความในเรื่องทรัพย์สินทางปัญญา (Intellectual Property หรือ IP) ของรูปภาพที่สร้างขึ้นโดย AI ใครกันที่เป็นเจ้าของลิขสิทธิ์ในผลงานหรือการออกแบบที่สร้างขึ้น ผู้ใช้งาน หรือ AI? หรือจะเป็นผู้พัฒนาที่อยู่เบื้องหลัง AI? เมื่อเครื่องมือเหล่านี้มีการใช้งานอย่างแพร่หลายมากยิ่งขึ้น คำถามเกี่ยวกับเรื่อง IP ก็จะถูกยกขึ้นมาถกกันอยู่เสมอ ศิลปิน นักออกแบบ และบริษัทที่เกี่ยวข้อง จะต้องมีการตรวจสอบถึงหัวข้อทางกฏหมายต่าง ๆ ที่มีความซับซ้อนเหล่านี้อย่างหลีกเลี่ยงไม่ได้

เมื่อพิจารณาถึงเรื่องภาพพอตเทรต (ภาพถ่ายบุคคล) ที่ถูกสร้างขึ้นโดย AI ที่ถูกประมูลไปโดย Christie’s ที่มีชื่อว่า “Edmond de Belamy” ผลงานศิลปะนี้ถูกสร้างขึ้นโดยการใช้ Generative Adversarial Network (GAN) นำเสนอตัวละครที่ถูกแต่งขึ้นมาในสไตล์พอตเทรตแบบดั้งเดิม มันได้ถูกประมูลไปในราคา 432,500 ดอลลาร์สหรัฐฯ และเป็นสิ่งที่จุดประเด็นให้เกิดข้อถกเถียงที่ตามมาว่า ผลงานที่สร้างขึ้นโดย AI นี้ละเมิดสิทธิ์ในทรัพย์สินทางปัญญาของศิลปินที่สร้างภาพพอตเทรตแบบดั้งเดิม ที่มีสไตล์ที่คล้ายคลึงกันหรือไม่

เมื่อพิจารณาถึงภาพรวมแล้ว ถึงแม้ว่าเราจะเปิดรับถึงความเป็นไปได้ของการใช้งานเครื่องมือสร้างภาพด้วย AI อย่าง Craiyon แต่มันก็ยังคงเป็นเรื่องที่สำคัญอย่างยิ่งในการที่จะมาพิจารณากันถึงเรื่องจริยธรรม ที่มาพร้อมกับการใช้งานเครื่องมือเหล่านี้

ทุกๆ องค์กรที่พัฒนาหรือใช้งาน หรือโฮสต์ หรือประมวลผลด้วย AI จะต้องดำเนินการอย่างมีความรับผิดชอบและความโปร่งใส บริษัทต่าง ๆ จะถูกตัดสิน ไม่เพียงแค่กับวิธีการที่เราใช้ข้อมูลเท่านั้น แต่ยังรวมไปถึงการประเมินว่าเราจะเป็นผู้ดูแลข้อมูลของบุคคลอื่น ที่น่าเชื่อถือได้หรือไม่อีกด้วย [….] สังคมจะเป็นผู้ที่ตัดสินใจเองว่าบริษัทใด ที่พวกเขาให้ความไว้วางใจ

Ginni Rometty อดีต CEO และประธานบริหารของ IBM: IBM Newsroom

จุดยืนของ Craiyon ที่มีต่อคู่แข่งของพวกเขา

ถึงแม้ว่าความสามารถในการสร้างรูปภาพของ Craiyon จะน่าประทับใจเพียงใด แต่เครื่องมือสร้างภาพด้วย AI นี้ก็ยังอยู่ระหว่างการพัฒนาเท่านั้น บางครั้ง ผลลัพท์อาจจะไม่ได้มีคุณภาพตามที่ต้องการ โดยเฉพาะอย่างยิ่งในกรณีที่มันจะต้องประมวลผลคำขอที่ซับซ้อนของภาพที่มีสมจริงหรือเป็นนามธรรม ความแม่นยำของรูปภาพที่สร้างขึ้นนั้นมีแนวโน้มที่จะลดลง เมื่อความซับซ้อนของชุดคำสั่งเพิ่มมากขึ้น เรื่องนี้ก็เกิดขึ้นกับเครื่องมือสร้างภาพด้วย AI ตัวอื่น ๆ ที่ซับซ้อนกว่า เช่น Midjourney, DALL-E 2, หรือ Lensa ด้วยเช่นกัน (ถึงแม้ว่าจะเกิดขึ้นน้อยกว่าก็ตาม)

อย่างไรก็ตาม Craiyon นั้นเดินทางมาไกลในฐานะซอฟต์แวร์ Generative AI พวกเขาได้พิสูจน์แล้วว่าเป็นทรัพยากรที่มีคุณค่าสำหรับผู้ใช้งานในองค์กรหรือธุรกิจ ในขณะที่ยังคงความน่าดึงดูดใจต่อเหล่าผู้ใช้งานทั่วไปเช่นเดียวกัน ด้วยความก้าวหน้าอย่างรวดเร็วของวงการ Machine Learning และ Generative AI การเติบโตของ Craiyon เองก็คงจะไปเป็นไปอย่างรวดเร็วเช่นกัน