ในปัจจุบัน เครื่องจักรนั้นสามารถเรียนรู้ด้วยตัวเองได้ด้วยวิธีการขั้นสูง คอมพิวเตอร์จะทำการตรวจสอบจุดข้อมูลหลายพันล้านจุดเพื่อตรวจจับรูปแบบที่ซับซ้อนอย่างรวดเร็วและใช้มันแก้ปัญหาในโลกแห่งความเป็นจริง มันเกิดขึ้นได้อย่างไร? ก็โดยการใช้ “แบบจำลอง Machine Learning” ยังไงล่ะ!
Machine Learning เป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ที่บรรลุหนึ่งในวัตถุประสงค์หลักของปัญญาประดิษฐ์ (AI) มันคือระบบที่ออกแบบมาให้สามารถคิดด้วยตนเองได้พร้อมๆ ไปกับการจำลองและก้าวข้ามสติปัญญาและการเรียนรู้ของมนุษย์ บทความนี้จะเป็นการเจาะลึกเรื่องแบบจำลอง Machine Learning ที่ใช้กันทั่วไปในการฝึกอบรมระบบคอมพิวเตอร์และ AI
💡 เชื่อว่าเครื่องจักรคืออนาคตของเรา? มาเข้าร่วม BeInCrypto Trading Community ของเหล่าสาวก Crypto บน Telegram สิ: เรียนรู้เพิ่มเติมเกี่ยวกับสกุลเงินแห่งอนาคตและระบบกระจายอำนาจ เริ่มการเทรดด้วยหลักสูตรการเทรดขั้นพื้นฐานที่เรียนรู้ได้ฟรีของเรา และพูดคุยเกี่ยวกับแนวโน้มของเหรียญต่างๆ กับนักเทรดมืออาชีพ! เข้าร่วมเลยเดี๋ยวนี้
แบบจำลอง Machine Learning คืออะไร?
แบบจำลอง Machine Learning คือโปรแกรมคอมพิวเตอร์ที่จะค้นหารูปแบบต่างๆ ในข้อมูลการฝึกฝน รูปแบบเหล่านี้ถูกใช้เพื่อการคาดการณ์เกี่ยวกับข้อมูลใหม่ๆ
เพื่อให้แบบจำลองใช้งานได้จริงและแม่นยำ นักวิทยาศาสตร์ข้อมูลจะป้อนชุดข้อมูลขนาดใหญ่ระหว่างการฝึกฝน อัลกอริทึมจะวิเคราะห์ชุดข้อมูลเพื่อค้นหารูปแบบหรือผลลัพธ์บางอย่าง โดยจะขึ้นอยู่กับวัตถุประสงค์ของมัน เมื่อกระบวนการสิ้นสุดลง ผลลัพธ์ของอัลกอริทึมจะถูกปรับแต่งให้เหมาะสมด้วยโปรแกรมคอมพิวเตอร์ นี่คือความหมายจริงๆ ของแบบจำลอง Machine Learning
จากนั้น แบบจำลองจะใช้รูปแบบที่พบในชุดข้อมูลการฝึกฝนเพื่อกำหนดกฎและโครงสร้างข้อมูลเฉพาะทาง จากนั้นจะใช้สิ่งเหล่านั้นเพื่อวิเคราะห์ข้อมูลใหม่ๆ
ตัวอย่างเช่น แบบจำลอง Machine Learning จะสามารถจดจำวัตถุอย่างสัญญาณไฟจราจรหรือคนเดินถนนได้อย่างแม่นยำ สมมติว่าคุณต้องการพัฒนาแอปเพื่อวิเคราะห์การแสดงออกทางสีหน้าของผู้ใช้งานเพื่อจดจำอารมณ์ของพวกเขา เพื่อดำเนินการตามไอเดียเหล่านั้น คุณสามารถฝึกฝนแบบจำลอง Machine Learning ได้โดยการป้อนรูปภาพใบหน้าที่มีอารมณ์ต่างๆ และแปะป้ายกำกับไว้ เมื่อพร้อมแล้ว แอปจะใช้งานข้อมูลของแบบจำลองดังกล่าวเพื่อกำหนดอารมณ์หรือความรู้สึกของผู้ใช้งานได้
ในทำนองเดียวกัน การประมวลผลภาษาธรรมชาติสามารถฝึกแบบจำลองเพื่อแยกวิเคราะห์และรับรู้ถึงเจตนาที่อยู่เบื้องหลังประโยคใดๆ
ข้อสรุปของแบบจำลอง Machine Learning โดยสังเขป:
- แบบจำลอง Machine Learning ได้รับการฝึกฝนผ่านชุดข้อมูล
- แบบจำลองนี้จะมีอัลกอริทึมที่ให้เหตุผลเกี่ยวกับข้อมูลที่มีอยู่
- เมื่อมีการใช้อัลกอริทึม แบบจำลองจะทำการจำแนกรูปแบบบางอย่างจากชุดข้อมูล
- เมื่อการฝึกอบรมสิ้นสุดลง แบบจำลองจะใช้ “ความรู้” ที่ได้รับระหว่างการฝึกฝนกับชุดข้อมูลที่ไม่เคยเห็นมาก่อนเพื่อทำการคาดการณ์
โปรดทราบไว้ก่อนว่าแบบจำลอง Machine Learning นั้นไม่เหมือนกับอัลกอริทึมของ Machine Learning ถึงแม้ว่านั้นอาจจะฟังดูชัดเจน แต่คำทั้ง 2 คำนี้มักจะใช้แทนกันได้ ซึ่งมักจะสร้างความสับสนให้กับหลายๆ คน
ความแตกต่างระหว่างแบบจำลองและอัลกอริทึม Machine Learning
อัลกอริทึม Machine Learning เป็นวิธีการทางคณิตศาสตร์ในการค้นหารูปแบบในชุดข้อมูล อัลกอริทึมดังกล่าวมักมาจากการคำนวนแบบแคลคูลัส, สถิติ, และพีชคณิตเชิงเส้น ตัวอย่างทั่วไปของอัลกอริทึม Machine Learning ได้แก่:
- การถดถอยเชิงเส้น (การคำนวณหาความสัมพันธ์ระหว่างตัวแปร 2 ตัวแปร)
- การถดถอยโลจิสติก (การวิเคราะห์ที่มีเป้าหมายเพื่อทำนายโอกาสที่จะเกิดเหตุการณ์ที่สนใจขึ้น)
- ต้นไม้แห่งการตัดสินใจ (แบบจำลองที่ช่วยให้วิเคราะห์เหตุการณ์ หรือสถานการณ์เพื่อการตัดสินใจได้อย่างเป็นระบบและรวดเร็ว)
- k-Nearest Neighbors (k-NN) (เปรียบเทียบความคล้ายคลึงกันของข้อมูลที่สนใจกับข้อมูลอื่นว่ามีความคล้ายคลึงกับชุดข้อมูลมากเพียงใด)
- K-means (การเรียนรู้แบบไม่ต้องสอนและไม่มีคำตอบตายตัว)
คิดซะว่าอัลกอริทึม Machine Learning นั้นเป็นเหมือนอัลกอริทึมอื่นๆ ในวิทยาการคอมพิวเตอร์
ในทางกลับกัน แบบจำลอง Machine Learning คือผลลัพธ์ของอัลกอริทึมหลังจากที่มันฝึกฝนด้วยชุดข้อมูล หรืออีกนัยหนึ่ง แบบจำลองจะแสดงถึงสิ่งที่เรียนรู้จากอัลกอริทึมพื้นฐาน โดยทั่วไปแล้ว มันจะประกอบไปด้วยชุดข้อมูลของแบบจำลองและขั้นตอนในการค้นหารูปแบบภายในชุดข้อมูลใหม่และทำการคาดคะเน
กล่าวคือ อัลกอริทึม Machine Learning จะช่วยอำนวยความสะดวกในการเขียนโปรแกรมอัตโนมัติประเภทหนึ่ง ในขณะที่แบบจำลอง Machine Learning เป็นตัวแทนของโปรแกรมดังกล่าว
Machine Learning ทั้ง 3 ประเภท
หากอ้างอิงจากวิธีการที่ใช้ อัลกอริทึม Machine Learning สามารถจำแนกได้อีก 3 ประเภทย่อย ได้แก่:
- Supervised Learning
- Unsupervised Learning
- Reinforcement Learning
Supervised Learning (การเรียนรู้โดยมีผู้ฝึกสอน)
Supervised Learning จำเป็นต้องมีการควบคุมดูแลและความช่วยเหลือจากมนุษย์ในระดับหนึ่ง กระบวนการนี้จะขึ้นอยู่กับชุดข้อมูลอินพุตและเอาต์พุต แบบจำลองเรียนรู้ที่จะระบุรูปแบบที่เชื่อมต่อข้อมูลอินพุตและเอาต์พุตเข้าด้วยกัน จากนั้น มันก็จะจำลองรูปแบบเหล่านี้เพื่อทำนายผลลัพธ์จากชุดข้อมูลใหม่
Supervised Learning มีประโยชน์สำหรับกรณีการใช้งานเช่น:
- การเพิ่มประสิทธิภาพสินค้าคงคลัง
- การระบุปัจจัยเสี่ยงของโรค
- การประเมินคำขอสินเชื่อเพื่อดูว่าผู้สมัครมีความเสี่ยงต่ำหรือมีความเสี่ยงสูง
- การตรวจจับธุรกรรมที่ฉ้อโกง
- การคาดการณ์ราคาอสังหาริมทรัพย์
Unsupervised Learning (การเรียนรู้โดยไม่มีการสอน)
แตกต่างจาก Supervised Learning (ซึ่งค่อนข้างจะบอกได้อย่างชัดเจนจากชื่อของมัน) Unsupervised Learning ไม่จำเป็นต้องมีการควบคุมดูแลจากมนุษย์ แบบจำลองจะได้รับการฝึกฝนจากข้อมูลดิบและไม่มีป้ายกำกับ อัลกอริทึมจะเรียนรู้ที่จะแยกข้อมูลออกเป็นประเภทต่างๆ แทน ดังนั้นแต่ละประเภทจึงจะประกอบด้วยส่วนหนึ่งของข้อมูลที่มีคุณสมบัติทั่วไป
Unsupervised Learning มีประโยชน์เมื่อใช้ระบุรูปแบบในชุดข้อมูลดิบหรือจัดกลุ่มข้อมูลที่คล้ายกันเป็นกลุ่มๆ กรณีการใช้งานทั่วไป ได้แก่:
- จำแนกโปรไฟล์ลูกค้าตามพฤติกรรมการซื้อหรือการบริโภค
- การจัดประเภทรายการสินค้าคงคลังตามสถิติการผลิตและ/หรือการขาย
- เน้นการเชื่อมโยงในข้อมูลลูกค้า ตัวอย่างเช่น ลูกค้าที่ซื้อเสื้อผ้าบางประเภทอาจจะสนใจรองเท้าประเภทใดประเภทหนึ่ง
Reinforcement Learning (การเรียนรู้แบบเสริมกำลัง)
Reinforcement Learning ค่อนข้างคล้ายกับ Supervised Learning — ทั้ง 2 วิธีนั้นขึ้นอยู่กับการที่แบบจำลองได้รับฟี๊ดแบ็กจากชุดข้อมูล อย่างไรก็ตาม สำหรับ Reinforcement Learning นั้น แบบจำลองจะไม่ได้รับฟี๊ดแบ็ก วิธีการนี้ทำให้แบบจำลองอยู่ในสถานการณ์ที่เหมือนเกม มันจะต้องใช้วิธีการลองผิดลองถูกเพื่อค้นหาผลลัพธ์ที่มันต้องการ
แบบจำลองจะได้รับรางวัลหรือบทลงโทษขึ้นอยู่กับการกระทำของมัน เป้าหมายคือการเพิ่มรางวัลทั้งหมดให้ได้มากที่สุด เมื่อเวลาผ่านไป แบบจำลองจะมีความเชี่ยวชาญมากขึ้นในการตัดสินใจตามลำดับ ถึงแม้จะอยู่ในสภาพแวดล้อมที่ไม่แน่นอนและซับซ้อนก็ตาม
ตัวอย่างของกรณีการใช้งานของแอปพลิเคชั่น Reinforcement Learning นั้นได้แก่:
- ฝึกยานพาหนะไร้คนขับให้ขับและจอดเองโดยไม่ต้องอาศัยการแทรกแซงของมนุษย์
- สัญญาณไฟจราจรแบบเปลี่ยนแปลงได้เพื่อช่วยควบคุมการจราจร
แบบจำลอง Machine Learning ยอดนิยมในปี 2022
แบบจำลองของ Machine Learning ที่แตกต่างกันจะใช้อัลกอริทึมและวิธีการเรียนรู้ประเภทที่แตกต่างกันไปด้วย ดังนั้น มันจึงสามารถแบ่งประเภทของแบบจำลองออกเป็นประเภทของการเรียนรู้ที่พวกมันใช้
แบบจำลองของ Supervised Machine Learning
การจัดหมวดหมู่
การจัดหมวดหมู่เป็นงานการสร้างแบบจำลองเชิงคาดการณ์ มันจะเกี่ยวข้องกับการคาดเดาประเภทหรือคลาสของวัตถุภายในตัวเลือกที่มีจำนวนจำกัด
การจัดหมวดหมู่จะใช้ชุดข้อมูลที่กว้างขวางพร้อมตัวอย่างของอินพุต (ข้อมูลที่นำเข้า) และเอาต์พุต (ข้อมูลที่ได้รับการประมวลผลแล้ว) ที่อัลกอริทึมพื้นฐานใช้เรียนรู้ แบบจำลองนี้จะใช้ชุดข้อมูลการฝึกฝนเพื่อค้นหาวิธีที่เหมาะสมที่สุดในการจับคู่ข้อมูลอินพุตเข้ากับป้ายกำกับคลาสที่เฉพาะเจาะจง
มันจะมี Machine Learning ของการจัดหมวดหมู่อยู่ 2 ประเภท ได้แก่ ไบนารีและมัลติคลาส รูปแบบไบนารีนั้นเหมาะสำหรับปัญหาที่มีเพียง 2 คลาสที่เป็นไปได้ ตัวอย่างเช่น ใช่/ไม่ใช่, เปิด/ปิด เป็นต้น รูปแบบมัลติคลาสนั้นเหมาะที่สุดสำหรับปัญหาที่มีมากกว่า 2 คลาสที่เป็นไปได้
วัตถุประสงค์: การคาดเดาผลแบบไบนารี
กรณีการใช้งาน: การจัดหมวดหมู่เหมาะที่สุดสำหรับงานต่างๆ เช่น การระบุภาษา (เช่น Google Translate), การตรวจจับการฉ้อโกง, การกรองการสแปม, การวิเคราะห์ความรู้สึก, การจดจำอักขระที่เขียนด้วยลายมือ และการค้นหาเอกสาร
ตัวอย่างของอัลกอริทึมที่ใช้กันทั่วไปในแบบจำลองการจัดหมวดหมู่:
- การถดถอยโลจิสติก: แบบจำลองเชิงเส้นที่มีประโยชน์สำหรับการจำแนกข้อมูลแบบ 2 ตัวแปร
- ต้นไม้แห่งการตัดสินใจ: อิงตามหลักการ “if/else” และมีความต้านทานต่อค่าผิดปกติมากขึ้น
- K-Nearest Neighbors (KNN): โมเดลที่เรียบง่ายแต่ใช้เวลามาก ซึ่งอัลกอริทึม KNN จะค้นหาความคล้ายคลึงกันเพื่อจำแนกจุดข้อมูลใหม่
- Naive Bayes: สร้างขึ้นจากแบบจำลองทางสถิติแบบเบย์
- ซัพพอร์ตเวกเตอร์: มักจะใช้เพื่อจัดประเภทชุดข้อมูลทั้งแบบไบนารีและแบบมัลติคลาส
การถดถอย
แบบจำลองการถดถอยคือแบบจำลองที่อัลกอริทึมพื้นฐานใช้วิธีทางสถิติเพื่อสร้างแบบจำลองการเชื่อมต่อระหว่างตัวแปรอิสระและตัวแปรตาม (เป้าหมาย) มักจะใช้สำหรับการสร้างแบบจำลองเชิงคาดการณ์ซึ่งอัลกอริทึมจะคาดการณ์ผลลัพธ์ที่มีความต่อเนื่อง
มันอยู่ภายใต้หัวข้อ Supervised Learning ซึ่งอัลกอริทึมจะเรียนรู้ด้วยคุณสมบัติจากอินพุตและป้ายกำกับจากเอาต์พุต วัตถุประสงค์คือเพื่อสร้างความสัมพันธ์ระหว่างตัวแปรโดยการคาดการณ์ว่าการเปลี่ยนแปลงในตัวแปรหนึ่งจะส่งผลกระทบต่ออีกตัวแปรหนึ่งอย่างไร คุณสามารถเรียกมันว่าเป็นวิธีการ “คาดเดาที่ดีที่สุด” เพื่อคาดการณ์จากชุดข้อมูลต่างๆ
วัตถุประสงค์: เพื่อคาดเดาค่าตัวเลข
กรณีการใช้งาน: การคาดการณ์ราคาสกุลเงินดิจิทัลหรือราคาหุ้น การทำนายการเติบโตของรายได้ประจำปี ฯลฯ
ตัวอย่างของอัลกอริธึมการถดถอยที่ใช้กันทั่วไปในปัจจุบัน:
- การถดถอยเชิงเส้น: แบบจำลองการถดถอยขั้นพื้นฐานที่สุด การถดถอยเชิงเส้นเหมาะที่สุดในกรณีที่ข้อมูลสามารถแยกประเภทได้โดยมีความหลากหลายน้อยหรือไม่มีเลย
- การถดถอยแบบ Ridge: การถดถอยเชิงเส้นพร้อมด้วยการทำให้เป็นมาตรฐาน L1 เหมาะที่สุดสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยแบบพหุคูณในสถานการณ์ที่ตัวแปรอิสระมีความสัมพันธ์กันสูงมาก
- การถดถอยแบบ Lasso: การถดถอยเชิงเส้นพร้อมด้วยการทำให้เป็นมาตรฐาน L2 Lasso นั้นย่อมาจาก Least Absolute Shrinkage and Selection Operator มันใช้วิธีการที่จะดำเนินการทั้งการเลือกตัวแปรและการทำให้เป็นมาตรฐาน เป้าหมายคือเพื่อเพิ่มความแม่นยำในการคาดการณ์และความสามารถในการตีความของแบบจำลอง
- Support Vector Regression (SVR): สร้างขึ้นจากอัลกอริทึม Supervised Learning ที่สามารถคาดเดาค่าที่ไม่ต่อเนื่องได้
แบบจำลองของ Unsupervised Machine Learning
Artificial Neural Networks (ANNs หรือ โครงข่ายประสาทเทียม)
ขึ้นอยู่กับกรณีการใช้งานของมัน ANNs สามารถจัดอยู่ในหมวดหมู่ Supervised หรือ Unsupervised Learning ได้ ใน Supervised Learning ANN จะอยู่ภายใต้การดูแลของนักการศึกษา (เช่น นักวิทยาศาสตร์ข้อมูลหรือผู้ออกแบบระบบ) นักการศึกษาจะใช้ความรู้เกี่ยวกับระบบเพื่อช่วยโครงข่ายเตรียมชุดข้อมูลที่มีป้ายกำกับ
ใน Unsupervised Learning ANN จะมีประโยชน์มากที่สุดเมื่อการเพิ่มชุดข้อมูลการฝึกฝนด้วย Class IDs (การระบุประเภทของชุดข้อมูล) กลายเป็นเรื่องยากหรือเป็นไปไม่ได้ สถานการณ์ดังกล่าวมักเกิดขึ้นเมื่อเราไม่รู้เรื่องเกี่ยวกับระบบ
โครงข่ายประสาทเทียมนั้นจะจำลองรูปแบบมาจากสมองของมนุษย์อย่างคร่าวๆ พวกเขาสามารถใช้ “Machine Perception” เพื่อทำความเข้าใจข้อมูลขาเข้าจากเซ็นเซอร์ได้ เซลล์ประสาทเทียมแต่ละเซลล์จะเชื่อมต่อกับเซลล์ประสาทอื่นๆ เพื่อสร้างโครงข่ายคล้ายใยแมงมุม เซลล์ประสาทนับล้านในโครงข่ายนี้จะทำงานร่วมกันก่อให้เกิดโครงสร้างการรับรู้
ข้อมูลใดๆ ในโลกแห่งความเป็นจริง เช่น เพลง รูปภาพ ข้อความ ฯลฯ จำเป็นต้องมีการแปลเป็นรูปแบบที่อัลกอริทึมรู้จัก รูปแบบเหล่านี้มักจะแสดงผลเป็นตัวเลขและเข้ารหัสเป็นเวกเตอร์ เมื่อการฝึกฝนสิ้นสุดลง โครงข่ายประสาทเทียมจะสามารถจัดกลุ่มและประมวลผลข้อมูลจำนวนมหาศาล ซึ่งมนุษย์ต้องใช้เวลาหลายสิบปีในการดึงคุณค่าใดๆ ของมันออกมาได้
ตัวอย่างของโครงข่ายประสาทเทียมที่เป็นที่รู้จักกันมากที่สุดคืออัลกอริทึมการค้นหาของ Google
วัตถุประสงค์: การจัดกลุ่มข้อมูล, การจัดหมวดหมู่, การจดจำรูปแบบ
กรณีการใช้งาน: การจดจำใบหน้าโดยใช้ ANN, แอปพลิเคชั่นที่ใช้ข้อมูลจำนวนมาก, ยานพาหนะอัตโนมัติ, เสิร์ชเอ็นจิ้น ฯลฯ
ตัวอย่างของแบบจำลอง Machine Learning ที่ใช้ ANN:
- Multi-Layer Perceptron (MLP): มันคือประเภทของ ANN แบบ Feedforward (การแนะนำสิ่งที่ควรหรือไม่ควรทำในอนาคต) พวกมันเป็นโครงข่ายประสาทเทียมเชิงลึกแบบพื้นฐานที่สุดและประกอบด้วยชุดของเลเยอร์ที่เชื่อมต่อกัน แบบจำลองของ MLP นั้นเหมาะสำหรับสถาปัตยกรรมการเรียนรู้เชิงลึกที่ใช้ทรัพยากรเป็นจำนวนมาก
- Convolution Neural Networks (ConvNet หรือ CNN): มันเป็นวิสัยทัศน์ Machine Learning ********ในอุดมคติที่ทำให้ “การมองเห็นของคอมพิวเตอร์” เป็นไปได้ ป้อนชุดข้อมูลแบบภาพให้กับมัน แล้วอัลกอริทึมของ CNN จะแยกอินพุตที่ต้องการออกมาโดยอัตโนมัติเพื่อทำให้งานสำเร็จ (เช่น การจดจำใบหน้า)
- Recurrent Neural Networks (RNN): เป็นการใช้การป้อนข้อมูลตามลำดับเพื่อแก้ไขปัญหาของข้อมูลอินพุตตามลำดับ แบบจำลอง RNN มักจะถูกใช้มากที่สุดในการประมวลผลภาษาธรรมชาติ เนื่องจากสามารถประมวลผลข้อมูลที่มีความยาวอินพุตที่ไม่แน่นอนได้
จัดกลุ่มข้อมูล
การจัดกลุ่มข้อมูลเป็นวิธีหนึ่งใน Machine Learning ซึ่งแบบจำลองจะได้รับการฝึกฝนให้จัดกลุ่มวัตถุที่คล้ายๆ กันเข้าด้วยกัน กล่าวอีกนัยหนึ่ง มันจะจัดกลุ่มชุดข้อมูลที่ไม่มีป้ายกำกับเข้าด้วยกัน
มันทำได้โดยการค้นหารูปแบบที่คล้ายกันในชุดข้อมูลที่ไม่มีป้ายกำกับ เช่น สี ขนาด รูปร่าง ลักษณะการทำงาน เป็นต้น จากนั้น อัลกอริทึมนี้จะแยกรูปแบบเหล่านั้นออกมาตามรูปแบบที่มีและไม่มี แต่ละกลุ่มหรือคลัสเตอร์จะได้รับคลัสเตอร์ ID เพื่อการระบุข้อมูลที่ง่ายยิ่งขึ้น แบบจำลองนี้จะใช้ ID เหล่านี้เพื่อลดและทำให้การประมวลผลชุดข้อมูลที่ซับซ้อนเป็นเรื่องง่าย
นอกเหนือจากการวิเคราะห์ข้อมูลทางสถิติแล้ว เทคนิคการจัดกลุ่มข้อมูลยังมีประโยชน์กับการแบ่งกลุ่มผู้บริโภคและงานแท็กข้อมูลอีกด้วย
วัตถุประสงค์: เพื่อจัดกลุ่มวัตถุหรือจุดข้อมูลที่คล้ายกันเข้าด้วยกัน
กรณีการใช้งาน: การแบ่งส่วนตลาด, การวิเคราะห์โซเชียลเน็ตเวิร์ก, การตรวจจับความผิดปกติ, การวิเคราะห์ข้อมูลทางสถิติ, การแบ่งส่วนภาพ ฯลฯ เพื่อให้เข้าใจได้ง่ายๆ แพลตฟอร์มอย่าง Amazon และ Netflix อาศัยเทคนิคการจัดกลุ่มบนแอพของพวกเขาเพื่อมอบคำแนะนำผลิตภัณฑ์และเนื้อหาทั้งหมดให้แก่คุณ
ตัวอย่างของแบบจำลอง Machine Learning ที่ใช้การจัดกลุ่มข้อมูล:
- K-Means: แบบจำลองที่ขับเคลื่อนโดยอัลกอริธึม K-Means มันจะแยกชุดข้อมูลโดยจัดกลุ่มตัวอย่างเป็นกลุ่มที่มีความแปรปรวนเท่ากัน นี่อาจจะเป็นหนึ่งในแบบจำลองการจัดกลุ่มที่เป็นพื้นฐานมากที่สุด แต่อาจจะมีข้อเสียเล็กน้อยจากความแปรปรวนที่สูง
- K-Means++: แบบจำลองนี้จะใช้อัลกอริทึม K-Means ที่มีการปรับปรุงแล้ว มันอาศัยเทคนิคการเริ่มต้นการรวมจุดตัดของข้อมูลที่ชาญฉลาด อัลกอริทึมที่เหลือจะคล้ายกับ K-Means
- Agglomerative Clustering: ในแบบจำลองนี้ อัลกอริทึมพื้นฐานจะถือว่าจุดข้อมูลแต่ละจุดเป็นคลัสเตอร์เดียวก่อนที่จะค่อยๆ ผสานเข้าด้วยกัน ลำดับชั้นของคลัสเตอร์จากล่างขึ้นบนจะสามารถแสดงเป็นโครงสร้างแบบต้นไม้ได้
- DBSCAN: แบบจำลองที่ขับเคลื่อนโดยอัลกอริทึม Density-Based Spatial Clustering of Applications with Noise (DBSCAN) อัลกอริทึมจะแยกพื้นที่ที่มีความหนาแน่นของจุดข้อมูลสูงจากพื้นที่ที่มีความหนาแน่นต่ำ
การลดมิติข้อมูล
ในแบบจำลองการลดมิติของข้อมูล อัลกอริทึมพื้นฐานจะลดจำนวนของตัวแปรสุ่มภายใต้การพิจารณาต่างๆ สิ่งนี้ทำได้โดยการรับชุดของตัวแปรหลัก
“มิติ” หมายถึงจำนวนของตัวแปรการคาดเดาที่แบบจำลอง Machine Learning ใช้ในการคาดเดาตัวแปรอิสระ (เป้าหมาย)
มากกว่าก็ยิ่งดีกว่า? จำนวนตัวแปรในชุดข้อมูลของ “โลกแห่งความจริง” โดยเฉลี่ยนั้นมีมากจนเกินไป ทำให้มันสร้างปัญหาของการ Overfitting (แบบจำลองมีค่าความถูกต้องในการระบุประเภทของเป้าหมายในชุดข้อมูลฝึกฝนมากจนเกินไป แต่เมื่อปรับใช้กับชุดข้อมูลทดสอบกลับได้ค่าความถูกต้องที่ต่ำจนเกินไป จึงทำให้ต้องทำการลด “มิติ” ของตัวแปรลงเพื่อแก้ปัญหาดังกล่าว)
ในกรณีส่วนใหญ่ ตัวแปรบางตัวไม่ได้มีส่วนร่วมที่เท่าเทียมกันในการบรรลุผลลัพธ์ที่ต้องการ อันที่จริง ส่วนใหญ่แล้ว การลดความแปรปรวนด้วยตัวแปรที่น้อยลงนั้นเหมาะสมเป็นอย่างยิ่ง เทคนิคการลดมิติข้อมูลส่วนใหญ่อยู่ในหมวดหมู่ของการกำจัดคุณลักษณะหรือการแยกคุณลักษณะ
วัตถุประสงค์: สรุปข้อมูลและกลั่นกรองข้อมูลที่เกี่ยวข้อง
กรณีการใช้งาน: การตรวจจับความผิดปกติ, ระบบการแนะนำ, แบบจำลองความหมาย, การค้นหาเอกสาร, การสร้างแบบจำลองหัวข้อ และอื่นๆ
ตัวอย่างของแบบจำลอง Machine Learning ที่ใช้การลดมิติข้อมูล:
- Principal Component Analysis (PCA): PCA เป็นหนึ่งในอัลกอริทึมทั่วไปที่ใช้ในแบบจำลองการลดมิติข้อมูล มันถ่ายทอดข้อมูลมิติที่สูงขึ้น (เช่น สามมิติ) ไปยังพื้นที่ที่เล็กลง (เช่น สองมิติ) ส่งผลให้มิติลดลง กล่าวอีกนัยหนึ่ง PCA จะสร้างตัวแปรใหม่ที่มีมิติน้อยลงจากจำนวนตัวคาดเดาที่มากขึ้น เพื่อให้ตัวแปรใหม่เป็นอิสระจากกัน แต่จะตีความได้น้อยลง
- t-SNE: ย่อมาจาก t-Distributed Stochastic Neighbor Embedding ในบริบทนี้ คำว่า “Stochastic” จะหมายถึงความน่าจะเป็นที่เจาะจงแต่สุ่ม คำว่า “Neighbor” หมายถึงความกังวลเกี่ยวกับการรักษาความแปรปรวนของจุดข้อมูลใกล้เคียงเท่านั้น “Embedding” เป็นเพียงการลงจุดข้อมูลในมิติที่ต่ำกว่า ดังนั้น t-SNE จึงเป็นอัลกอริทึมที่ให้ผลลัพธ์ที่แตกต่างกันเล็กน้อยในแต่ละครั้งในชุดข้อมูลเดียวกัน วัตถุประสงค์สูงสุดคือการรักษาโครงสร้างของจุดข้อมูลที่อยู่ใกล้เคียง แบบจำลองที่ใช้งาน t-SNE เหมาะที่สุดสำหรับการฝังข้อมูลมิติที่สูงขึ้นสำหรับการแสดงข้อมูลในรูปแบบภาพนิ่ง
- Singular Value Decomposition (SVD): SVD เป็นหนึ่งในเทคนิคยอดนิยมสำหรับการลดมิติข้อมูลเมื่อข้อมูลนั้นเบาบาง คำว่า “Sparse Data” หมายถึงตัวอย่างของแถวของข้อมูลที่มีหลายค่าเป็น 0 (ศูนย์) ซึ่งเป็นเรื่องปกติในแอปพลิเคชั่น ML อย่าง ระบบการแนะนำ ตัวอย่างเช่น เมื่อผู้ใช้งานให้คะแนนภาพยนตร์หรือเพลงเพียงไม่กี่รายการในฐานข้อมูล
แบบจำลองของ Reinforcement Machine Learning
นอกเหนือจากที่อธิบายไว้ข้างต้นแล้ว มันยังมีแบบจำลอง Machine Learning อีกหลายแบบที่ขับเคลื่อนโดยอัลกอริทึม เช่น:
- Q-Learning
- State–Action–Reward–State–Action (SARSA)
- Deep Q-network (DQN)
- Asynchronous Advantage Actor Critic (A3C)
แบบเหล่านี้ส่วนใหญ่จะใช้สำหรับการดำเนินงานที่ซับซ้อนโดยไม่มีข้อมูลการฝึกฝนใดๆ กรณีการใช้งานยอดนิยมนั้นได้แก่ การชี้นำการเคลื่อนไหวของหุ่นยนต์, การปรับปรุงนโยบายการรักษาในสถานพยาบาล, การขนส่งอัตโนมัติ, การทำการซื้อขายในด้านการเงิน, การขุดค้นข้อความ และอื่นๆ
แบบจำลอง Machine Learning แบบไหนที่ดีที่สุด?
มันไม่มีสิ่งที่เรียกว่าแบบจำลอง Machine Learning ที่ดีที่สุดเพียงตัวเดียว แบบจำลองต่างๆ ก็มีประโยชน์ในกรณีการใช้งานที่แตกต่างกัน ที่จริงแล้ว ระบบที่ซับซ้อนจำนวนมาก เช่น ยานพาหนะไร้คนขับหรือฮาร์ดแวร์ทางการทหารที่ซับซ้อน อาจจะต้องใช้แบบจำลองหลายๆ ตัวเพื่อให้มันทำงานได้สอดคล้องกันในช่วงเวลาเดียวกัน จากข้อมูลเชิงลึกของ Fortune Insights อุตสาหกรรม Machine Learning เป็นอุตสาหกรรมที่กำลังเติบโต โดยคาดว่าจะมีมูลค่าถึง 209.91 พันล้านดอลลาร์ภายในปี 2029 แบบจำลองเหล่านี้จะมีความสำคัญและถูกนำไปใช้อย่างแพร่หลายมากขึ้นในอีกไม่กี่ปีข้างหน้า
คำศัพท์ทางเทคนิคในบทความ
- Machine Learning (การเรียนรู้ของเครื่องจักร): การเรียนรู้ของตัวเครื่องจักรเองนั้นจะใช้อัลกอริทึมที่ประมวลผลจากข้อมูลต่างๆ เรียนรู้จากข้อมูลเหล่านั้น และนำไปสู่การตัดสินใจที่มีพื้นฐานมาจากข้อมูลต่างๆ ที่ป้อนเข้าไป
- AI หรือ Artificial Intelligence (ปัญญาประดิษฐ์): ระบบประมวลผลของคอมพิวเตอร์, หุ่นยนต์, เครื่องจักร หรืออุปกรณ์อิเล็กทรอนิกส์ต่างๆ ที่มีการวิเคราะห์เชิงลึกคล้ายกับความคิดของมนุษย์ และจะก่อให้เกิดผลลัพธ์ต่างๆ ตามรูปแบบการทำงานของมันได้อย่างอัตโนมัติ
- Machine Perception (การรับรู้ของเครื่องจักร): ความสามารถในการอ่านข้อมูลขาเข้าจากเซนเซอร์ (เช่น กล้อง ไมโครโฟน, เซนเซอร์สัมผัส เป็นต้น)
คำถามที่พบบ่อย
แบบจำลอง Machine Learning คืออะไร?
Machine Learning 3 ประเภทหลักคืออะไรบ้าง?
อัลกอริทึม Machine Learning คืออะไร?
ข้อจำกัดความรับผิด
ข้อมูลทั้งหมดที่มีอยู่บนเว็บไซต์ของเราเผยแพร่ด้วยเจตนาที่ดีและเป็นไปเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น การกระทำใด ๆ ที่ผู้อ่านดำเนินการตามข้อมูลที่พบบนเว็บไซต์ของเราถือเป็นความเสี่ยงของผู้อ่านโดยเฉพาะ Learn ให้ความสำคัญกับข้อมูลคุณภาพสูง เราอุทิศเวลาให้กับการแยกแยะ ค้นคว้า และสร้างเนื้อหาเพื่อการศึกษาซึ่งเป็นประโยชน์กับผู้อ่าน เพื่อเป็นการรักษามาตรฐานนี้และเพื่อสร้างเนื้อหาคุณภาพได้อย่างต่อเนื่อง พาร์ตเนอร์ของเราอาจตอบแทนเราด้วยค่าคอมมิชชั่นสำหรับการจัดวางตำแหน่งต่าง ๆ ในบทความของเรา อย่างไรก็ดี ค่าคอมมิชชั่นนี้ไม่มีผลต่อกระบวนการของเราในการสร้างเนื้อหาที่ไร้อคติ ตรงไปตรงมา และเป็นประโยชน์