แชร์

แบบจำลอง Machine Learning ที่ได้รับความนิยมมากที่สุดในปี 2023

เลือกเราใน Google

เขียนโดย

Akradet Mornthong

แก้ไขโดย

Nonthachai Sukkankosol

เผยแพร่:23 ธันวาคม พ.ศ. 2565, 16:00 ICT

ในปัจจุบัน เครื่องจักรนั้นสามารถเรียนรู้ด้วยตัวเองได้ด้วยวิธีการขั้นสูง คอมพิวเตอร์จะทำการตรวจสอบจุดข้อมูลหลายพันล้านจุดเพื่อตรวจจับรูปแบบที่ซับซ้อนอย่างรวดเร็วและใช้มันแก้ปัญหาในโลกแห่งความเป็นจริง มันเกิดขึ้นได้อย่างไร? ก็โดยการใช้ “แบบจำลอง Machine Learning” ยังไงล่ะ!

Machine Learning เป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ที่บรรลุหนึ่งในวัตถุประสงค์หลักของปัญญาประดิษฐ์ (AI) มันคือระบบที่ออกแบบมาให้สามารถคิดด้วยตนเองได้พร้อมๆ ไปกับการจำลองและก้าวข้ามสติปัญญาและการเรียนรู้ของมนุษย์ บทความนี้จะเป็นการเจาะลึกเรื่องแบบจำลอง Machine Learning ที่ใช้กันทั่วไปในการฝึกอบรมระบบคอมพิวเตอร์และ AI

💡 เชื่อว่าเครื่องจักรคืออนาคตของเรา? มาเข้าร่วม BeInCrypto Trading Community ของเหล่าสาวก Crypto บน Telegram สิ: เรียนรู้เพิ่มเติมเกี่ยวกับสกุลเงินแห่งอนาคตและระบบกระจายอำนาจ เริ่มการเทรดด้วยหลักสูตรการเทรดขั้นพื้นฐานที่เรียนรู้ได้ฟรีของเรา และพูดคุยเกี่ยวกับแนวโน้มของเหรียญต่างๆ กับนักเทรดมืออาชีพ! เข้าร่วมเลยเดี๋ยวนี้

แบบจำลอง Machine Learning คืออะไร?

แบบจำลอง Machine Learning คือโปรแกรมคอมพิวเตอร์ที่จะค้นหารูปแบบต่างๆ ในข้อมูลการฝึกฝน รูปแบบเหล่านี้ถูกใช้เพื่อการคาดการณ์เกี่ยวกับข้อมูลใหม่ๆ

เพื่อให้แบบจำลองใช้งานได้จริงและแม่นยำ นักวิทยาศาสตร์ข้อมูลจะป้อนชุดข้อมูลขนาดใหญ่ระหว่างการฝึกฝน อัลกอริทึมจะวิเคราะห์ชุดข้อมูลเพื่อค้นหารูปแบบหรือผลลัพธ์บางอย่าง โดยจะขึ้นอยู่กับวัตถุประสงค์ของมัน เมื่อกระบวนการสิ้นสุดลง ผลลัพธ์ของอัลกอริทึมจะถูกปรับแต่งให้เหมาะสมด้วยโปรแกรมคอมพิวเตอร์ นี่คือความหมายจริงๆ ของแบบจำลอง Machine Learning

จากนั้น แบบจำลองจะใช้รูปแบบที่พบในชุดข้อมูลการฝึกฝนเพื่อกำหนดกฎและโครงสร้างข้อมูลเฉพาะทาง จากนั้นจะใช้สิ่งเหล่านั้นเพื่อวิเคราะห์ข้อมูลใหม่ๆ

ตัวอย่างเช่น แบบจำลอง Machine Learning จะสามารถจดจำวัตถุอย่างสัญญาณไฟจราจรหรือคนเดินถนนได้อย่างแม่นยำ สมมติว่าคุณต้องการพัฒนาแอปเพื่อวิเคราะห์การแสดงออกทางสีหน้าของผู้ใช้งานเพื่อจดจำอารมณ์ของพวกเขา เพื่อดำเนินการตามไอเดียเหล่านั้น คุณสามารถฝึกฝนแบบจำลอง Machine Learning ได้โดยการป้อนรูปภาพใบหน้าที่มีอารมณ์ต่างๆ และแปะป้ายกำกับไว้ เมื่อพร้อมแล้ว แอปจะใช้งานข้อมูลของแบบจำลองดังกล่าวเพื่อกำหนดอารมณ์หรือความรู้สึกของผู้ใช้งานได้

ในทำนองเดียวกัน การประมวลผลภาษาธรรมชาติสามารถฝึกแบบจำลองเพื่อแยกวิเคราะห์และรับรู้ถึงเจตนาที่อยู่เบื้องหลังประโยคใดๆ

ผู้สนับสนุน

ข้อสรุปของแบบจำลอง Machine Learning โดยสังเขป:

แบบจำลอง Machine Learning ได้รับการฝึกฝนผ่านชุดข้อมูล
แบบจำลองนี้จะมีอัลกอริทึมที่ให้เหตุผลเกี่ยวกับข้อมูลที่มีอยู่
เมื่อมีการใช้อัลกอริทึม แบบจำลองจะทำการจำแนกรูปแบบบางอย่างจากชุดข้อมูล
เมื่อการฝึกอบรมสิ้นสุดลง แบบจำลองจะใช้ “ความรู้” ที่ได้รับระหว่างการฝึกฝนกับชุดข้อมูลที่ไม่เคยเห็นมาก่อนเพื่อทำการคาดการณ์

โปรดทราบไว้ก่อนว่าแบบจำลอง Machine Learning นั้นไม่เหมือนกับอัลกอริทึมของ Machine Learning ถึงแม้ว่านั้นอาจจะฟังดูชัดเจน แต่คำทั้ง 2 คำนี้มักจะใช้แทนกันได้ ซึ่งมักจะสร้างความสับสนให้กับหลายๆ คน

ความแตกต่างระหว่างแบบจำลองและอัลกอริทึม Machine Learning

อัลกอริทึม Machine Learning เป็นวิธีการทางคณิตศาสตร์ในการค้นหารูปแบบในชุดข้อมูล อัลกอริทึมดังกล่าวมักมาจากการคำนวนแบบแคลคูลัส, สถิติ, และพีชคณิตเชิงเส้น ตัวอย่างทั่วไปของอัลกอริทึม Machine Learning ได้แก่:

การถดถอยเชิงเส้น (การคำนวณหาความสัมพันธ์ระหว่างตัวแปร 2 ตัวแปร)
การถดถอยโลจิสติก (การวิเคราะห์ที่มีเป้าหมายเพื่อทำนายโอกาสที่จะเกิดเหตุการณ์ที่สนใจขึ้น)
ต้นไม้แห่งการตัดสินใจ (แบบจำลองที่ช่วยให้วิเคราะห์เหตุการณ์ หรือสถานการณ์เพื่อการตัดสินใจได้อย่างเป็นระบบและรวดเร็ว)
k-Nearest Neighbors (k-NN) (เปรียบเทียบความคล้ายคลึงกันของข้อมูลที่สนใจกับข้อมูลอื่นว่ามีความคล้ายคลึงกับชุดข้อมูลมากเพียงใด)
K-means (การเรียนรู้แบบไม่ต้องสอนและไม่มีคำตอบตายตัว)

คิดซะว่าอัลกอริทึม Machine Learning นั้นเป็นเหมือนอัลกอริทึมอื่นๆ ในวิทยาการคอมพิวเตอร์

ในทางกลับกัน แบบจำลอง Machine Learning คือผลลัพธ์ของอัลกอริทึมหลังจากที่มันฝึกฝนด้วยชุดข้อมูล หรืออีกนัยหนึ่ง แบบจำลองจะแสดงถึงสิ่งที่เรียนรู้จากอัลกอริทึมพื้นฐาน โดยทั่วไปแล้ว มันจะประกอบไปด้วยชุดข้อมูลของแบบจำลองและขั้นตอนในการค้นหารูปแบบภายในชุดข้อมูลใหม่และทำการคาดคะเน

กล่าวคือ อัลกอริทึม Machine Learning จะช่วยอำนวยความสะดวกในการเขียนโปรแกรมอัตโนมัติประเภทหนึ่ง ในขณะที่แบบจำลอง Machine Learning เป็นตัวแทนของโปรแกรมดังกล่าว

Machine Learning ทั้ง 3 ประเภท

หากอ้างอิงจากวิธีการที่ใช้ อัลกอริทึม Machine Learning สามารถจำแนกได้อีก 3 ประเภทย่อย ได้แก่:

Supervised Learning
Unsupervised Learning
Reinforcement Learning

Supervised Learning (การเรียนรู้โดยมีผู้ฝึกสอน)

Supervised Learning จำเป็นต้องมีการควบคุมดูแลและความช่วยเหลือจากมนุษย์ในระดับหนึ่ง กระบวนการนี้จะขึ้นอยู่กับชุดข้อมูลอินพุตและเอาต์พุต แบบจำลองเรียนรู้ที่จะระบุรูปแบบที่เชื่อมต่อข้อมูลอินพุตและเอาต์พุตเข้าด้วยกัน จากนั้น มันก็จะจำลองรูปแบบเหล่านี้เพื่อทำนายผลลัพธ์จากชุดข้อมูลใหม่

Supervised Learning มีประโยชน์สำหรับกรณีการใช้งานเช่น:

การเพิ่มประสิทธิภาพสินค้าคงคลัง
การระบุปัจจัยเสี่ยงของโรค
การประเมินคำขอสินเชื่อเพื่อดูว่าผู้สมัครมีความเสี่ยงต่ำหรือมีความเสี่ยงสูง
การตรวจจับธุรกรรมที่ฉ้อโกง
การคาดการณ์ราคาอสังหาริมทรัพย์

Unsupervised Learning (การเรียนรู้โดยไม่มีการสอน)

แตกต่างจาก Supervised Learning (ซึ่งค่อนข้างจะบอกได้อย่างชัดเจนจากชื่อของมัน) Unsupervised Learning ไม่จำเป็นต้องมีการควบคุมดูแลจากมนุษย์ แบบจำลองจะได้รับการฝึกฝนจากข้อมูลดิบและไม่มีป้ายกำกับ อัลกอริทึมจะเรียนรู้ที่จะแยกข้อมูลออกเป็นประเภทต่างๆ แทน ดังนั้นแต่ละประเภทจึงจะประกอบด้วยส่วนหนึ่งของข้อมูลที่มีคุณสมบัติทั่วไป

Unsupervised Learning มีประโยชน์เมื่อใช้ระบุรูปแบบในชุดข้อมูลดิบหรือจัดกลุ่มข้อมูลที่คล้ายกันเป็นกลุ่มๆ กรณีการใช้งานทั่วไป ได้แก่:

จำแนกโปรไฟล์ลูกค้าตามพฤติกรรมการซื้อหรือการบริโภค
การจัดประเภทรายการสินค้าคงคลังตามสถิติการผลิตและ/หรือการขาย
เน้นการเชื่อมโยงในข้อมูลลูกค้า ตัวอย่างเช่น ลูกค้าที่ซื้อเสื้อผ้าบางประเภทอาจจะสนใจรองเท้าประเภทใดประเภทหนึ่ง

Reinforcement Learning (การเรียนรู้แบบเสริมกำลัง)

Reinforcement Learning ค่อนข้างคล้ายกับ Supervised Learning — ทั้ง 2 วิธีนั้นขึ้นอยู่กับการที่แบบจำลองได้รับฟี๊ดแบ็กจากชุดข้อมูล อย่างไรก็ตาม สำหรับ Reinforcement Learning นั้น แบบจำลองจะไม่ได้รับฟี๊ดแบ็ก วิธีการนี้ทำให้แบบจำลองอยู่ในสถานการณ์ที่เหมือนเกม มันจะต้องใช้วิธีการลองผิดลองถูกเพื่อค้นหาผลลัพธ์ที่มันต้องการ

ผู้สนับสนุน

แบบจำลองจะได้รับรางวัลหรือบทลงโทษขึ้นอยู่กับการกระทำของมัน เป้าหมายคือการเพิ่มรางวัลทั้งหมดให้ได้มากที่สุด เมื่อเวลาผ่านไป แบบจำลองจะมีความเชี่ยวชาญมากขึ้นในการตัดสินใจตามลำดับ ถึงแม้จะอยู่ในสภาพแวดล้อมที่ไม่แน่นอนและซับซ้อนก็ตาม

ตัวอย่างของกรณีการใช้งานของแอปพลิเคชั่น Reinforcement Learning นั้นได้แก่:

ฝึกยานพาหนะไร้คนขับให้ขับและจอดเองโดยไม่ต้องอาศัยการแทรกแซงของมนุษย์
สัญญาณไฟจราจรแบบเปลี่ยนแปลงได้เพื่อช่วยควบคุมการจราจร

แบบจำลอง Machine Learning ยอดนิยมในปี 2022

แบบจำลองของ Machine Learning ที่แตกต่างกันจะใช้อัลกอริทึมและวิธีการเรียนรู้ประเภทที่แตกต่างกันไปด้วย ดังนั้น มันจึงสามารถแบ่งประเภทของแบบจำลองออกเป็นประเภทของการเรียนรู้ที่พวกมันใช้

แบบจำลองของ Supervised Machine Learning

การจัดหมวดหมู่

การจัดหมวดหมู่เป็นงานการสร้างแบบจำลองเชิงคาดการณ์ มันจะเกี่ยวข้องกับการคาดเดาประเภทหรือคลาสของวัตถุภายในตัวเลือกที่มีจำนวนจำกัด

การจัดหมวดหมู่จะใช้ชุดข้อมูลที่กว้างขวางพร้อมตัวอย่างของอินพุต (ข้อมูลที่นำเข้า) และเอาต์พุต (ข้อมูลที่ได้รับการประมวลผลแล้ว) ที่อัลกอริทึมพื้นฐานใช้เรียนรู้ แบบจำลองนี้จะใช้ชุดข้อมูลการฝึกฝนเพื่อค้นหาวิธีที่เหมาะสมที่สุดในการจับคู่ข้อมูลอินพุตเข้ากับป้ายกำกับคลาสที่เฉพาะเจาะจง

มันจะมี Machine Learning ของการจัดหมวดหมู่อยู่ 2 ประเภท ได้แก่ ไบนารีและมัลติคลาส รูปแบบไบนารีนั้นเหมาะสำหรับปัญหาที่มีเพียง 2 คลาสที่เป็นไปได้ ตัวอย่างเช่น ใช่/ไม่ใช่, เปิด/ปิด เป็นต้น รูปแบบมัลติคลาสนั้นเหมาะที่สุดสำหรับปัญหาที่มีมากกว่า 2 คลาสที่เป็นไปได้

วัตถุประสงค์: การคาดเดาผลแบบไบนารี

กรณีการใช้งาน: การจัดหมวดหมู่เหมาะที่สุดสำหรับงานต่างๆ เช่น การระบุภาษา (เช่น Google Translate), การตรวจจับการฉ้อโกง, การกรองการสแปม, การวิเคราะห์ความรู้สึก, การจดจำอักขระที่เขียนด้วยลายมือ และการค้นหาเอกสาร

ตัวอย่างของอัลกอริทึมที่ใช้กันทั่วไปในแบบจำลองการจัดหมวดหมู่:

การถดถอยโลจิสติก: แบบจำลองเชิงเส้นที่มีประโยชน์สำหรับการจำแนกข้อมูลแบบ 2 ตัวแปร
ต้นไม้แห่งการตัดสินใจ: อิงตามหลักการ “if/else” และมีความต้านทานต่อค่าผิดปกติมากขึ้น
K-Nearest Neighbors (KNN): โมเดลที่เรียบง่ายแต่ใช้เวลามาก ซึ่งอัลกอริทึม KNN จะค้นหาความคล้ายคลึงกันเพื่อจำแนกจุดข้อมูลใหม่
Naive Bayes: สร้างขึ้นจากแบบจำลองทางสถิติแบบเบย์
ซัพพอร์ตเวกเตอร์: มักจะใช้เพื่อจัดประเภทชุดข้อมูลทั้งแบบไบนารีและแบบมัลติคลาส

การถดถอย

แบบจำลองการถดถอยคือแบบจำลองที่อัลกอริทึมพื้นฐานใช้วิธีทางสถิติเพื่อสร้างแบบจำลองการเชื่อมต่อระหว่างตัวแปรอิสระและตัวแปรตาม (เป้าหมาย) มักจะใช้สำหรับการสร้างแบบจำลองเชิงคาดการณ์ซึ่งอัลกอริทึมจะคาดการณ์ผลลัพธ์ที่มีความต่อเนื่อง

มันอยู่ภายใต้หัวข้อ Supervised Learning ซึ่งอัลกอริทึมจะเรียนรู้ด้วยคุณสมบัติจากอินพุตและป้ายกำกับจากเอาต์พุต วัตถุประสงค์คือเพื่อสร้างความสัมพันธ์ระหว่างตัวแปรโดยการคาดการณ์ว่าการเปลี่ยนแปลงในตัวแปรหนึ่งจะส่งผลกระทบต่ออีกตัวแปรหนึ่งอย่างไร คุณสามารถเรียกมันว่าเป็นวิธีการ “คาดเดาที่ดีที่สุด” เพื่อคาดการณ์จากชุดข้อมูลต่างๆ

วัตถุประสงค์: เพื่อคาดเดาค่าตัวเลข

กรณีการใช้งาน: การคาดการณ์ราคาสกุลเงินดิจิทัลหรือราคาหุ้น การทำนายการเติบโตของรายได้ประจำปี ฯลฯ

ตัวอย่างของอัลกอริธึมการถดถอยที่ใช้กันทั่วไปในปัจจุบัน:

การถดถอยเชิงเส้น: แบบจำลองการถดถอยขั้นพื้นฐานที่สุด การถดถอยเชิงเส้นเหมาะที่สุดในกรณีที่ข้อมูลสามารถแยกประเภทได้โดยมีความหลากหลายน้อยหรือไม่มีเลย
การถดถอยแบบ Ridge: การถดถอยเชิงเส้นพร้อมด้วยการทำให้เป็นมาตรฐาน L1 เหมาะที่สุดสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยแบบพหุคูณในสถานการณ์ที่ตัวแปรอิสระมีความสัมพันธ์กันสูงมาก
การถดถอยแบบ Lasso: การถดถอยเชิงเส้นพร้อมด้วยการทำให้เป็นมาตรฐาน L2 Lasso นั้นย่อมาจาก Least Absolute Shrinkage and Selection Operator มันใช้วิธีการที่จะดำเนินการทั้งการเลือกตัวแปรและการทำให้เป็นมาตรฐาน เป้าหมายคือเพื่อเพิ่มความแม่นยำในการคาดการณ์และความสามารถในการตีความของแบบจำลอง
Support Vector Regression (SVR): สร้างขึ้นจากอัลกอริทึม Supervised Learning ที่สามารถคาดเดาค่าที่ไม่ต่อเนื่องได้

แบบจำลองของ Unsupervised Machine Learning

Artificial Neural Networks (ANNs หรือ โครงข่ายประสาทเทียม)

ขึ้นอยู่กับกรณีการใช้งานของมัน ANNs สามารถจัดอยู่ในหมวดหมู่ Supervised หรือ Unsupervised Learning ได้ ใน Supervised Learning ANN จะอยู่ภายใต้การดูแลของนักการศึกษา (เช่น นักวิทยาศาสตร์ข้อมูลหรือผู้ออกแบบระบบ) นักการศึกษาจะใช้ความรู้เกี่ยวกับระบบเพื่อช่วยโครงข่ายเตรียมชุดข้อมูลที่มีป้ายกำกับ

ใน Unsupervised Learning ANN จะมีประโยชน์มากที่สุดเมื่อการเพิ่มชุดข้อมูลการฝึกฝนด้วย Class IDs (การระบุประเภทของชุดข้อมูล) กลายเป็นเรื่องยากหรือเป็นไปไม่ได้ สถานการณ์ดังกล่าวมักเกิดขึ้นเมื่อเราไม่รู้เรื่องเกี่ยวกับระบบ

โครงข่ายประสาทเทียมนั้นจะจำลองรูปแบบมาจากสมองของมนุษย์อย่างคร่าวๆ พวกเขาสามารถใช้ “Machine Perception” เพื่อทำความเข้าใจข้อมูลขาเข้าจากเซ็นเซอร์ได้ เซลล์ประสาทเทียมแต่ละเซลล์จะเชื่อมต่อกับเซลล์ประสาทอื่นๆ เพื่อสร้างโครงข่ายคล้ายใยแมงมุม เซลล์ประสาทนับล้านในโครงข่ายนี้จะทำงานร่วมกันก่อให้เกิดโครงสร้างการรับรู้

ข้อมูลใดๆ ในโลกแห่งความเป็นจริง เช่น เพลง รูปภาพ ข้อความ ฯลฯ จำเป็นต้องมีการแปลเป็นรูปแบบที่อัลกอริทึมรู้จัก รูปแบบเหล่านี้มักจะแสดงผลเป็นตัวเลขและเข้ารหัสเป็นเวกเตอร์ เมื่อการฝึกฝนสิ้นสุดลง โครงข่ายประสาทเทียมจะสามารถจัดกลุ่มและประมวลผลข้อมูลจำนวนมหาศาล ซึ่งมนุษย์ต้องใช้เวลาหลายสิบปีในการดึงคุณค่าใดๆ ของมันออกมาได้

ตัวอย่างของโครงข่ายประสาทเทียมที่เป็นที่รู้จักกันมากที่สุดคืออัลกอริทึมการค้นหาของ Google

วัตถุประสงค์: การจัดกลุ่มข้อมูล, การจัดหมวดหมู่, การจดจำรูปแบบ

กรณีการใช้งาน: การจดจำใบหน้าโดยใช้ ANN, แอปพลิเคชั่นที่ใช้ข้อมูลจำนวนมาก, ยานพาหนะอัตโนมัติ, เสิร์ชเอ็นจิ้น ฯลฯ

ตัวอย่างของแบบจำลอง Machine Learning ที่ใช้ ANN:

Multi-Layer Perceptron (MLP): มันคือประเภทของ ANN แบบ Feedforward (การแนะนำสิ่งที่ควรหรือไม่ควรทำในอนาคต) พวกมันเป็นโครงข่ายประสาทเทียมเชิงลึกแบบพื้นฐานที่สุดและประกอบด้วยชุดของเลเยอร์ที่เชื่อมต่อกัน แบบจำลองของ MLP นั้นเหมาะสำหรับสถาปัตยกรรมการเรียนรู้เชิงลึกที่ใช้ทรัพยากรเป็นจำนวนมาก
Convolution Neural Networks (ConvNet หรือ CNN): มันเป็นวิสัยทัศน์ Machine Learning ********ในอุดมคติที่ทำให้ “การมองเห็นของคอมพิวเตอร์” เป็นไปได้ ป้อนชุดข้อมูลแบบภาพให้กับมัน แล้วอัลกอริทึมของ CNN จะแยกอินพุตที่ต้องการออกมาโดยอัตโนมัติเพื่อทำให้งานสำเร็จ (เช่น การจดจำใบหน้า)
Recurrent Neural Networks (RNN): เป็นการใช้การป้อนข้อมูลตามลำดับเพื่อแก้ไขปัญหาของข้อมูลอินพุตตามลำดับ แบบจำลอง RNN มักจะถูกใช้มากที่สุดในการประมวลผลภาษาธรรมชาติ เนื่องจากสามารถประมวลผลข้อมูลที่มีความยาวอินพุตที่ไม่แน่นอนได้

จัดกลุ่มข้อมูล

การจัดกลุ่มข้อมูลเป็นวิธีหนึ่งใน Machine Learning ซึ่งแบบจำลองจะได้รับการฝึกฝนให้จัดกลุ่มวัตถุที่คล้ายๆ กันเข้าด้วยกัน กล่าวอีกนัยหนึ่ง มันจะจัดกลุ่มชุดข้อมูลที่ไม่มีป้ายกำกับเข้าด้วยกัน

มันทำได้โดยการค้นหารูปแบบที่คล้ายกันในชุดข้อมูลที่ไม่มีป้ายกำกับ เช่น สี ขนาด รูปร่าง ลักษณะการทำงาน เป็นต้น จากนั้น อัลกอริทึมนี้จะแยกรูปแบบเหล่านั้นออกมาตามรูปแบบที่มีและไม่มี แต่ละกลุ่มหรือคลัสเตอร์จะได้รับคลัสเตอร์ ID เพื่อการระบุข้อมูลที่ง่ายยิ่งขึ้น แบบจำลองนี้จะใช้ ID เหล่านี้เพื่อลดและทำให้การประมวลผลชุดข้อมูลที่ซับซ้อนเป็นเรื่องง่าย

นอกเหนือจากการวิเคราะห์ข้อมูลทางสถิติแล้ว เทคนิคการจัดกลุ่มข้อมูลยังมีประโยชน์กับการแบ่งกลุ่มผู้บริโภคและงานแท็กข้อมูลอีกด้วย

วัตถุประสงค์: เพื่อจัดกลุ่มวัตถุหรือจุดข้อมูลที่คล้ายกันเข้าด้วยกัน

กรณีการใช้งาน: การแบ่งส่วนตลาด, การวิเคราะห์โซเชียลเน็ตเวิร์ก, การตรวจจับความผิดปกติ, การวิเคราะห์ข้อมูลทางสถิติ, การแบ่งส่วนภาพ ฯลฯ เพื่อให้เข้าใจได้ง่ายๆ แพลตฟอร์มอย่าง Amazon และ Netflix อาศัยเทคนิคการจัดกลุ่มบนแอพของพวกเขาเพื่อมอบคำแนะนำผลิตภัณฑ์และเนื้อหาทั้งหมดให้แก่คุณ

ตัวอย่างของแบบจำลอง Machine Learning ที่ใช้การจัดกลุ่มข้อมูล:

K-Means: แบบจำลองที่ขับเคลื่อนโดยอัลกอริธึม K-Means มันจะแยกชุดข้อมูลโดยจัดกลุ่มตัวอย่างเป็นกลุ่มที่มีความแปรปรวนเท่ากัน นี่อาจจะเป็นหนึ่งในแบบจำลองการจัดกลุ่มที่เป็นพื้นฐานมากที่สุด แต่อาจจะมีข้อเสียเล็กน้อยจากความแปรปรวนที่สูง
K-Means++: แบบจำลองนี้จะใช้อัลกอริทึม K-Means ที่มีการปรับปรุงแล้ว มันอาศัยเทคนิคการเริ่มต้นการรวมจุดตัดของข้อมูลที่ชาญฉลาด อัลกอริทึมที่เหลือจะคล้ายกับ K-Means
Agglomerative Clustering: ในแบบจำลองนี้ อัลกอริทึมพื้นฐานจะถือว่าจุดข้อมูลแต่ละจุดเป็นคลัสเตอร์เดียวก่อนที่จะค่อยๆ ผสานเข้าด้วยกัน ลำดับชั้นของคลัสเตอร์จากล่างขึ้นบนจะสามารถแสดงเป็นโครงสร้างแบบต้นไม้ได้
DBSCAN: แบบจำลองที่ขับเคลื่อนโดยอัลกอริทึม Density-Based Spatial Clustering of Applications with Noise (DBSCAN) อัลกอริทึมจะแยกพื้นที่ที่มีความหนาแน่นของจุดข้อมูลสูงจากพื้นที่ที่มีความหนาแน่นต่ำ

การลดมิติข้อมูล

ในแบบจำลองการลดมิติของข้อมูล อัลกอริทึมพื้นฐานจะลดจำนวนของตัวแปรสุ่มภายใต้การพิจารณาต่างๆ สิ่งนี้ทำได้โดยการรับชุดของตัวแปรหลัก

“มิติ” หมายถึงจำนวนของตัวแปรการคาดเดาที่แบบจำลอง Machine Learning ใช้ในการคาดเดาตัวแปรอิสระ (เป้าหมาย)

มากกว่าก็ยิ่งดีกว่า? จำนวนตัวแปรในชุดข้อมูลของ “โลกแห่งความจริง” โดยเฉลี่ยนั้นมีมากจนเกินไป ทำให้มันสร้างปัญหาของการ Overfitting (แบบจำลองมีค่าความถูกต้องในการระบุประเภทของเป้าหมายในชุดข้อมูลฝึกฝนมากจนเกินไป แต่เมื่อปรับใช้กับชุดข้อมูลทดสอบกลับได้ค่าความถูกต้องที่ต่ำจนเกินไป จึงทำให้ต้องทำการลด “มิติ” ของตัวแปรลงเพื่อแก้ปัญหาดังกล่าว)

ในกรณีส่วนใหญ่ ตัวแปรบางตัวไม่ได้มีส่วนร่วมที่เท่าเทียมกันในการบรรลุผลลัพธ์ที่ต้องการ อันที่จริง ส่วนใหญ่แล้ว การลดความแปรปรวนด้วยตัวแปรที่น้อยลงนั้นเหมาะสมเป็นอย่างยิ่ง เทคนิคการลดมิติข้อมูลส่วนใหญ่อยู่ในหมวดหมู่ของการกำจัดคุณลักษณะหรือการแยกคุณลักษณะ

วัตถุประสงค์: สรุปข้อมูลและกลั่นกรองข้อมูลที่เกี่ยวข้อง

กรณีการใช้งาน: การตรวจจับความผิดปกติ, ระบบการแนะนำ, แบบจำลองความหมาย, การค้นหาเอกสาร, การสร้างแบบจำลองหัวข้อ และอื่นๆ

ตัวอย่างของแบบจำลอง Machine Learning ที่ใช้การลดมิติข้อมูล:

Principal Component Analysis (PCA): PCA เป็นหนึ่งในอัลกอริทึมทั่วไปที่ใช้ในแบบจำลองการลดมิติข้อมูล มันถ่ายทอดข้อมูลมิติที่สูงขึ้น (เช่น สามมิติ) ไปยังพื้นที่ที่เล็กลง (เช่น สองมิติ) ส่งผลให้มิติลดลง กล่าวอีกนัยหนึ่ง PCA จะสร้างตัวแปรใหม่ที่มีมิติน้อยลงจากจำนวนตัวคาดเดาที่มากขึ้น เพื่อให้ตัวแปรใหม่เป็นอิสระจากกัน แต่จะตีความได้น้อยลง
t-SNE: ย่อมาจาก t-Distributed Stochastic Neighbor Embedding ในบริบทนี้ คำว่า “Stochastic” จะหมายถึงความน่าจะเป็นที่เจาะจงแต่สุ่ม คำว่า “Neighbor” หมายถึงความกังวลเกี่ยวกับการรักษาความแปรปรวนของจุดข้อมูลใกล้เคียงเท่านั้น “Embedding” เป็นเพียงการลงจุดข้อมูลในมิติที่ต่ำกว่า ดังนั้น t-SNE จึงเป็นอัลกอริทึมที่ให้ผลลัพธ์ที่แตกต่างกันเล็กน้อยในแต่ละครั้งในชุดข้อมูลเดียวกัน วัตถุประสงค์สูงสุดคือการรักษาโครงสร้างของจุดข้อมูลที่อยู่ใกล้เคียง แบบจำลองที่ใช้งาน t-SNE เหมาะที่สุดสำหรับการฝังข้อมูลมิติที่สูงขึ้นสำหรับการแสดงข้อมูลในรูปแบบภาพนิ่ง
Singular Value Decomposition (SVD): SVD เป็นหนึ่งในเทคนิคยอดนิยมสำหรับการลดมิติข้อมูลเมื่อข้อมูลนั้นเบาบาง คำว่า “Sparse Data” หมายถึงตัวอย่างของแถวของข้อมูลที่มีหลายค่าเป็น 0 (ศูนย์) ซึ่งเป็นเรื่องปกติในแอปพลิเคชั่น ML อย่าง ระบบการแนะนำ ตัวอย่างเช่น เมื่อผู้ใช้งานให้คะแนนภาพยนตร์หรือเพลงเพียงไม่กี่รายการในฐานข้อมูล

แบบจำลองของ Reinforcement Machine Learning

นอกเหนือจากที่อธิบายไว้ข้างต้นแล้ว มันยังมีแบบจำลอง Machine Learning อีกหลายแบบที่ขับเคลื่อนโดยอัลกอริทึม เช่น:

Q-Learning
State–Action–Reward–State–Action (SARSA)
Deep Q-network (DQN)
Asynchronous Advantage Actor Critic (A3C)

แบบเหล่านี้ส่วนใหญ่จะใช้สำหรับการดำเนินงานที่ซับซ้อนโดยไม่มีข้อมูลการฝึกฝนใดๆ กรณีการใช้งานยอดนิยมนั้นได้แก่ การชี้นำการเคลื่อนไหวของหุ่นยนต์, การปรับปรุงนโยบายการรักษาในสถานพยาบาล, การขนส่งอัตโนมัติ, การทำการซื้อขายในด้านการเงิน, การขุดค้นข้อความ และอื่นๆ

แบบจำลอง Machine Learning แบบไหนที่ดีที่สุด?

มันไม่มีสิ่งที่เรียกว่าแบบจำลอง Machine Learning ที่ดีที่สุดเพียงตัวเดียว แบบจำลองต่างๆ ก็มีประโยชน์ในกรณีการใช้งานที่แตกต่างกัน ที่จริงแล้ว ระบบที่ซับซ้อนจำนวนมาก เช่น ยานพาหนะไร้คนขับหรือฮาร์ดแวร์ทางการทหารที่ซับซ้อน อาจจะต้องใช้แบบจำลองหลายๆ ตัวเพื่อให้มันทำงานได้สอดคล้องกันในช่วงเวลาเดียวกัน จากข้อมูลเชิงลึกของ Fortune Insights อุตสาหกรรม Machine Learning เป็นอุตสาหกรรมที่กำลังเติบโต โดยคาดว่าจะมีมูลค่าถึง 209.91 พันล้านดอลลาร์ภายในปี 2029 แบบจำลองเหล่านี้จะมีความสำคัญและถูกนำไปใช้อย่างแพร่หลายมากขึ้นในอีกไม่กี่ปีข้างหน้า

คำศัพท์ทางเทคนิคในบทความ

Machine Learning (การเรียนรู้ของเครื่องจักร): การเรียนรู้ของตัวเครื่องจักรเองนั้นจะใช้อัลกอริทึมที่ประมวลผลจากข้อมูลต่างๆ เรียนรู้จากข้อมูลเหล่านั้น และนำไปสู่การตัดสินใจที่มีพื้นฐานมาจากข้อมูลต่างๆ ที่ป้อนเข้าไป
AI หรือ Artificial Intelligence (ปัญญาประดิษฐ์): ระบบประมวลผลของคอมพิวเตอร์, หุ่นยนต์, เครื่องจักร หรืออุปกรณ์อิเล็กทรอนิกส์ต่างๆ ที่มีการวิเคราะห์เชิงลึกคล้ายกับความคิดของมนุษย์ และจะก่อให้เกิดผลลัพธ์ต่างๆ ตามรูปแบบการทำงานของมันได้อย่างอัตโนมัติ
Machine Perception (การรับรู้ของเครื่องจักร): ความสามารถในการอ่านข้อมูลขาเข้าจากเซนเซอร์ (เช่น กล้อง ไมโครโฟน, เซนเซอร์สัมผัส เป็นต้น)

คำถามที่พบบ่อย

แบบจำลอง Machine Learning คืออะไร?

Machine Learning 3 ประเภทหลักคืออะไรบ้าง?

อัลกอริทึม Machine Learning คืออะไร?

อ่านบทวิเคราะห์ตลาดคริปโตล่าสุดจาก BeInCrypto ได้ที่ คลิกที่นี่.

ข้อจำกัดความรับผิดชอบ

ข้อมูลทั้งหมดที่มีอยู่บนเว็บไซต์ของเราเผยแพร่ด้วยเจตนาที่ดีและเป็นไปเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น ทั้งนี้เป็นไปตาม แนวทางของ Trust Project. การกระทำใด ๆ ที่ผู้อ่านดำเนินการตามข้อมูลที่พบบนเว็บไซต์ของเราถือเป็นความเสี่ยงของผู้อ่านโดยเฉพาะ Learn ให้ความสำคัญกับข้อมูลคุณภาพสูง เราอุทิศเวลาให้กับการแยกแยะ ค้นคว้า และสร้างเนื้อหาเพื่อการศึกษาซึ่งเป็นประโยชน์กับผู้อ่าน เพื่อเป็นการรักษามาตรฐานนี้และเพื่อสร้างเนื้อหาคุณภาพได้อย่างต่อเนื่อง พาร์ตเนอร์ของเราอาจตอบแทนเราด้วยค่าคอมมิชชั่นสำหรับการจัดวางตำแหน่งต่าง ๆ ในบทความของเรา อย่างไรก็ดี ค่าคอมมิชชั่นนี้ไม่มีผลต่อกระบวนการของเราในการสร้างเนื้อหาที่ไร้อคติ ตรงไปตรงมา และเป็นประโยชน์ โปรดดู ข้อกำหนดและเงื่อนไข, นโยบายความเป็นส่วนตัว และ ข้อจำกัดความรับผิดชอบ ของเรา

ผู้สนับสนุน

อ่านถัดไป

เมตาปลดพนักงานครั้งใหญ่สุดตั้งแต่ปี 2023 เดือนพฤษภาคม กระทบพนักงาน 8,000 คน

ข่าว

เทคโนโลยี

17 ชั่วโมง ที่แล้ว

เมตาปลดพนักงานครั้งใหญ่สุดตั้งแต่ปี 2023 เดือนพฤษภาคม กระทบพนักงาน 8,000 คน