นักวิจัยภาควิชาสถิติ มหาวิทยาลัยเชียงใหม่ ทำการศึกษาวิจัยในหัวข้อ coverforest: Conformal predictions with random forest in Python โดยการนำ Machine Learning ไปประยุกต์ใช้กับงานที่มีความสำคัญและมีความเสี่ยงสูง (Predictions under risks)
ในโลกของปัญญาประดิษฐ์ (AI) และ Machine Learning การพึ่งพาเพียงผลลัพธ์การทำนายแบบจุด (Point prediction) นั้นไม่เพียงพอต่อการตัดสินใจที่รัดกุม หรืองานที่มีความเสี่ยงสูง ดังนั้น การประเมินปริมาณความไม่แน่นอน (Uncertainty Quantification) จึงเข้ามามีบทบาทสำคัญ อย่างไรก็ตาม ความท้าทายหลักคือข้อมูลในโลกความเป็นจริงมักไม่ได้มีการแจกแจงแบบปกติ (Non-normal data) ส่งผลให้การหาช่วงความเชื่อมั่นด้วยวิธีทางสถิติแบบดั้งเดิมมักมีความคลาดเคลื่อน
งานวิจัยชิ้นนี้ ได้นำเสนอแนวทางแก้ปัญหาดังกล่าวผ่านกรอบแนวคิดที่เรียกว่า "Conformal Prediction" ซึ่งเป็นเทคนิคทางสถิติที่ช่วยสร้างขอบเขตการทำนาย (Prediction intervals สำหรับ Regression และ Prediction sets สำหรับ Classification) โดยมีการรับประกันความน่าจะเป็นครอบคลุมค่าจริงทางคณิตศาสตร์อย่างเคร่งครัด และที่สำคัญคือเป็นวิธีที่ปราศจากข้อสมมติของการแจกแจง (Distribution-free)
คณะผู้วิจัยได้นำเทคนิคนี้มาผสานรวมกับโมเดลที่มีประสิทธิภาพสูงอย่าง Random Forest โดยพัฒนาแพ็กเกจ Python ชื่อ coverforest ที่สามารถสร้างขอบเขตของค่าทำนายด้วย Random Forest โดยโค้ดส่วนหลักได้รับการปรับแต่งการประมวลผลแบบขนาน (Parallel computing) ส่งผลให้สามารถฝึกสอนโมเดลและทำนายผลได้เร็วกว่าแพ็กเกจที่มีอยู่เดิมถึง 2–10 เท่า โดยยังคงไว้ซึ่งการรับประกันความแม่นยำทางทฤษฎี
ตัวอย่างการใช้งานเบื้องต้น
แพ็กเกจ coverforest ถูกออกแบบให้สอดคล้องกับ API ของ scikit-learn ผู้ใช้งานจึงสามารถเริ่มต้นใช้งานได้อย่างง่ายดายผ่านโค้ดเพียง 4 บรรทัด ดังนี้
> !pip install coverforest
> from coverforest import CoverForestClassifier
> model = CoverForestClassifier().fit(X_train, y_train)
> prediction_points, prediction_sets = model.predict(X_test, alpha=0.05)
ผู้ที่สนใจสามารถศึกษารายละเอียดเพิ่มเติมได้ที่เว็บไซต์ https://donlapark.github.io/coverforest
การเปลี่ยนผ่านจากการทำนายแบบจุด ไปสู่การทำนายแบบเป็นช่วงหรือเป็นเซตด้วย coverforest ถือเป็นก้าวสำคัญสำหรับระบบการตัดสินใจที่หลีกเลี่ยงความเสี่ยง (Risk-averse predictions) ตัวอย่าง เช่น
• การวินิจฉัยทางการแพทย์
สามารถแสดงกลุ่มผลการวินิจฉัย
ที่มีความน่าจะเป็นสูงในการครอบคลุม
ผลการวินิจฉัยที่ถูกต้อง
• การวิเคราะห์ทางการเงิน
สามารถแสดงขอบเขตของคำทำนาย เพื่อการตัดสินใจ
ภายใต้สภาวะข้อมูลที่มีความผันผวนสูง
ผลงานได้รับการเผยแพร่ในวารสาร Neurocomputing
Volume 668, 1 March 2026, 132362
https://doi.org/10.1016/j.neucom.2025.132362
นักวิจัย : ปาณิสรา มีหินกอง และ อ.ดร.ดลภาค พรนพรัตน์
ภาควิชาสถิติ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่