Please use this identifier to cite or link to this item:
http://ithesis-ir.su.ac.th/dspace/handle/123456789/3344
Title: | Locating the eye's pupil center through deep learning using multiscale and non-linearity convolutional regression การระบุตำแหน่งจุดศูนย์กลางรูม่านตาโดยใช้การเรียนรู้เชิงลึกด้วยการถดถอยเชิงคอนโวลูชันแบบหลายความละเอียดและการแปลงไม่เชิงเส้น |
Authors: | Phitchapha LERTSIRAVARAMETH พิชชาภา เลิศศิรวรเมธ pinyo taeprasartsiit ภิญโญ แท้ประสาทสิทธิ์ Silpakorn University. Science |
Keywords: | การระบุจุดศูนย์กลางระม่านตา การเรียนรู้เชิงลึก การขยายข้อมูล โครงข่ายประสาทเทียมแบบคอนโวลูชันเชิงลึก pupil localization deep learning data augmentation convolutional neural network |
Issue Date: | 2 |
Publisher: | Silpakorn University |
Abstract: | Pupil detection has been of wide interest as it can be utilized in numerous applications, such as human-computer interaction and medical diagnosis. However, the recently proposed methods to locate the pupil rely on laboratory conditions and still lack the performance when the surrounding of the pupil is shadowed and comparably dark. Therefore, to further improve the accuracy and the robustness for locating the eye's pupil center, this work presents a deep neural network model that is designed to accomplish more effectively by building on basic neural network structure. We first propose applying more nonlinearity to the network to increase the approximation power. Next, we propose to utilize feature maps from multi-levels of convolutional layers for final regression, so the network can explicitly employ these features together. With the increase in different degrees of nonlinearities and multi spatial information, the generalization capability of the model is increased, which in turn contributes to the model’s robustness. Furthermore, we also experiment with dilated convolution layers in diverse settings. To validate the contribution of the multiscale nonlinear features concatenation, ablation study was performed on MMU2, BioID and FFHQ datasets . Overall, the results show better accuracy and robustness when the feature maps are merged together with adding more nonlinearity in the network. Also, the proposed method outperforms previous works in terms of wec accuracy on BioID dataset. การตรวจหาตำแหน่งรูม่านตาเป็นปัญหาที่ได้รับความสนใจอย่างมาก เนื่องจากได้ถูกนำไปใช้ประโยชน์ในหลาย ๆ ด้าน ตัวอย่างเช่น ในงานวิจัยเกี่ยวกับการปฏิสัมพันธ์ของมนุษย์และคอมพิวเตอร์ และการนำมาใช้ทางการแพทย์ อย่างไรก็ตามกระบวนการวิธีระบุตำแหน่งรูม่านตาในงานวิจัยที่มีมาก่อนหน้าเป็นการศึกษาภายใต้การควบคุมสภาพแวดล้อมที่เปรียบเสมือนห้องปฏิบัติการณ์ และสำหรับการนำมาใช้ในกลุ่มประชากรที่มีสีรูม่านตาเข้มยังมีความแม่นยำค่อนข้างต่ำ ดังนั้น ผู้วิจัยจึงมีความต้องการที่จะเพิ่มความแม่นยำและความคงทนของวิธีการะบุตำแหน่งจุดศูนย์กลางรูม่านตา โดยได้นำเสนอตัวแบบโครงข่ายประสาทเทียมที่ออกแบบเพื่อประสิทธิผลที่ดีขึ้นด้วยโครงสร้างที่ถูกพัฒนามาจากโครงสร้างพื้นฐาน อันดับแรกเราเสนอให้ใช้การแปลงไม่เชิงเส้นที่สูงขึ้นในตัวแบบเพื่อการอนุมานผลลัพธ์ที่แม่นยำขึ้น ต่อมาได้เสนอให้นำคุณลักษณะจากหลายระดับของการทำคอนโวลูชันมาใช้ร่วมกันสำหรับการวิเคราะห์การถดถอยในขั้นตอนสุดท้าย เพื่อเปิดโอกาสในการเรียนรู้ของเครื่องด้วยข้อมูลเชิงพื้นที่และการแปลงไม่เชิงเส้นในหลายระดับที่แตกต่างกัน ซึ่งเป็นการนำไปสู่ตัวแบบการเรียนรู้ที่มีความสามารถในการนำไปประยุกต์ใช้จริงในทางปฏิบัติได้ และนอกจากนี้ผู้วิจัยได้ทดลองใช้คอนโวลูชันแบบขยายในลักษณะต่าง ๆ ด้วย ผู้วิจัยประเมินความแม่นยำและความคงทนของวิธีการที่ผู้วิจัยนำเสนอผ่านการวิเคราะห์แบบตัดออก โดยใช้ภาพจากฐานข้อมูล MMU2, BioID และ FFHQ พบว่าตัวแบบที่ผู้วิจัยนำเสนอซึ่งนำคุณลักษณะจากหลายระดับของการทำคอนโวลูชันมาใช้ร่วมกันและใช้การแปลงไม่เชิงเส้นที่สูงขึ้นให้ความแม่นยำและความคงทนที่ดีกว่าตัวแบบพื้นฐานอย่างมีนัยสำคัญ และเมื่อเปรียบเทียบกับวิธีการก่อนหน้าด้วยมาตรวัด Wec ตัวแบบที่นำเสนอสามารถให้ผลลัพธ์ที่ดีกว่าบนฐานข้อมูล BioID |
Description: | Master of Science (M.Sc.) วิทยาศาสตรมหาบัณฑิต (วท.ม) |
URI: | http://ithesis-ir.su.ac.th/dspace/handle/123456789/3344 |
Appears in Collections: | Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
61318202.pdf | 13.79 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.