Please use this identifier to cite or link to this item: http://ithesis-ir.su.ac.th/dspace/handle/123456789/5322
Full metadata record
DC FieldValueLanguage
dc.contributorAekapob JITTAKOTIen
dc.contributorเอกภพ จิตตโคติth
dc.contributor.advisorSOPON PHUMEECHANYAen
dc.contributor.advisorโสภณ ผู้มีจรรยาth
dc.contributor.otherSilpakorn Universityen
dc.date.accessioned2024-08-13T06:44:52Z-
dc.date.available2024-08-13T06:44:52Z-
dc.date.created2024
dc.date.issued28/6/2024
dc.identifier.urihttp://ithesis-ir.su.ac.th/dspace/handle/123456789/5322-
dc.description.abstractThis thesis presents a method for improving the efficiency of lip reading through the analysis of keyframes using CNN and LSTM working together, which combines the characteristics of image-based learning with sequential learning features. When attempting to enhance lip reading performance using the entire raw dataset, satisfactory results cannot be achieved. Thus, the selection of an appropriate number of frames and frame selection for learning directly affects the model's efficiency. The frame selection method is proposed through the Mediapipe face detection library in Python. The study divides experiments into three main groups: selecting 3, 5, and 10 frames. Additionally, the frame selection includes full-Lip image frames and half-Lip image frames options, based on the hypothesis of the symmetry of human body parts, both left and right. Furthermore, it demonstrates the reduction of input size by half and compares the performance of the obtained results. This proposes a lip reading method that has not been conducted before. The purpose of lip reading is to aid in speech retrieval from heavily corrupted audio-video files and also to facilitate communication for hearing-impaired individuals. In the database part, the AVDigits database, an English language database consisting of participants who are native and non-native speakers of English from 16 nationalities, is used. The results of this study show that the proposed models, including the crucial frame selection process, significantly improve lip reading performance for both full-Lip image and half-Lip image, achieving high and comparable results.en
dc.description.abstractวิทยานิพนธ์ฉบับนี้ได้นำเสนอวิธีการพัฒนาประสิทธิภาพของการอ่านริมฝีปากผ่านการวิเคราะห์เฟรมสำคัญโดยใช้ CNN และ LSTM ที่ทำงานร่วมกันซึ่งเป็นการใช้คุณลักษณะของการเรียนรู้แบบรูปภาพร่วมกับคุณลักษณะการเรียนรู้แบบลำดับขั้น หากต้องการเพิ่มประสิทธิของการอ่านริมฝีปากการใช้ชุดข้อมูลดิบทั้งหมดไม่สามารถให้ผลลัพธ์ที่ดีได้ ดังนั้นการเลือกจำนวนเฟรมและเฟรมที่เหมาะสมต่อการเรียนรู้จะส่งผลต่อประสิทธิภาพของแบบจำลองโดยตรง โดยวิธีการเลือกเฟรมได้ถูกนำเสนอผ่านไลบรารี่การตรวจจับใบหน้าของ Mediapipe บนโปรแกรมภาษา Python โดยการศึกษาได้มีการแบ่งการทดลองออกเป็น 3 กลุ่มหลัก นั่นคือ การเลือกจำนวนเฟรมที่ 3 5 และ 10 เฟรม อีกทั้งการเลือกเฟรมดังกล่าวยังแบ่งออกเป็นการเลือกแบบเฟรมเต็มปากและการเลือกแบบเฟรมครึ่งปาก โดยมีที่มาจากสมมติฐานเรื่องของความสมมาตรทางด้านร่างกายซ้ายและขวาของมนุษย์ อีกทั้งยังแสดงถึงการลดขนาดของอินพุตลงครึ่งนึงและเปรียบเทียบประสิทธิภาพของผลลัพธ์ที่ได้ ซึ่งเป็นการนำเสนอวิธีการวิธีการอ่านริมฝีปากที่ไม่มีงานวิจัยใดเคยทำมาก่อน โดยวัตถุประสงค์ของการอ่านริมฝีปากนั้น สามารถช่วยด้านการกู้ข้อมูลคำพูดจากไฟล์วิดีโอที่มีเสียงรบกวนจำนวนมาก รวมถึงการสื่อสารของผู้พิการทางการได้ยินด้วยเช่นกัน ในส่วนของฐานข้อมูลใช้ฐานข้อมูลที่ชื่อ AVDigits ซึ่งเป็นฐานข้อมูลภาษาอังกฤษที่มีการรวบรวมอาสาสมัครที่เป็นเจ้าของภาษาและไม่ใช่เจ้าของภาษากว่า 16 สัญชาติ โดยผลลัพธ์ทีได้จากการศึกษานี้พบว่า แบบจำลองที่ได้นำเสนอรวมถึงขั้นตอนของการเลือกเฟรมสำคัญทำให้ประสิทธิภาพของการอ่านริมฝีปากทั้งแบบเต็มปากและครึ่งปากให้ผลลัพธ์อยู่ในระดับที่สูงและมีความใกล้เคียงกันth
dc.language.isoth
dc.publisherSilpakorn University
dc.rightsSilpakorn University
dc.subjectการอ่านริมฝีปากth
dc.subjectโครงข่ายประสาทเทียมแบบคอนโวลูชันth
dc.subjectหน่วยความจำสั้นยาวth
dc.subjectLip Readingen
dc.subjectConvolutional Neural Networken
dc.subjectLong Short-Term Memoryen
dc.subject.classificationEngineeringen
dc.subject.classificationInformation and communicationen
dc.subject.classificationElectronics and automationen
dc.titleDevelopment of Lip Reading Method From Video Using Deep Learningen
dc.titleการพัฒนาวิธีการอ่านริมฝีปากจากภาพเคลื่อนไหวโดยใช้การเรียนรู้เชิงลึกth
dc.typeThesisen
dc.typeวิทยานิพนธ์th
dc.contributor.coadvisorSOPON PHUMEECHANYAen
dc.contributor.coadvisorโสภณ ผู้มีจรรยาth
dc.contributor.emailadvisorphumeechanya_s@su.ac.th
dc.contributor.emailcoadvisorphumeechanya_s@su.ac.th
dc.description.degreenameMaster of Engineering (M.Eng.)en
dc.description.degreenameวิศวกรรมศาสตรมหาบัณฑิต (วศ.ม)th
dc.description.degreelevelMaster's Degreeen
dc.description.degreelevelปริญญาโทth
dc.description.degreedisciplineELECTRICAL ENGINEERINGen
dc.description.degreedisciplineวิศวกรรมไฟฟ้าth
Appears in Collections:Engineering and Industrial Technology

Files in This Item:
File Description SizeFormat 
640920030.pdf11.93 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.