Please use this identifier to cite or link to this item:
http://ithesis-ir.su.ac.th/dspace/handle/123456789/5934| Title: | Machine Learning for Short Tandem Repeat DNA Direct Matching in Forensic Science การเรียนรู้ของเครื่องในการเปรียบเทียบข้อมูลดีเอ็นเอเอสทีอาร์ทางนิติวิทยาศาสตร์ |
| Authors: | Phornvipa WERUKANJANA พรวิภา เวฬุกาญจนา Woratouch Witchuvanit วรธัช วิชชุวาณิชย์ Silpakorn University Woratouch Witchuvanit วรธัช วิชชุวาณิชย์ Woratouch_w@yahoo.com Woratouch_w@yahoo.com |
| Keywords: | การเรียนรู้ของเครื่อง อัลกอริทึมระยะทางเลเวนชเตย์น การเปรียบเทียบดีเอ็นเอโดยตรง ดีเอ็นเอเอสทีอาร์ Machine Learning Levenshtein Distance Algorithm DNA Direct Matching DNA STR |
| Issue Date: | 28 |
| Publisher: | Silpakorn University |
| Abstract: | DNA constitutes critical genetic information and forensic evidence essential for human identification. Accordingly, forensic DNA analysis primarily relies on the testing of Short Tandem Repeats (STRs). Current DNA profile matching protocols rely on Structured Query Language (SQL) based database systems, which necessitate significant interpretational expertise from forensic DNA analysts. To address these limitations, this research proposes a novel machine learning methodology for DNA matching, utilizing the Levenshtein distance algorithm. This new methodology constructs a comparison model using data from 13464 DNA profiles, acquired via the AmpFLSTR™ Identifiler™ Plus PCR Amplification Kit. In this approach, individual DNA test results are labeled as known data, while evidentiary DNA test results are altered and classified as unknown.The direct matching model compares known and unknown DNA profiles using the Levenshtein distance algorithm over 105588 iterations.Each result pair is characterized by codes indicating either a matching or non-matching DNA profile. These comparison patterns serve as training data for a neural network machine learning model. The dataset undergoes a division where 70% is assigned for training purposes and 30% for testing.The refined DNA comparison model exhibited outstanding efficiency, attaining perfect scores on multiple performance metrics including accuracy, precision, recall, and F1-score, all recorded at a value of 1. The model’s performance is further validated through the Receiver Operating Characteristic (ROC) curve, confirming a value of 1, indicative of high accuracy in DNA matching.The researcher has successfully designed a prototype application to deploy this model, producing accurate outcomes in practical tests.This machine learning approach provides a highly efficient alternative for DNA matching, significantly contributing to the enhancement of forensic DNA profiling. ดีเอ็นเอเป็นข้อมูลทางพันธุกรรมโดยเป็นหลักฐานทางนิติวิทยาศาสตร์ที่ใช้พิสูจน์เอกลักษณ์บุคคล การตรวจดีเอ็นเอในงานนิติวิทยาศาสตร์เป็นการตรวจพิสูจน์ดีเอ็นเอที่มีการเรียงตัวของเบสบนสายดีเอ็นเอซ้ำกันเป็นช่วงสั้น ๆ เรียกว่าดีเอ็นเอเอสทีอาร์ ในปัจจุบันการตรวจเปรียบเทียบดีเอ็นเอใช้ระบบฐานข้อมูลด้วยคำสั่งภาษาคิวรีเชิงโครงสร้างซึ่งเป็นคำสั่งบนฐานข้อมูลโดยตรง และยังต้องอาศัยผู้ที่ชำนาญด้านดีเอ็นเอในการวิเคราะห์ผลการตรวจ ผู้วิจัยจึงได้นำเสนอวิธีการเปรียบเทียบดีเอ็นเอโดยใช้เทคโนโลยีปัญญาประดิษฐ์ผ่านการเรียนรู้ของเครื่องโดยสร้างรูปแบบการเปรียบเทียบด้วยการนำอัลกอริทึมระยะทางเลเวนชเตย์นมาประยุกต์ใช้ การวิจัยนี้ใช้ชุดข้อมูลผลตรวจดีเอ็นเอที่ตรวจด้วยชุดน้ำยา AmpFLSTR™Identifiler™Plus PCR Amplification Kit จำนวน 13464 โพรไฟล์ ผลตรวจดีเอ็นเอบุคคลใช้แทนส่วนของข้อมูลดีเอ็นเอที่เรียกว่า รู้จัก สำหรับผลตรวจดีเอ็นเอวัตถุพยานทำการดัดแปลงข้อมูลดีเอ็นเอเรียกว่า ไม่รู้จัก แล้วนำมาสร้างรูปแบบการเปรียบเทียบดีเอ็นเอด้วยการเปรียบเทียบโดยตรงด้วยอัลกอริทึมระยะทางเลเวนชเตย์นจำนวนทั้งหมด 105588 รอบ หลังจากนั้นนำเอาแต่ละรูปแบบการเปรียบเทียบดีเอ็นเอไปฝึกฝนด้วยการเรียนรู้ของเครื่องแบบโครงข่ายประสาทเทียม โดยทำการแบ่งชุดข้อมูลสำหรับการฝึกฝนจำนวน 70 เปอร์เซ็นต์ และชุดข้อมูลสำหรับการทดสอบจำนวน 30 เปอร์เซ็นต์ จากนั้นจัดเก็บโมเดลการเปรียบเทียบดีเอ็นเอที่ดีที่สุดไว้ ประสิทธิภาพของโมเดลถูกประเมินโดยใช้ค่าความถูกต้อง ค่าความแม่นยำ ค่ารีคอล และ ค่า F1-score โดยทุกค่ามีค่าเท่ากับ 1 และค่าเส้นโค้ง ROC มีค่าเท่ากับ 1 แสดงให้เห็นว่าโมเดลมีประสิทธิภาพสูงในการเปรียบเทียบดีเอ็นเอ การวิจัยนี้ผู้วิจัยได้สร้างแอปพลิเคชันต้นแบบเพื่อนำเอาโมเดลที่สร้างขึ้นมาใช้งานสำหรับการเปรียบเทียบดีเอ็นเอเอสทีอาร์โดยตรงซึ่งการทดสอบการประยุกต์ใช้แสดงให้เห็นว่าให้ผลลัพธ์ที่ถูกต้อง การนำเทคนิคการเรียนรู้ของเครื่องมาประยุกต์ใช้ในการตรวจเปรียบเทียบดีเอ็นเอเอสทีอาร์เป็นวิธีการหนึ่งที่ให้ประสิทธิภาพสูง ผลการวิจัยนี้เป็นประโยชน์ในการนำมาประยุกต์ใช้สำหรับการตรวจพิสูจน์ดีเอ็นเอทางนิติวิทยาศาสตร์ต่อไป |
| URI: | http://ithesis-ir.su.ac.th/dspace/handle/123456789/5934 |
| Appears in Collections: | Science |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| 620730012.pdf | 5.62 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.