หมวด 31 โปรแกรมตรวจสอบการคัดลอกเอกสารภาษาไทย (Thai Plagiarism Detection)

poster


หัวข้อการแข่งขัน [slidesnew propasal

         เป็นการแข่งขันพัฒนาโปรแกรมตรวจสอบการคัดลอกเอกสารภาษาไทย โดยกำหนดให้ผู้เข้าแข่งขันพัฒนาโปรแกรมตรวจหาข้อความที่มีการคัดลอกในเอกสารต้องสงสัย (Suspicious document) ผู้จัดการแข่งขันได้จัดเตรียมคลังเอกสารไว้ ซึ่งผู้เข้าแข่งขันจะได้รับคลังเอกสารสำหรับนำไปใช้ในการทดสอบโปรแกรมจำนวน 2 ชุด คือ ชุดที่ 1) ชุดเอกสารสำหรับใช้ในการฝึกฝนหรือทดสอบโปรแกรม (Training document set) และ ชุดที่ 2) ชุดเอกสารต้นฉบับ (Source document set) โดยเอกสารชุดฝึกฝนเป็นเอกสารที่มีการจำลองการคัดลอกแบบ Copy and paste ร่วมกับการคัดลอกในระดับคำศัพท์ (Lexicon-based changes) เช่น การลบคำ การเพิ่มคำ และการแทนที่คำ


หลักการ

         ปัจจุบันการโจรกรรมผลงานวิชาการ (Plagiarism) ถือเป็นปัญหาที่สำคัญในงานทางด้านวิชาการ โดยเอกสารจำนวนมากจะอยู่ในรูปแบบของเอกสารอิเล็กทรอนิกส์และเผยแพร่แบบออนไลน์ ทำให้ง่ายและสะดวกในการคัดลอกข้อความทั้งหมดหรือบางส่วนของเอกสาร ทำให้ผู้คัดลอกสามารถนำข้อความต้นฉบับไปเปลี่ยนแปลงให้เป็นข้อความของตนเองโดยไม่อ้างอิงเจ้าของผลงานได้ง่ายและยากต่อการตรวจสอบ การพัฒนาระบบตรวจสอบการคัดลอกผลงานทางวิชาการแบบอัตโนมัติจึงนับว่ามีประโยชน์มาก เพราะนอกจากจะช่วยป้องปรามการละเมิดลิขสิทธิ์ผลงานทางวิชาการ แล้วยังสามารถช่วยให้การตรวจสอบการคัดลอกด้วยมือ (Manual approach) ทำได้สะดวกและรวดเร็วมากขึ้น ซึ่งสิ่งสำคัญที่ช่วยให้ระบบตรวจสอบการคัดลอกเอกสารสามารถตรวจสอบได้ครอบคลุมและมีเปอร์เซ็นต์แม่นยำขึ้นอยู่กับปัจจัยหลักสองประการ ประการแรกคือ การประยุกต์ใช้เทคนิคทางคอมพิวเตอร์ในด้านการประมวลผลภาษาธรรมชาติ (Natural language processing) การสืบค้นข้อมูล (Information retrieval) และการทำเหมืองข้อความ (Text mining) ส่วนประการที่สองคือ การรวบรวมเอกสารที่มีการคัดลอกจริงสร้างเป็นคลังข้อมูลสำหรับใช้ทดสอบและฝึกฝนระบบให้มีประสิทธิภาพสูงขึ้น

         ดังนั้นทางผู้จัดการแข่งขันได้เล็งเห็นความสำคัญดังกล่าว จึงได้จัดให้มีการแข่งขันพัฒนาโปรแกรมตรวจสอบการคัดลอกเอกสารภาษาไทย โดยผู้เข้าแข่งขันสามารถเลือกใช้เทคนิคทางคอมพิวเตอร์ที่เกี่ยวข้องได้อย่างอิสระ และต้องใช้คลังข้อมูลที่จำลองการคัดลอกเอกสารที่จัดเตรียมไว้ให้ในการพัฒนา ทดสอบและประเมินประสิทธิภาพของระบบที่พัฒนาขึ้น


คุณสมบัติผู้สมัคร

คุณสมบัติของผู้เข้าร่วมโครงการ

  • เป็นนักเรียน นิสิต นักศึกษา อาจารย์ หรือบุคคลทั่วไป
  • ในกรณีเป็น นักเรียน หรือนักศึกษา ต้องมีอาจารย์และหัวหน้าสถาบันการศึกษาให้การรับรองว่าเป็นนักเรียน นิสิต นักศึกษา ที่กำลังศึกษาอยู่ในสถาบันนั้นๆ จริง

เงื่อนไขในการเข้าร่วมโครงการ

  • ผู้เสนอโครงการมีสิทธิ์เสนอเพียงคนละ 1 โครงการ และส่งได้ 1 ประเภท โครงการหนึ่งมีทีมพัฒนาได้ไม่เกิน 3 คน โดยมีอาจารย์ที่ปรึกษาลงนามรับรอง
  • ระยะเวลาในการดำเนินโครงการประมาณ 3 เดือน ผู้เสนอโครงการที่ได้รับทุนสนับสนุนจากเนคเทค ต้องส่งผลงานตามเวลาที่ระบุ
  • ทุกโครงการต้องดำเนินการจัดทำข้อตกลงการรับทุนให้แล้วเสร็จภายในระยะเวลาที่กำหนด (ประมาณเดือนพฤศจิกายน)
  • ทรัพย์สินทางปัญญาของผลงานที่เกิดขึ้นเป็นของผู้พัฒนา ทั้งนี้ เนคเทคสามารถนำผลงานไปเผยแพร่ต่อสาธารณชน หรือโฆษณาประชาสัมพันธ์ เพื่อการศึกษา วิจัย ติชม วิจารณ์ หรือแนะนำผลงานได้
  • ในการเผยแพร่ประชาสัมพันธ์ข้อมูลข่าวสารเกี่ยวกับการพัฒนาโครงการ ผู้พัฒนาจะต้องระบุข้อความหรือแจ้งให้สาธารณชนทราบว่า ได้รับทุนสนับสนุนจากเนคเทค
  • หากผู้รับทุนไม่สามารถพัฒนาผลงานได้ตามที่เสนอ จะต้องมีหนังสือเป็นลายลักษณ์อักษรเพื่อขอยกเลิกและส่งคืนเงินทุนให้แก่เนคเทค
  • ผลงานที่ผ่านการตรวจรับจะได้รับคัดเลือกตามเกณฑ์ที่กำหนด โดยจะคัดเลือกผลงานที่ยอดเยี่ยมเข้าสู่การแข่งขันรอบสุดท้าย เพื่อชิงชนะเลิศและรับเงินรางวัลแต่ละประเภท โดยมีคณะกรรมการผู้เชี่ยวชาญเป็นผู้ตัดสิน
  • ผู้พัฒนาต้องติดตามข้อมูลข่าวสารที่ทางเนคเทค หรือ ศูนย์ประสานงาน ประกาศเป็นระยะๆ ผ่านทางเว็บไซต์ อีเมล์ หรือ จดหมาย ตลอดจนให้ความร่วมมือในการแจ้งปรับปรุงข้อมูลของผู้พัฒนา หากมีการเปลี่ยนแปลงจากข้อเสนอโครงการแก่เนคเทค และศูนย์ประสานงาน เป็นลายลักษณ์อักษรทุกครั้ง เพื่อผลประโยชน์ของผู้พัฒนาเอง
  • การรับเงินทุนสนับสนุน สามารถติดต่อขอรับเงินทุนสนับสนุนทั้ง 2 งวด และเงินสนับสนุนการประกวดรอบชิงชนะเลิศได้จากศูนย์ประสานงานโครงการที่สังกัด
  • การรับเงินรางวัลในรอบชิงชนะเลิศ สามารถติดต่อขอรับเงินรางวัลได้ที่ เนคเทค เท่านั้น


การแข่งขัน

การแข่งขันรอบ 1 (ข้อเสนอโครงการ) ภายใน 30 กันยายน 2560

         ผู้เข้าแข่งขันจะต้องส่งข้อเสนอโครงการให้กรรมการพิจารณา โดยข้อเสนอจะต้องกล่าวถึงเทคนิคที่คาดว่าจะใช้ในการพัฒนา พร้อมทั้งเครื่องมือที่ใช้ในการพัฒนา โดยละเอียด เพื่อให้กรรมการพิจารณาได้ถึงความเป็นไปได้ที่จะสำเร็จ (และเพื่อให้กรรมการจะได้ให้ข้อแนะนำในการพัฒนาได้)

การแข่งขันรอบ 2 (ภูมิภาค)

         ผู้เข้าแข่งขันจะได้รับคลังเอกสารสำหรับนำไปใช้ในการทดสอบโปรแกรมจำนวน 2 ชุด คือ ชุดที่ 1) ชุดเอกสารสำหรับใช้ในการฝึกฝนหรือทดสอบโปรแกรม (Training document set) และ ชุดที่ 2) ชุดเอกสารต้นฉบับ (Source document set) โดยชุดเอกสารสำหรับฝึกฝนหรือทดสอบโปรแกรมจะมีจำนวนประมาณ 500 เรื่อง

การแข่งขันรอบ 3 (ชิงชนะเลิศ)

         -


คู่มือการแข่งขัน NSC 2018 ครั้งที่ 20

         สามารถดูรายละเอียดเกี่ยวกับคู่มือการแข่งขันได้ที่ ดาวน์โหลด

***สอบถามรายละเอียดเพิ่มเติมได้ที่ศูนย์ประสานงานภูมิภาค หรือ ติดตามข้อมูลข่าวสารได้ที่ http://fic.nectec.or.th/nsc20_PR หรือ FB Group: National Software Contest - NSC

***ส่งข้อเสนอโครงการ: 1 สิงหาคม - 30 กันยายน 2560


ขั้นตอนการลงทะเบียน

         สามารถดูรายละเอียดเกี่ยวกับขั้นตอนการลงทะเบียนได้ที่ http://nscthailand.net/front/show/howtoregister


การส่งข้อเสนอโครงการ

         สามารถดูรายละเอียดเกี่ยวกับการส่งข้อเสนอโครงการได้ที่ http://fic.nectec.or.th/nsc19_Proposal


เงินทุนและรางวัล

         โครงการที่ผ่านการพิจารณาจะได้รับทุนสนับสนุน รวมโครงการละ ๑๒,๐๐๐ บาท โดยมีรายละเอียด ดังนี้ ๑. ผ่านการพิจารณารอบแรก (รอบคัดเลือกข้อเสนอโครงการ) ได้รับทุนสนับสนุนโครงการละ ๓,๐๐๐ บาท (สามพันบาทถ้วน) ๒. ผ่านการพิจารณารอบสอง (รอบนำเสนอผลงาน) ได้รับทุนสนับสนุนโครงการละ ๙,๐๐๐ บาท (เก้าพันบาทถ้วน) โดยทีมผู้พัฒนาได้รับ ๗,๐๐๐ บาท (เจ็ดพันบาทถ้วน) และอาจารย์ที่ปรึกษาได้รับ ๒,๐๐๐ บาท (สองพันบาทถ้วน)

         สำหรับผลงานที่ผ่านการพิจารณาในรอบชิงชนะเลิศ จะมีเงินรางวัล เกียรติบัตร พร้อมโล่รางวัล รายละเอียดดังนี้ รางวัลที่ ๑ เงินรางวัล ๖๐,๐๐๐ บาท (หกหมื่นบาทถ้วน) และถ้วยพระราชทานจาก สมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี (เฉพาะประเภทนักเรียน และ นิสิต นักศึกษา) รางวัลที่ ๒ เงินรางวัล ๔๐,๐๐๐ บาท (สี่หมื่นบาทถ้วน) รางวัลที่ ๓ เงินรางวัล ๒๐,๐๐๐ บาท (สองหมื่นบาทถ้วน) รางวัลชมเชย เงินรางวัล ประเภทละ ๒ รางวัลๆ ละ ๑๐,๐๐๐ บาท (หนึ่งหมื่นบาทถ้วน)

         ทั้งนี้ เงินรางวัลทุกประเภท จะแบ่งเป็น ๒ ส่วน โดยมอบให้ทีมผู้พัฒนา จำนวน ๘๐% และอาจารย์ที่ปรึกษา ๒๐% ส่วนสถาบันการศึกษาที่ได้รับรางวัลที่ ๑, ๒ และ ๓ ในแต่ละประเภท จะได้รับโล่รางวัลจากเนคเทค


ข้อมูลตัวอย่าง

         ทางผู้จัดการแข่งขันได้ทำการสร้างชุดเอกสารต้นฉบับ (Source document set) โดยใช้คลังข้อมูลวิกิพีเดียภาษาไทยและเว็บไซท์ จำนวนกว่า 100,000 เรื่อง เนื่องด้วยทางผู้จัดไม่มีชุดเอกสารจริงที่มีการคัดลอก ดั้งนั้นจึงสร้างชุดเอกสารที่มีการคัดลอกโดยการจำลองการสร้างเอกสารให้เหมือนจริงกับที่มนุษย์สร้าง (Artificial plagiarism) มากที่สุด จำนวน 2,500 เรื่อง โดยแบ่งรูปแบบการคัดลอกออกเป็น 2 ประเภท ได้แก่ (1) เอกสารที่มีการคัดลอกแบบไม่มีการดัดแปลงแก้ไขข้อความ (Copy and paste document) (2) เอกสารที่มีการคัดลอกแต่มีการดัดแปลงแก้ไขบางส่วนของข้อความ (Modified document) สามารถดาวน์โหลดตัวอย่างข้อมูลได้ที่นี่ ดาวน์โหลด

รายละเอียดของ tag มีดังนี้

reference คือ ชื่อไฟล์เอกสารต้องสงสัย

source_length คือ ความยาวของข้อความคัดลอกที่เลือกจากเอกสารต้นฉบับ

source_offset คือ ตำแหน่งเริ่มต้นของข้อความคัดลอกที่เลือกจากเอกสารต้นฉบับ

source_id คือ ชื่อไฟล์เอกสารต้นฉบับ

this_length คือ ความยาวของข้อความดัดแปลงที่แทรกในเอกสารต้องสงสัย

this_offset คือ ตำแหน่งเริ่มต้นของข้อความดัดแปลงที่แทรกในเอกสารต้องสงสัย


ตัวอย่างรูปแบบไฟล์ผลลัพธ์

สำหรับแต่ละเอกสารที่มีการคัดลอกผู้เข้าแข่งขันต้องแสดงผลลัพธ์ออกมาเป็นไฟล์ XML โดยมีรายละเอียดดังนี้

output-xml


ชุดเอกสารต้นฉบับ (Source document set)

ส่งให้กับผู้เข้าแข่งขันทางอีเมล


ชุดเอกสารฝึกฝน (Training document set)

ส่งให้กับผู้เข้าแข่งขันทางอีเมล


การวัดความถูกต้อง

         ผู้จัดการแข่งขันมีเกณฑ์การวัดประสิทธิภาพของโปรแกรมตรวจสอบการคัดลอกเอกสารภาษาไทย ประกอบด้วย 3 เกณฑ์

  • 1. ค่าความถูกต้องในการหาแหล่งเอกสารที่มีความคล้ายโดยวัดจาก Precision, Recall และ F-measure
  • 2. ค่าความถูกต้องในการหาข้อความที่มีความคล้ายโดยวัดจาก Precision, Recall และ F-measure
  • 3. ความเร็วในการตรวจสอบการคัดลอก


สอบถามรายละเอียดเพิ่มเติม

  • พรพิมล ผลินกูล โทรศัพท์: 02-564-6900 ต่อ 2239 อีเมล: pornpimon.palingoon@nectec.or.th
  • สันติพงษ์ ไทยประยูร โทรศัพท์: 02-564-6900 ต่อ 2288 อีเมล: santipong.thaiprayoon@nectec.or.th
  • กนกอร ตระกูลทวีคูณ โทรศัพท์: 02-564-6900 ต่อ 2281 อีเมล: kanokorn.trakultaweekoon@nectec.or.th


แก้ไขข้อมูลล่าสุดเมื่อ 23 มกราคม 2561