การรู้จำเสียงพูดที่ขับเคลื่อนโดย AI เพื่อสร้างความเข้าใจภาษาทั่วโลก

การรู้จำเสียงพูดที่ขับเคลื่อนโดย AI เพื่อสร้างความเข้าใจภาษาทั่วโลก

การเริ่มต้นจากการรู้จำเสียงพูดของ Apple, Google และยักษ์ใหญ่ด้านเทคโนโลยีอื่น ๆ AI จะช่วยให้เราสามารถเข้าใจภาษาทั้งหมด 7,000 ภาษาในโลกได้หรือไม่ บริษัทสตาร์ทอับทางด้านการรู้จำเสียงพูด (Speed Recognition) ที่เพิ่งได้รับเงิน 62 ล้านดอลลาร์จากการระดมทุน Series B โดยเงินก้อนนี้จะถูกใช้ในการหาวิธีการให้คอมพิวเตอร์เข้าใจเสียงทุกภาษาในโลก การรู้จำเสียงพูดเป็นความท้าทายครั้งใหญ่สำหรับนักพัฒนา และเป็นปริศนาที่ถูกจับตามองอย่างใกล้ชิดในอุตสาหกรรมต่างๆ เทคโนโลยีนี้มีความหมายสำหรับการเชื่อมโยงระหว่างมนุษย์กับเครื่องจักรในด้านต่างๆ เช่น หุ่นยนต์, ยานยนต์อัตโนมัติ และคอมพิวเตอร์ส่วนบุคคล ซึ่งทั้งหมดนี้เราจะได้รับประโยชน์จากคอมพิวเตอร์ที่สามารถตีความคำพูดที่เป็นธรรมชาติได้อย่างแม่นยำ การรู้จำเสียงพูดจึงเป็นจุดเริ่มต้นทางเทคโนโลยีชนิดหนึ่ง ซึ่งเป็นความต้องการของตลาดที่สามารถช่วยกระตุ้นการพัฒนาเทคโนโลยีที่จะส่งเสียงสะท้อนในวงกว้างและมีความหมายที่ประมาณไม่ได้สำหรับวิธีที่เราโต้ตอบกับเครื่องจักรได้ แต่ปัจจุบันโลกยังมีปัญหาเรื่องของความไม่เท่าเทียมทางเทคโนโลยีอีกด้วย จึงไม่น่าแปลกใจเลยที่การรู้จำเสียงพูดในปัจจุบันทำงานได้ดีสำหรับประชากรเพียงส่วนน้อยทั่วโลก ขอบคุณภาพประกอบจาก BEINGHUMAN การรู้จำเสียงพูดต้องบันทึกข้อมูลการฝึกจำเสียงพูดจำนวนมหาศาล ส่วนใหญ่ของความท้าทายคือรูปแบบการฝึกการรู้จำเสียงพูด ข้อมูลการฝึกจำเสียงพูดส่วนใหญ่จำเป็นต้องจัดประเภทแบบ Manual ซึ่งหมายความว่าความแม่นยำจะทำได้เฉพาะในกลุ่มผู้พูดที่แคบมากเท่านั้น  Spasmatic กำลังใช้แนวทางที่แตกต่างออกไปในการเตรียมข้อมูลเพื่อการสร้างเครื่องรู้จำเสียงพูดที่เป็นตัวแทนที่กว้างมากขึ้น จากชุดข้อมูลที่ใช้ในการศึกษาเรื่อง ‘Racial Disparities in Speech Recognition’ ของสแตนฟอร์ด pitmatics บันทึกความแม่นยำโดยรวม 82.68 % สำหรับเสียงแอฟริกันอเมริกันเมื่อเปรียบเทียบกับ Google (68.6%) และ Amazon […]