การรู้จำเสียงพูดที่ขับเคลื่อนโดย AI เพื่อสร้างความเข้าใจภาษาทั่วโลก

การเริ่มต้นจากการรู้จำเสียงพูดของ Apple, Google และยักษ์ใหญ่ด้านเทคโนโลยีอื่น ๆ AI จะช่วยให้เราสามารถเข้าใจภาษาทั้งหมด 7,000 ภาษาในโลกได้หรือไม่

บริษัทสตาร์ทอับทางด้านการรู้จำเสียงพูด (Speed Recognition) ที่เพิ่งได้รับเงิน 62 ล้านดอลลาร์จากการระดมทุน Series B โดยเงินก้อนนี้จะถูกใช้ในการหาวิธีการให้คอมพิวเตอร์เข้าใจเสียงทุกภาษาในโลก

การรู้จำเสียงพูดเป็นความท้าทายครั้งใหญ่สำหรับนักพัฒนา และเป็นปริศนาที่ถูกจับตามองอย่างใกล้ชิดในอุตสาหกรรมต่างๆ เทคโนโลยีนี้มีความหมายสำหรับการเชื่อมโยงระหว่างมนุษย์กับเครื่องจักรในด้านต่างๆ เช่น หุ่นยนต์, ยานยนต์อัตโนมัติ และคอมพิวเตอร์ส่วนบุคคล ซึ่งทั้งหมดนี้เราจะได้รับประโยชน์จากคอมพิวเตอร์ที่สามารถตีความคำพูดที่เป็นธรรมชาติได้อย่างแม่นยำ

การรู้จำเสียงพูดจึงเป็นจุดเริ่มต้นทางเทคโนโลยีชนิดหนึ่ง ซึ่งเป็นความต้องการของตลาดที่สามารถช่วยกระตุ้นการพัฒนาเทคโนโลยีที่จะส่งเสียงสะท้อนในวงกว้างและมีความหมายที่ประมาณไม่ได้สำหรับวิธีที่เราโต้ตอบกับเครื่องจักรได้

แต่ปัจจุบันโลกยังมีปัญหาเรื่องของความไม่เท่าเทียมทางเทคโนโลยีอีกด้วย จึงไม่น่าแปลกใจเลยที่การรู้จำเสียงพูดในปัจจุบันทำงานได้ดีสำหรับประชากรเพียงส่วนน้อยทั่วโลก

ขอบคุณภาพประกอบจาก BEINGHUMAN

การรู้จำเสียงพูดต้องบันทึกข้อมูลการฝึกจำเสียงพูดจำนวนมหาศาล

ส่วนใหญ่ของความท้าทายคือรูปแบบการฝึกการรู้จำเสียงพูด ข้อมูลการฝึกจำเสียงพูดส่วนใหญ่จำเป็นต้องจัดประเภทแบบ Manual ซึ่งหมายความว่าความแม่นยำจะทำได้เฉพาะในกลุ่มผู้พูดที่แคบมากเท่านั้น Spasmatic กำลังใช้แนวทางที่แตกต่างออกไปในการเตรียมข้อมูลเพื่อการสร้างเครื่องรู้จำเสียงพูดที่เป็นตัวแทนที่กว้างมากขึ้น

จากชุดข้อมูลที่ใช้ในการศึกษาเรื่อง ‘Racial Disparities in Speech Recognition’ ของสแตนฟอร์ด pitmatics บันทึกความแม่นยำโดยรวม 82.68 % สำหรับเสียงแอฟริกันอเมริกันเมื่อเปรียบเทียบกับ Google (68.6%) และ Amazon (66.86) ระดับความแม่นยำนี้เท่ากับการลดข้อผิดพลาดในการรู้จำคำพูดลง 45% ซึ่งเทียบเท่ากับสามคำในประโยคโดยเฉลี่ย

Engine ของมันถูกบันทึกเสียงต่างๆ นับแสนโดยใช้ข้อมูลเสียงที่ไม่มีป้ายกำกับและเป็นตัวแทนมากขึ้น ซึ่งไม่ต้องการการแทรกแซงของมนุษย์ ซึ่งช่วยผลักดันให้ครอบคลุมมากกว่าผู้พูดภาษาอังกฤษอย่างเดียง

Katy Wigdahl, CEO กล่าวว่า “ความคืบหน้าของเราในช่วงไม่กี่ปีที่ผ่านมาทำให้เราได้รับความสนใจจากนักลงทุนในการระดมทุน Series B อย่างล้นหลาม “ทีม Speechmatics มีความทะเยอทะยาน

ขอบคุณภาพประกอบจาก BNP PARIBAS WEALTH MANAGEMENT

อย่างมาก เรามีมรดกที่แท้จริงในด้านเทคโนโลยีการพูดรวมกับผู้เชี่ยวชาญด้านการพูดและการเรียนรู้ของเครื่องที่มีความสามารถมากที่สุดในโลก”

ปัจจุบันเครื่องมือการรู้จำเสียงพูดมีความเข้าใจแล้ว 34 ภาษา

ปัจจุบัน Engine มีความเข้าใจ 34 ภาษา เก็บอยู่ใน Storage ภาษาขนาดใหญ่มาก เนื่องจากมีภาษาพูดมากกว่า 7,000 ภาษาทั่วโลก แต่แพลตฟอร์มนี้สร้างความก้าวหน้าที่น่าประทับใจในด้านเครื่องหมายวรรคตอน, ตัวเลข, สกุลเงิน และที่อยู่ ซึ่งโดยปกติแล้วจะใช้คำพูดที่กีดกันการรับรู้ของ Engine

เครื่องมือการรู้จำเสียงพูดนี้ดึงดูดความสนใจอย่างมากสำหรับบริษัทที่ตั้งอยู่ในสหราชอาณาจักร บริษัทต่างๆ เช่น 3Play Media, Veritone, Deloitte UK และ Vonage ตลอดจนหน่วยงานภาครัฐทั่วโลกกำลังใช้แพลตฟอร์มนี้

เพื่อให้สอดคล้องกับเป้าหมายระดับโลก Speechmatics มีสำนักงานใหญ่ในสหราชอาณาจักร แต่มีสำนักงานใน Boston (สหรัฐอเมริกา), Chennai (อินเดีย) และ Brno (สาธารณรัฐเช็ก) ด้วย บริษัทจะใช้การลงทุนเพื่อสนับสนุนการขยายธุรกิจไปทั่วโลกทั้งสหรัฐอเมริกาและเอเชียแปซิฟิก

การรู้จำเสียงพูดที่ขับเคลื่อนโดย AI เพื่อสร้างความเข้าใจภาษาทั่วโลก

การรู้จำเสียงพูดต้องบันทึกข้อมูลการฝึกจำเสียงพูดจำนวนมหาศาล

ปัจจุบันเครื่องมือการรู้จำเสียงพูดมีความเข้าใจแล้ว 34 ภาษา

บทความน่าสนใจ

ข่าวเทคโนโลยี