กลับไปที่บล็อก

เบื้องหลัง: ML Lab ของเรา

มาเรีย จูโควา

Head of copy ที่ Brask

เผยแพร่

30 เม.ย. 2567

,

16

อ่านขั้นต่ํา

,

อะไรอยู่ข้างใน

ตัวอย่าง H2

ตัวอย่าง H3

ตัวอย่าง H4

ตัวอย่าง H5

ตัวอย่าง H6

ในบทความล่าสุดของเราเราดําดิ่งสู่โลกที่น่าตื่นเต้นของ Rask เทคโนโลยีลิปซิงค์ของ AI พร้อมคําแนะนําจากหัวหน้าฝ่ายแมชชีนเลิร์นนิง Dima Vypirailenko ของบริษัท เราจะพาคุณไปดูเบื้องหลังที่ Brask ML Lab ศูนย์ความเป็นเลิศด้านเทคโนโลยี ซึ่งเราจะเห็นโดยตรงว่าเครื่องมือ AI ที่เป็นนวัตกรรมใหม่นี้สร้างกระแสในการสร้างและเผยแพร่เนื้อหาได้อย่างไร ทีมงานของเราประกอบด้วยวิศวกร ML ระดับโลกและศิลปินสังเคราะห์ VFX ที่ไม่เพียงแต่ปรับตัวให้เข้ากับอนาคตเท่านั้น เรากําลังสร้างมันขึ้นมา

เข้าร่วมกับเราเพื่อค้นพบว่าเทคโนโลยีนี้เปลี่ยนแปลงอุตสาหกรรมสร้างสรรค์ ลดต้นทุน และช่วยให้ครีเอเตอร์เข้าถึงผู้ชมทั่วโลกได้อย่างไร

เทคโนโลยี Lip-Sync คืออะไร?

หนึ่งในความท้าทายหลักในการแปลวิดีโอคือการเคลื่อนไหวของริมฝีปากที่ผิดธรรมชาติ เทคโนโลยีลิปซิงค์ได้รับการออกแบบมาเพื่อช่วยซิงโครไนซ์การเคลื่อนไหวของริมฝีปากกับแทร็กเสียงหลายภาษาอย่างมีประสิทธิภาพ

ดังที่เราได้เรียนรู้จาก บทความล่าสุดของเราเทคนิคการลิปซิงค์นั้นซับซ้อนกว่ามากเมื่อเทียบกับการกําหนดเวลาที่เหมาะสมคุณจะต้องทําให้การเคลื่อนไหวของปากถูกต้อง ทุกคําที่พูดจะมีผลต่อใบหน้าของผู้พูด เช่น "O" จะสร้างรูปวงรีของปากอย่างเห็นได้ชัด ดังนั้นมันจะไม่เป็น "M" ซึ่งเพิ่มความซับซ้อนให้กับกระบวนการพากย์มากขึ้น

ขอแนะนําลิปซิงค์รุ่นใหม่ที่มีคุณภาพดีขึ้น!

ทีม ML ของเราได้ตัดสินใจที่จะปรับปรุงรูปแบบลิปซิงค์ที่มีอยู่ อะไรคือเหตุผลที่อยู่เบื้องหลังการตัดสินใจครั้งนี้ และมีอะไรใหม่ในเวอร์ชันนี้เมื่อเทียบกับเวอร์ชันเบต้า

Dima Vypirailenko

Head of Machine Learning ที่ Rask เอไอ

แม้ว่าผลลัพธ์ลิปซิงค์ของเราจะโดดเด่นและได้รับความสนใจจากสื่อจํานวนมาก รวมถึงการออกอากาศทางทีวีและการสัมภาษณ์เกี่ยวกับเทคโนโลยีของเรา แต่เมื่อเราเปิดตัวโมเดลลิปซิงค์เวอร์ชันเบต้า เราก็ตระหนักดีว่ามันไม่เป็นไปตามความคาดหวังด้านคุณภาพสําหรับผู้ใช้ทุกกลุ่ม เป้าหมายหลักของเราคือการลดช่องว่างนี้เพื่อให้แน่ใจว่าผู้ใช้ของเราสามารถแปลได้อย่างมีประสิทธิภาพไม่เพียง แต่องค์ประกอบเสียงของเนื้อหาเท่านั้น แต่ยังรวมถึงองค์ประกอบวิดีโอด้วย

มีความพยายามอย่างมากในการปรับปรุงโมเดล ได้แก่ :

ปรับปรุงความแม่นยํา: เราได้ปรับปรุงอัลกอริทึม AI เพื่อวิเคราะห์และจับคู่รายละเอียดการออกเสียงของภาษาพูดได้ดีขึ้นซึ่งนําไปสู่การเคลื่อนไหวของริมฝีปากที่แม่นยํายิ่งขึ้นซึ่งซิงโครไนซ์อย่างใกล้ชิดกับเสียงในหลายภาษา
เพิ่มความเป็นธรรมชาติ: ด้วยการผสานรวมข้อมูลการจับการเคลื่อนไหวขั้นสูงและปรับแต่งเทคนิคการเรียนรู้ของเครื่องของเราเราได้ปรับปรุงความเป็นธรรมชาติของการเคลื่อนไหวของริมฝีปากอย่างมีนัยสําคัญทําให้คําพูดของตัวละครดูลื่นไหลและเหมือนจริงมากขึ้น
เพิ่มความเร็วและประสิทธิภาพ: เราปรับโมเดลให้เหมาะสมเพื่อประมวลผลวิดีโอได้เร็วขึ้นโดยไม่ลดทอนคุณภาพ ซึ่งช่วยให้เวลาตอบสนองเร็วขึ้นสําหรับโครงการที่ต้องการการแปลเป็นภาษาท้องถิ่น
การรวมความคิดเห็นของผู้ใช้: เรารวบรวมคําติชมจากผู้ใช้เวอร์ชันเบต้าอย่างแข็งขันและรวมข้อมูลเชิงลึกของพวกเขาไว้ในกระบวนการพัฒนาเพื่อแก้ไขปัญหาเฉพาะและเพิ่มความพึงพอใจของผู้ใช้โดยรวม

โมเดล AI ของเราซิงโครไนซ์การเคลื่อนไหวของริมฝีปากกับเสียงที่แปลอย่างไร

ดิมา: "โมเดล AI ของเราทํางานโดยการรวมข้อมูลจากเสียงที่แปลเข้ากับข้อมูลเกี่ยวกับใบหน้าของบุคคลในเฟรม แล้วรวมสิ่งเหล่านี้เข้ากับผลลัพธ์สุดท้าย การผสานรวมนี้ช่วยให้มั่นใจได้ว่าการเคลื่อนไหวของริมฝีปากจะซิงโครไนซ์กับคําพูดที่แปลอย่างถูกต้องมอบประสบการณ์การรับชมที่ราบรื่น"

คุณสมบัติพิเศษใดที่ทําให้ Premium Lip-Sync เหมาะสําหรับเนื้อหาคุณภาพสูง

ดิมา: "Premium Lip-sync ได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการเนื้อหาคุณภาพสูงผ่านคุณสมบัติที่เป็นเอกลักษณ์ เช่น ความสามารถของ ลําโพงหลายตัว และการสนับสนุนความละเอียดสูง สามารถประมวลผลวิดีโอ ที่มีความละเอียดสูงสุด 2K เพื่อให้มั่นใจว่าคุณภาพของภาพจะคงอยู่โดยไม่ลดทอนประสิทธิภาพ นอกจากนี้คุณสมบัติลําโพงหลายตัวยังช่วยให้สามารถซิงโครไนซ์ริมฝีปากได้อย่างแม่นยําระหว่างลําโพงต่างๆภายในวิดีโอเดียวกันทําให้มีประสิทธิภาพสูงสําหรับการผลิตที่ซับซ้อนที่เกี่ยวข้องกับตัวละครหรือลําโพงหลายตัว คุณสมบัติเหล่านี้ทําให้ Premium Lipsync เป็นตัวเลือกอันดับต้น ๆ สําหรับครีเอเตอร์ที่มุ่งเป้าไปที่เนื้อหาระดับมืออาชีพ"

และคุณสมบัติ Lip-Sync Multi-Speaker คืออะไร?

คุณสมบัติลิปซิงค์แบบ Multi-Speaker ออกแบบมาเพื่อซิงค์การเคลื่อนไหวของริมฝีปากอย่างแม่นยํากับเสียงพูดในวิดีโอที่มีหลายคน เทคโนโลยีขั้นสูงนี้ระบุและแยกความแตกต่างระหว่างใบหน้าหลายหน้าในเฟรมเดียว เพื่อให้มั่นใจว่าการเคลื่อนไหวของริมฝีปากของแต่ละคนเคลื่อนไหวได้อย่างถูกต้องตามคําพูดของพวกเขา

ลิปซิงค์แบบหลายลําโพงทํางานอย่างไร:

การจดจําใบหน้าในเฟรม: คุณลักษณะนี้จะจดจําใบหน้าทั้งหมดที่มีอยู่ในเฟรมวิดีโอในขั้นต้นโดยไม่คํานึงถึงจํานวน สามารถระบุตัวบุคคลได้ ซึ่งเป็นสิ่งสําคัญสําหรับการซิงโครไนซ์ริมฝีปากที่แม่นยํา
การจับคู่เสียง: ในระหว่างการเล่นวิดีโอเทคโนโลยีจะจัดแนวแทร็กเสียงโดยเฉพาะกับบุคคลที่กําลังพูด กระบวนการจับคู่ที่แม่นยํานี้ช่วยให้มั่นใจได้ว่าการเคลื่อนไหวของเสียงและริมฝีปากจะซิงค์กัน
การซิงโครไนซ์การเคลื่อนไหวของริมฝีปาก: เมื่อระบุบุคคลที่พูดได้แล้วคุณสมบัติลิปซิงค์จะวาดการเคลื่อนไหวของริมฝีปากใหม่สําหรับบุคคลที่พูดเท่านั้น บุคคลที่ไม่ได้พูดในเฟรมจะไม่มีการเปลี่ยนแปลงการเคลื่อนไหวของริมฝีปาก โดยคงสภาพธรรมชาติไว้ตลอดทั้งวิดีโอ การซิงโครไนซ์นี้ใช้กับลําโพงที่ใช้งานอยู่เท่านั้นทําให้มีประสิทธิภาพแม้ในที่ที่มีเสียงนอกหน้าจอหรือหลายใบหน้าในฉาก
การจัดการภาพนิ่งของริมฝีปาก: ที่น่าสนใจคือเทคโนโลยีนี้ยังมีความซับซ้อนเพียงพอที่จะวาดการเคลื่อนไหวของริมฝีปากบนภาพนิ่งของริมฝีปากหากปรากฏในเฟรมวิดีโอซึ่งแสดงให้เห็นถึงความสามารถที่หลากหลาย

คุณสมบัติลิปซิงค์แบบ Multi-Speaker นี้ช่วยเพิ่มความสมจริงและการมีส่วนร่วมของผู้ชมในฉากที่มีลําโพงหลายตัวหรือการตั้งค่าวิดีโอที่ซับซ้อนโดยตรวจสอบให้แน่ใจว่ามีเพียงริมฝีปากของผู้พูดเท่านั้นที่เคลื่อนไหวตามเสียง วิธีการที่ตรงเป้าหมายนี้ช่วยรักษาโฟกัสที่ผู้พูดที่ใช้งานอยู่และรักษาพลวัตตามธรรมชาติของการโต้ตอบแบบกลุ่มในวิดีโอ

จากวิดีโอเดียวในภาษาใดก็ได้คุณสามารถสร้างวิดีโอส่วนบุคคลหลายร้อยรายการที่มีข้อเสนอมากมายในหลายภาษา ความเก่งกาจนี้ปฏิวัติวิธีที่นักการตลาดสามารถมีส่วนร่วมกับผู้ชมที่หลากหลายและทั่วโลกเพิ่มผลกระทบและการเข้าถึงเนื้อหาส่งเสริมการขาย

คุณสร้างสมดุลระหว่างคุณภาพและความเร็วในการประมวลผลใน Premium Lip-sync ใหม่อย่างไร

ดิมา: "การสร้างสมดุลระหว่างคุณภาพสูงกับความเร็วในการประมวลผลที่รวดเร็วใน Premium Lipsync เป็นสิ่งที่ท้าทาย แต่เรามีความก้าวหน้าอย่างมากในการเพิ่มประสิทธิภาพการอนุมานของโมเดลของเรา การเพิ่มประสิทธิภาพนี้ช่วยให้เราสามารถส่งออกคุณภาพที่ดีที่สุดเท่าที่จะเป็นไปได้ด้วยความเร็วที่เหมาะสม"

Dima Vypirailenko

Head of Machine Learning ที่ Rask เอไอ

เรามุ่งเน้นการประมวลผลเฉพาะข้อมูลที่จําเป็นจากวิดีโอของผู้ใช้ ซึ่งช่วยเร่งเวลาในการประมวลผลของโมเดลได้อย่างมาก ด้วยการปรับปรุงข้อมูลที่โมเดลของเราต้องการในการวิเคราะห์เรามั่นใจได้ทั้งประสิทธิภาพและการบํารุงรักษาผลผลิตคุณภาพสูงตอบสนองความต้องการของผู้สร้างเนื้อหามืออาชีพ

มีความไม่สมบูรณ์หรือความประหลาดใจที่น่าสนใจที่คุณพบขณะฝึกโมเดลหรือไม่?

Dima Vypirailenko

Head of Machine Learning ที่ Rask เอไอ

ใช่ มีความท้าทายที่น่าสนใจหลายประการที่เราต้องเผชิญ โดยเฉพาะอย่างยิ่งเพื่อให้แน่ใจว่าไม่ใช่แค่ริมฝีปาก แต่ยังรวมถึงขนบนใบหน้าและฟันที่ดูถูกต้องด้วย มันเกือบจะเหมือนกับว่าเราทุกคนได้รับปริญญาด้านทันตกรรมในบางจุด!

นอกจากนี้ การทํางานกับการอุดตันบริเวณปากได้พิสูจน์แล้วว่าค่อนข้างยาก องค์ประกอบเหล่านี้ต้องการความใส่ใจในรายละเอียดและการสร้างแบบจําลองที่ซับซ้อนเพื่อให้ได้การแสดงที่สมจริงและแม่นยําในเทคโนโลยีลิปซิงค์ของเรา

ทีม ML รับรองความเป็นส่วนตัวและการปกป้องข้อมูลผู้ใช้เมื่อประมวลผลเนื้อหาวิดีโอได้อย่างไร

ดิมา: ทีม ML ของเราให้ความสําคัญกับความเป็นส่วนตัวและการปกป้องข้อมูลผู้ใช้เป็นอย่างมาก สําหรับรุ่น Lipsync เราไม่ใช้ข้อมูลลูกค้าในการฝึกอบรม จึงช่วยลดความเสี่ยงจากการโจรกรรมข้อมูลประจําตัว เราพึ่งพาข้อมูลโอเพนซอร์สที่มาพร้อมกับใบอนุญาตที่เหมาะสมสําหรับการฝึกอบรมโมเดลของเราเท่านั้น นอกจากนี้ โมเดลยังทํางานเป็นอินสแตนซ์แยกต่างหากสําหรับผู้ใช้แต่ละคน เพื่อให้มั่นใจว่าวิดีโอสุดท้ายจะถูกส่งไปยังผู้ใช้ที่ระบุเท่านั้น และป้องกันการพัวพันกับข้อมูล

หัวใจหลักของเราคือ เรามุ่งมั่นที่จะเพิ่มขีดความสามารถให้กับครีเอเตอร์ เพื่อให้มั่นใจว่ามีการใช้ AI อย่างมีความรับผิดชอบในการสร้างเนื้อหา โดยมุ่งเน้นที่สิทธิทางกฎหมายและความโปร่งใสทางจริยธรรม เรารับประกันว่าวิดีโอ รูปภาพ เสียง และสิ่งที่คล้ายกันของคุณจะไม่ถูกใช้โดยไม่ได้รับอนุญาตอย่างชัดแจ้ง เพื่อให้มั่นใจว่ามีการปกป้องข้อมูลส่วนบุคคลและเนื้อหาสร้างสรรค์ของคุณ

เราภูมิใจที่เป็นสมาชิกของ The Coalition for Content Provenance and Authenticity (C2PA) และ The Content Authenticity Initiative ซึ่งสะท้อนถึงความทุ่มเทของเราในด้านความสมบูรณ์ของเนื้อหาและความถูกต้องในยุคดิจิทัล นอกจากนี้ Maria Chmir ผู้ก่อตั้งและซีอีโอของเรายังได้รับการยอมรับในไดเรกทอรี Women in AI Ethics™ ซึ่งเน้นย้ําถึงความเป็นผู้นําของเราในแนวทางปฏิบัติด้าน AI ที่มีจริยธรรม

โอกาสในอนาคตสําหรับการพัฒนาเทคโนโลยีลิปซิงค์คืออะไร? มีพื้นที่เฉพาะที่ทําให้คุณตื่นเต้นเป็นพิเศษหรือไม่?

ดิมา: เราเชื่อว่าเทคโนโลยีลิปซิงค์ของเราสามารถใช้เป็นรากฐานสําหรับการพัฒนาไปสู่อวตารดิจิทัลต่อไป เรามองเห็นอนาคตที่ทุกคนสามารถสร้างและแปลเนื้อหาได้โดยไม่ต้องเสียค่าใช้จ่ายในการผลิตวิดีโอ

ในระยะสั้นภายในสองเดือนข้างหน้าเรามุ่งมั่นที่จะเพิ่มประสิทธิภาพและคุณภาพของโมเดลของเรา เป้าหมายของเราคือเพื่อให้แน่ใจว่าการทํางานที่ราบรื่นในวิดีโอ 4K และเพื่อปรับปรุงฟังก์ชันการทํางานด้วยวิดีโอที่แปลเป็นภาษาเอเชีย ความก้าวหน้าเหล่านี้มีความสําคัญเนื่องจากเรามุ่งมั่นที่จะขยายการเข้าถึงและการใช้งานเทคโนโลยีของเราปูทางไปสู่แอปพลิเคชันที่เป็นนวัตกรรมในการสร้างเนื้อหาดิจิทัล การทลายกําแพงภาษาไม่เคยใกล้ขนาดนี้มาก่อน! ลองใช้ฟังก์ชันลิปซิงค์ที่ได้รับการปรับปรุงและส่งความคิดเห็นของคุณเกี่ยวกับคุณสมบัตินี้ถึงเรา

คำถามที่ถามบ่อย

ศูนย์กลางข่าวสาร

ต้องอ่าน