ในบทความล่าสุดของเราเราดําดิ่งสู่โลกที่น่าตื่นเต้นของ Rask เทคโนโลยีลิปซิงค์ของ AI พร้อมคําแนะนําจากหัวหน้าฝ่ายแมชชีนเลิร์นนิง Dima Vypirailenko ของบริษัท เราจะพาคุณไปดูเบื้องหลังที่ Brask ML Lab ศูนย์ความเป็นเลิศด้านเทคโนโลยี ซึ่งเราจะเห็นโดยตรงว่าเครื่องมือ AI ที่เป็นนวัตกรรมใหม่นี้สร้างกระแสในการสร้างและเผยแพร่เนื้อหาได้อย่างไร ทีมงานของเราประกอบด้วยวิศวกร ML ระดับโลกและศิลปินสังเคราะห์ VFX ที่ไม่เพียงแต่ปรับตัวให้เข้ากับอนาคตเท่านั้น เรากําลังสร้างมันขึ้นมา
เข้าร่วมกับเราเพื่อค้นพบว่าเทคโนโลยีนี้เปลี่ยนแปลงอุตสาหกรรมสร้างสรรค์ ลดต้นทุน และช่วยให้ครีเอเตอร์เข้าถึงผู้ชมทั่วโลกได้อย่างไร
เทคโนโลยี Lip-Sync คืออะไร?
หนึ่งในความท้าทายหลักในการแปลวิดีโอคือการเคลื่อนไหวของริมฝีปากที่ผิดธรรมชาติ เทคโนโลยีลิปซิงค์ได้รับการออกแบบมาเพื่อช่วยซิงโครไนซ์การเคลื่อนไหวของริมฝีปากกับแทร็กเสียงหลายภาษาอย่างมีประสิทธิภาพ
ดังที่เราได้เรียนรู้จาก บทความล่าสุดของเราเทคนิคการลิปซิงค์นั้นซับซ้อนกว่ามากเมื่อเทียบกับการกําหนดเวลาที่เหมาะสมคุณจะต้องทําให้การเคลื่อนไหวของปากถูกต้อง ทุกคําที่พูดจะมีผลต่อใบหน้าของผู้พูด เช่น "O" จะสร้างรูปวงรีของปากอย่างเห็นได้ชัด ดังนั้นมันจะไม่เป็น "M" ซึ่งเพิ่มความซับซ้อนให้กับกระบวนการพากย์มากขึ้น
ขอแนะนําลิปซิงค์รุ่นใหม่ที่มีคุณภาพดีขึ้น!
ทีม ML ของเราได้ตัดสินใจที่จะปรับปรุงรูปแบบลิปซิงค์ที่มีอยู่ อะไรคือเหตุผลที่อยู่เบื้องหลังการตัดสินใจครั้งนี้ และมีอะไรใหม่ในเวอร์ชันนี้เมื่อเทียบกับเวอร์ชันเบต้า
มีความพยายามอย่างมากในการปรับปรุงโมเดล ได้แก่ :
- ปรับปรุงความแม่นยํา: เราได้ปรับปรุงอัลกอริทึม AI เพื่อวิเคราะห์และจับคู่รายละเอียดการออกเสียงของภาษาพูดได้ดีขึ้นซึ่งนําไปสู่การเคลื่อนไหวของริมฝีปากที่แม่นยํายิ่งขึ้นซึ่งซิงโครไนซ์อย่างใกล้ชิดกับเสียงในหลายภาษา
- เพิ่มความเป็นธรรมชาติ: ด้วยการผสานรวมข้อมูลการจับการเคลื่อนไหวขั้นสูงและปรับแต่งเทคนิคการเรียนรู้ของเครื่องของเราเราได้ปรับปรุงความเป็นธรรมชาติของการเคลื่อนไหวของริมฝีปากอย่างมีนัยสําคัญทําให้คําพูดของตัวละครดูลื่นไหลและเหมือนจริงมากขึ้น
- เพิ่มความเร็วและประสิทธิภาพ: เราปรับโมเดลให้เหมาะสมเพื่อประมวลผลวิดีโอได้เร็วขึ้นโดยไม่ลดทอนคุณภาพ ซึ่งช่วยให้เวลาตอบสนองเร็วขึ้นสําหรับโครงการที่ต้องการการแปลเป็นภาษาท้องถิ่น
- การรวมความคิดเห็นของผู้ใช้: เรารวบรวมคําติชมจากผู้ใช้เวอร์ชันเบต้าอย่างแข็งขันและรวมข้อมูลเชิงลึกของพวกเขาไว้ในกระบวนการพัฒนาเพื่อแก้ไขปัญหาเฉพาะและเพิ่มความพึงพอใจของผู้ใช้โดยรวม
โมเดล AI ของเราซิงโครไนซ์การเคลื่อนไหวของริมฝีปากกับเสียงที่แปลอย่างไร
ดิมา: "โมเดล AI ของเราทํางานโดยการรวมข้อมูลจากเสียงที่แปลเข้ากับข้อมูลเกี่ยวกับใบหน้าของบุคคลในเฟรม แล้วรวมสิ่งเหล่านี้เข้ากับผลลัพธ์สุดท้าย การผสานรวมนี้ช่วยให้มั่นใจได้ว่าการเคลื่อนไหวของริมฝีปากจะซิงโครไนซ์กับคําพูดที่แปลอย่างถูกต้องมอบประสบการณ์การรับชมที่ราบรื่น"
คุณสมบัติพิเศษใดที่ทําให้ Premium Lip-Sync เหมาะสําหรับเนื้อหาคุณภาพสูง
ดิมา: "Premium Lip-sync ได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการเนื้อหาคุณภาพสูงผ่านคุณสมบัติที่เป็นเอกลักษณ์ เช่น ความสามารถของ ลําโพงหลายตัว และการสนับสนุนความละเอียดสูง สามารถประมวลผลวิดีโอ ที่มีความละเอียดสูงสุด 2K เพื่อให้มั่นใจว่าคุณภาพของภาพจะคงอยู่โดยไม่ลดทอนประสิทธิภาพ นอกจากนี้คุณสมบัติลําโพงหลายตัวยังช่วยให้สามารถซิงโครไนซ์ริมฝีปากได้อย่างแม่นยําระหว่างลําโพงต่างๆภายในวิดีโอเดียวกันทําให้มีประสิทธิภาพสูงสําหรับการผลิตที่ซับซ้อนที่เกี่ยวข้องกับตัวละครหรือลําโพงหลายตัว คุณสมบัติเหล่านี้ทําให้ Premium Lipsync เป็นตัวเลือกอันดับต้น ๆ สําหรับครีเอเตอร์ที่มุ่งเป้าไปที่เนื้อหาระดับมืออาชีพ"
และคุณสมบัติ Lip-Sync Multi-Speaker คืออะไร?
คุณสมบัติลิปซิงค์แบบ Multi-Speaker ออกแบบมาเพื่อซิงค์การเคลื่อนไหวของริมฝีปากอย่างแม่นยํากับเสียงพูดในวิดีโอที่มีหลายคน เทคโนโลยีขั้นสูงนี้ระบุและแยกความแตกต่างระหว่างใบหน้าหลายหน้าในเฟรมเดียว เพื่อให้มั่นใจว่าการเคลื่อนไหวของริมฝีปากของแต่ละคนเคลื่อนไหวได้อย่างถูกต้องตามคําพูดของพวกเขา
ลิปซิงค์แบบหลายลําโพงทํางานอย่างไร:
- การจดจําใบหน้าในเฟรม: คุณลักษณะนี้จะจดจําใบหน้าทั้งหมดที่มีอยู่ในเฟรมวิดีโอในขั้นต้นโดยไม่คํานึงถึงจํานวน สามารถระบุตัวบุคคลได้ ซึ่งเป็นสิ่งสําคัญสําหรับการซิงโครไนซ์ริมฝีปากที่แม่นยํา
- การจับคู่เสียง: ในระหว่างการเล่นวิดีโอเทคโนโลยีจะจัดแนวแทร็กเสียงโดยเฉพาะกับบุคคลที่กําลังพูด กระบวนการจับคู่ที่แม่นยํานี้ช่วยให้มั่นใจได้ว่าการเคลื่อนไหวของเสียงและริมฝีปากจะซิงค์กัน
- การซิงโครไนซ์การเคลื่อนไหวของริมฝีปาก: เมื่อระบุบุคคลที่พูดได้แล้วคุณสมบัติลิปซิงค์จะวาดการเคลื่อนไหวของริมฝีปากใหม่สําหรับบุคคลที่พูดเท่านั้น บุคคลที่ไม่ได้พูดในเฟรมจะไม่มีการเปลี่ยนแปลงการเคลื่อนไหวของริมฝีปาก โดยคงสภาพธรรมชาติไว้ตลอดทั้งวิดีโอ การซิงโครไนซ์นี้ใช้กับลําโพงที่ใช้งานอยู่เท่านั้นทําให้มีประสิทธิภาพแม้ในที่ที่มีเสียงนอกหน้าจอหรือหลายใบหน้าในฉาก
- การจัดการภาพนิ่งของริมฝีปาก: ที่น่าสนใจคือเทคโนโลยีนี้ยังมีความซับซ้อนเพียงพอที่จะวาดการเคลื่อนไหวของริมฝีปากบนภาพนิ่งของริมฝีปากหากปรากฏในเฟรมวิดีโอซึ่งแสดงให้เห็นถึงความสามารถที่หลากหลาย
คุณสมบัติลิปซิงค์แบบ Multi-Speaker นี้ช่วยเพิ่มความสมจริงและการมีส่วนร่วมของผู้ชมในฉากที่มีลําโพงหลายตัวหรือการตั้งค่าวิดีโอที่ซับซ้อนโดยตรวจสอบให้แน่ใจว่ามีเพียงริมฝีปากของผู้พูดเท่านั้นที่เคลื่อนไหวตามเสียง วิธีการที่ตรงเป้าหมายนี้ช่วยรักษาโฟกัสที่ผู้พูดที่ใช้งานอยู่และรักษาพลวัตตามธรรมชาติของการโต้ตอบแบบกลุ่มในวิดีโอ
จากวิดีโอเดียวในภาษาใดก็ได้คุณสามารถสร้างวิดีโอส่วนบุคคลหลายร้อยรายการที่มีข้อเสนอมากมายในหลายภาษา ความเก่งกาจนี้ปฏิวัติวิธีที่นักการตลาดสามารถมีส่วนร่วมกับผู้ชมที่หลากหลายและทั่วโลกเพิ่มผลกระทบและการเข้าถึงเนื้อหาส่งเสริมการขาย
คุณสร้างสมดุลระหว่างคุณภาพและความเร็วในการประมวลผลใน Premium Lip-sync ใหม่อย่างไร
ดิมา: "การสร้างสมดุลระหว่างคุณภาพสูงกับความเร็วในการประมวลผลที่รวดเร็วใน Premium Lipsync เป็นสิ่งที่ท้าทาย แต่เรามีความก้าวหน้าอย่างมากในการเพิ่มประสิทธิภาพการอนุมานของโมเดลของเรา การเพิ่มประสิทธิภาพนี้ช่วยให้เราสามารถส่งออกคุณภาพที่ดีที่สุดเท่าที่จะเป็นไปได้ด้วยความเร็วที่เหมาะสม"
มีความไม่สมบูรณ์หรือความประหลาดใจที่น่าสนใจที่คุณพบขณะฝึกโมเดลหรือไม่?
นอกจากนี้ การทํางานกับการอุดตันบริเวณปากได้พิสูจน์แล้วว่าค่อนข้างยาก องค์ประกอบเหล่านี้ต้องการความใส่ใจในรายละเอียดและการสร้างแบบจําลองที่ซับซ้อนเพื่อให้ได้การแสดงที่สมจริงและแม่นยําในเทคโนโลยีลิปซิงค์ของเรา
ทีม ML รับรองความเป็นส่วนตัวและการปกป้องข้อมูลผู้ใช้เมื่อประมวลผลเนื้อหาวิดีโอได้อย่างไร
ดิมา: ทีม ML ของเราให้ความสําคัญกับความเป็นส่วนตัวและการปกป้องข้อมูลผู้ใช้เป็นอย่างมาก สําหรับรุ่น Lipsync เราไม่ใช้ข้อมูลลูกค้าในการฝึกอบรม จึงช่วยลดความเสี่ยงจากการโจรกรรมข้อมูลประจําตัว เราพึ่งพาข้อมูลโอเพนซอร์สที่มาพร้อมกับใบอนุญาตที่เหมาะสมสําหรับการฝึกอบรมโมเดลของเราเท่านั้น นอกจากนี้ โมเดลยังทํางานเป็นอินสแตนซ์แยกต่างหากสําหรับผู้ใช้แต่ละคน เพื่อให้มั่นใจว่าวิดีโอสุดท้ายจะถูกส่งไปยังผู้ใช้ที่ระบุเท่านั้น และป้องกันการพัวพันกับข้อมูล
หัวใจหลักของเราคือ เรามุ่งมั่นที่จะเพิ่มขีดความสามารถให้กับครีเอเตอร์ เพื่อให้มั่นใจว่ามีการใช้ AI อย่างมีความรับผิดชอบในการสร้างเนื้อหา โดยมุ่งเน้นที่สิทธิทางกฎหมายและความโปร่งใสทางจริยธรรม เรารับประกันว่าวิดีโอ รูปภาพ เสียง และสิ่งที่คล้ายกันของคุณจะไม่ถูกใช้โดยไม่ได้รับอนุญาตอย่างชัดแจ้ง เพื่อให้มั่นใจว่ามีการปกป้องข้อมูลส่วนบุคคลและเนื้อหาสร้างสรรค์ของคุณ
เราภูมิใจที่เป็นสมาชิกของ The Coalition for Content Provenance and Authenticity (C2PA) และ The Content Authenticity Initiative ซึ่งสะท้อนถึงความทุ่มเทของเราในด้านความสมบูรณ์ของเนื้อหาและความถูกต้องในยุคดิจิทัล นอกจากนี้ Maria Chmir ผู้ก่อตั้งและซีอีโอของเรายังได้รับการยอมรับในไดเรกทอรี Women in AI Ethics™ ซึ่งเน้นย้ําถึงความเป็นผู้นําของเราในแนวทางปฏิบัติด้าน AI ที่มีจริยธรรม
โอกาสในอนาคตสําหรับการพัฒนาเทคโนโลยีลิปซิงค์คืออะไร? มีพื้นที่เฉพาะที่ทําให้คุณตื่นเต้นเป็นพิเศษหรือไม่?
ดิมา: เราเชื่อว่าเทคโนโลยีลิปซิงค์ของเราสามารถใช้เป็นรากฐานสําหรับการพัฒนาไปสู่อวตารดิจิทัลต่อไป เรามองเห็นอนาคตที่ทุกคนสามารถสร้างและแปลเนื้อหาได้โดยไม่ต้องเสียค่าใช้จ่ายในการผลิตวิดีโอ
ในระยะสั้นภายในสองเดือนข้างหน้าเรามุ่งมั่นที่จะเพิ่มประสิทธิภาพและคุณภาพของโมเดลของเรา เป้าหมายของเราคือเพื่อให้แน่ใจว่าการทํางานที่ราบรื่นในวิดีโอ 4K และเพื่อปรับปรุงฟังก์ชันการทํางานด้วยวิดีโอที่แปลเป็นภาษาเอเชีย ความก้าวหน้าเหล่านี้มีความสําคัญเนื่องจากเรามุ่งมั่นที่จะขยายการเข้าถึงและการใช้งานเทคโนโลยีของเราปูทางไปสู่แอปพลิเคชันที่เป็นนวัตกรรมในการสร้างเนื้อหาดิจิทัล การทลายกําแพงภาษาไม่เคยใกล้ขนาดนี้มาก่อน! ลองใช้ฟังก์ชันลิปซิงค์ที่ได้รับการปรับปรุงและส่งความคิดเห็นของคุณเกี่ยวกับคุณสมบัตินี้ถึงเรา
คำถามที่ถามบ่อย
ลิปซิงค์มีให้บริการในแผน Creator Pro, Archive Pro, Business และ Enterprise
ลิปซิงค์หนึ่งนาทีที่สร้างขึ้นเท่ากับหนึ่งนาทีที่หักออกจากยอดนาทีทั้งหมดของคุณ
นาทีลิปซิงค์จะถูกหักเช่นเดียวกับเมื่อพากย์วิดีโอของคุณ
ลิปซิงค์จะถูกเรียกเก็บเงินแยกต่างหากจากการพากย์ ตัวอย่างเช่น ในการแปลและลิปซิงค์วิดีโอ 1 นาทีเป็น 1 ภาษา คุณต้องใช้เวลา 2 นาที
ก่อนสร้างลิปซิงค์ คุณจะสามารถทดสอบฟรี 1 นาทีเพื่อประเมินคุณภาพของเทคโนโลยี
ความเร็วของการสร้างลิปซิงค์ขึ้นอยู่กับจํานวนลําโพงในวิดีโอ ระยะเวลา คุณภาพ และขนาดของวิดีโอ
ตัวอย่างเช่น ต่อไปนี้คืออัตราการสร้างลิปซิงค์โดยประมาณสําหรับวิดีโอต่างๆ
วิดีโอที่มีลําโพงหนึ่งตัว
- วิดีโอ 4 นาที 1080p ≈ 29 นาที
- 10 นาที 1080p ≈ 2 ชั่วโมง 10 นาที
- วิดีโอ 4K 10 นาที ≈ 8 ชั่วโมง
วิดีโอที่มีลําโพง 3 ตัว:
- 10 นาที 1080p ≈ 5 ชั่วโมง 20 นาที
- อัปโหลดวิดีโอของคุณผ่านลิงก์จาก YouTube, Google ไดรฟ์ หรืออัปโหลดไฟล์โดยตรงจากอุปกรณ์ของคุณ เลือกภาษาเป้าหมายและคลิกที่ปุ่มแปล
- เพิ่มเสียงพากย์ลงในวิดีโอของคุณใน Rask AI ผ่านปุ่ม "พากย์วิดีโอ"
- หากต้องการตรวจสอบว่าวิดีโอของคุณเข้ากันได้กับลิปซิงค์หรือไม่ ให้คลิกปุ่ม "ตรวจสอบลิปซิงค์"
- หากเข้ากันได้ ให้ดําเนินการต่อโดยแตะปุ่มลิปซิงค์
- จากนั้นเลือกจํานวนใบหน้าที่คุณต้องการในวิดีโอของคุณไม่ว่าจะเป็น "1" หรือ "2+" จากนั้นแตะ "เริ่มลิปซิงค์" แค่หัวขึ้นนี้เกี่ยวกับจํานวนใบหน้าไม่ใช่ลําโพง