متا سیستم جدیدی ایجاد کرده که به گفته این شرکت، قادر است صداهای باورپذیر در سبکهای مختلف تولید کند- اما به دلیل هراس از خطرهای احتمالی، آن را عرضه نمیکند.
این ابزار جدید وویسباکس (Voicebox) نام دارد و میتوان از آن برای ایجاد تولیداتی در سبکهای مختلف، صداهایی بهکلی جدید و همچنین تولید صدا با [استفاده از] نمونه استفاده کرد. این ابزار صداها را به شش زبان و همچنین با ابزارهای متنوع دیگری از جمله ابزار حذف صداهای اضافی [نویز] تولید میکند.
متا میگوید این یک پیشرفت بزرگ در سیستمهای صداسازی قبلی است که برای هر کار به آموزش خاصی نیاز داشتند. در حالی که میتوان به وویسباکس فقط صدای خام و آوانگاری داد و سپس از آن برای تغییر نمونه صوت استفاده کرد.
متا در اطلاعیهاش مدعی شد که این ابزار بسیار کارآمدتر از رقبای خود است. برای مثال، این ابزار در مقایسه با ۵.۹ درصد میزان خطای رقیبش والــئی (Vall-E)، میتواند کلماتی با میزان خطای ۱.۹ درصد تولید کند و این کار را با سرعت تا ۲۰ برابر بیشتر انجام دهد.
متا گفت که این ابزار، بر اساس مدل جدیدی به نام فلو مچینگ (Flow Matching) ساخته شده است. این مدل به سیستم اجازه میدهد از آواهایی که به دقت نامگذاری یا علامتگذاری نشدهاند، بیاموزد تا بتواند با دادههای متنوعتر و بیشتری آموزش ببیند.
بنا بر اعلام متا، وویسباکس روی ۵۰ هزار ساعت گفتار و متنهایی که از کتابهای صوتی رایگان و در دسترس عموم به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی آمده بود، آموزش داده شد. متا گفت اکنون که این ابزار آموزش دیده است، میتوان یک صدای ضبطشده به آن داد و جاهای خالی سخنرانی را بر اساس بافتار مفهوم پر کرد.
Read More
This section contains relevant reference points, placed in (Inner related node field)
این ابزار میتواند از تنها دو ثانیه صحبت برای ایجاد صدایی واقعی استفاده کند؛ برای نمونه میتوان از آن بهطور بالقوه برای صدا دادن به افرادی که قادر به صحبت کردن نیستند یا برای افزودن صدای افراد به بازیها استفاده کرد.
متا گفت این ابزار همچنین میتواند برای ترجمه قسمتی از گفتار از یک زبان به زبان دیگر بهگونهای استفاده شود که سبک را حفظ کند و این به افراد امکان میدهد حتی اگر به یک زبان صحبت نمیکنند، با همان سبک و سیاق و لحن صدای اصلی با یکدیگر حرف بزنند.
این ابزار همچنین میتواند در مواردی فنیتر، از جمله ویرایش صدا مفید باشد و از آن برای جایگزین کردن کلماتی که بهدرستی ضبط نشدهاند، استفاده کرد.
اما متا اعلام کرد خطرات [این ابزار] بهحدی بود که از این مدل رونمایی نخواهد کرد. متا به آسیبهای خاصی اشاره نکرد، اما گفت که «مانند سایر نوآوریهای جدید و قدرتمند هوش مصنوعی، میدانیم که این فناوری، ظرفیت سوءاستفاده و آسیبهای ناخواسته را به همراه دارد».
گزارشهای بسیاری هشدار دادهاند که چنین سیستمهایی ممکن است برای تقلید صدای افراد بدون رضایت آنها استفاده شوند. برای مثال با روشهایی که ممکن است آسیبزا باشند؛ از جمله ساخت ویدیوهای جعلی از رویدادهای خبری یا استفاده از صدای افراد برای جعل هویت حین تماسهای کلاهبرداری.
متا در بیانیهای گفت: «موارد استفاده هیجانانگیز زیادی برای مدلهای گفتار مولد وجود دارد اما به دلیل خطرات احتمالی سوءاستفاده، ما در حال حاضر مدل یا کد وویسباکس را در دسترس عموم قرار نمیدهیم.»
«در حالی که ما معتقدیم شفاف و روراست بودن با جامعه هوش مصنوعی و به اشتراک گذاشتن پژوهشهای خود در زمینه پیشرفتهترینها در هوش مصنوعی مهم است، ضروری است که میان شفافیت و مسئولیتپذیری هم تعادل مناسبی ایجاد شود.»
متا همچنین به مقاله جداگانهای اشاره کرد که در وبسایت این شرکت منتشر و در آن به تفصیل توضیح داده شد که این شرکت چگونه یک سیستم «بسیار کارآمد» ساخته است که میتواند بین صدای واقعی و صدای تولیدشده با وویسباکس تمایز قائل شود.
© The Independent