فرارو-در اوایل این هفته، دانشمندان گوگل از ایجاد Transframer، یک ویژگی جدید که قادر به تولید ویدیوهای کوتاه بر اساس تصاویر ورودی است، خبر دادند.
لطفا فرار کنید این قابلیت ادای احترامی مدرن به مدل دیگری مبتنی بر هوش مصنوعی به نام Transformer است. Transformer که اولین بار در سال 2017 معرفی شد، یک معماری شبکه عصبی مدرن است که قادر به تولید متن با استفاده از شبیه سازی و مقایسه کلمات دیگر در یک جمله است.
این مدل از آن زمان در چارچوب های یادگیری عمیق استاندارد مانند TensorFlow و PyTorch گنجانده شده است. همانطور که Transformer قدیمی از زبان برای پیش بینی نتایج استفاده می کرد، فناوری جدید نیز از تصاویر متنی با ویژگی های مشابه برای ایجاد فیلم های کوتاه استفاده می کند. فیلمهای بهدستآمده بهطور عینی در سراسر تصویر حرکت میکنند و با وجود عدم وجود هندسه در تصویر ورودی، پرسپکتیوهای دقیقی ارائه میدهند.
فناوری جدید که با استفاده از پلتفرم هوش مصنوعی DeepMind توسعه یافته است، از تجزیه و تحلیل یک تصویر متنی برای استخراج قطعات کلیدی داده های تصویر و بازتولید تصاویر اضافی استفاده می کند. در طی این تجزیه و تحلیل، سیستم کادر بندی تصویر را تشخیص می دهد و به سیستم کمک می کند تا تصویر اطراف را پیش بینی کند. سپس از تصاویر متنی برای پیش بینی بیش از یک تصویر از زوایای مختلف استفاده می شود. این پیشبینیها احتمال فریمهای تصویر اضافی را بر اساس دادهها، حاشیهنویسیها و هر اطلاعات دیگری که از فریمهای پسزمینه موجود است، مدل میکنند.
این پلتفرم با ارائه قابلیت تولید ویدیوهای دقیق و معقول بر اساس مجموعه ای بسیار محدود از داده ها، گام بزرگی در فناوری ویدئو برداشته است. فناوری Transframer نتایج بسیار امیدوارکنندهای را در سایر وظایف و آزمایشهای مرتبط با ویدئو، مانند تقسیمبندی معنایی، طبقهبندی تصویر و پیشبینی جریان نوری ارائه میدهد. این فناوری در صنایع مبتنی بر ویدئو مانند بازی کاربردهای زیادی خواهد داشت.
محیطهای توسعه بازی مدرن بر تکنیکهایی مانند سایهزنی، نقشهبرداری بافت، عمق میدان و ردیابی پرتو تکیه دارند. فناوری هایی مانند Transframer می توانند راه جدیدی را برای استفاده از هوش مصنوعی و یادگیری ماشین در طراحی بازی به توسعه دهندگان ارائه دهند و در عین حال زمان، منابع و تحقیقات مورد نیاز برای این کار را کاهش دهند.
منبع: newsprepare