Hello GPT-4o
Open Ai اعلام کرد که مدل جدید پرچمدار خود با نام GPT-4o را معرفی کرده است که قادر است به صورت لحظه ای حوزههای صوت، تصویر و متن را استدلال کند.
GPT-4o ( o به معنای omni) یک گام بزرگ به سوی تعامل طبیعیتر بین انسان و کامپیوتر است؛ این مدل قادر به پذیرش هر ترکیبی از متن، صدا، و تصویر به عنوان ورودی است و میتواند هر ترکیبی از متن، صدا، و تصویر را به عنوان خروجی تولید کند.
زمان پاسخ به ورودیهای صوتی حداکثر ۲۳۲ میلیثانیه است، با میانگین ۳۲۰ میلیثانیه که با زمان پاسخ انسانی در گفتگو مشابه است. این مدل در عملکرد متن به زبان انگلیسی و با کد GPT-4 Turbo تطابق دارد و با ارتقاء چشمگیر در عملکرد متن در زبانهای غیر انگلیسی، همچنین سرعت بیشتر و ۵۰٪ ارزانتر در API، متمایز میشود. GPT-4o به ویژه در درک تصویر و صدا نسبت به مدلهای موجود بهتر عمل میکند.
توانایی های مدل :
قبل از GPT-4o، شما میتوانستید با استفاده از حالت صوتی با تاخیرهای متوسط ۲.۸ ثانیه برای GPT-3.5 و ۵.۴ ثانیه برای GPT-4، با چتجیپیتی گفتگو کنید. در این حالت، یک سیستم پردازشی از سه مدل جداگانه استفاده میکند: یک مدل ساده که صدا را به متن تبدیل میکند، GPT-3.5 یا GPT-4 که متن را دریافت کرده و متن را خروجی میدهد، و یک مدل دیگر ساده که متن را به صدا تبدیل میکند. این فرآیند باعث میشود که منبع اصلی هوش، یعنی GPT-4، بسیاری از اطلاعات را از دست بدهد – به عنوان مثال، این مدل نمیتواند تنظیمات صدا، چندین سخنگو، یا صداهای پسزمینه را مشاهده کند، و همچنین نمیتواند خنده، آواز خوانی یا بیان احساسات را به خوبی بیان کند.
با استفاده از GPT-4o، یک مدل جدید را از صفر تا صد آموزش داده شده که قادر است به صورت یکپارچه و در هر سه حوزهی متن، تصویر و صدا عمل کند، به این معنا که تمام ورودیها و خروجیها توسط همان neural network پردازش میشوند. با توجه به اینکه GPT-4o اولین مدل است که تمام این حالتهای ورودی را ترکیب میکند، هنوز در حال بررسی عمیق قابلیتها و محدودیتهای آن هستند.
ارزیابی مدل:
با توجه به ارزیابیهای انجامشده بر روی شاخصهای معمول، GPT-4o در عملکرد متن، استدلال و هوش کدنویسی به سطح GPT-4 Turbo میرسد، در حالی که در قابلیتهای چندزبانه، صوتی وتصویری، عملکرد بالایی را ارائه میدهد.
امنیت و محدودیتهای مدل:
ما مدل GPT-4o را ارزیابی کردهایم و نتیجه نشان داد که این مدل به بالاترین سطح خطری که Medium نامیده میشود، نمیرسد. همچنین، با همکاری بیش از ۷۰ متخصص در زمینههای مختلف، مدل بررسی شده و از ریسکهای احتمالی پیشگیری شده است. امروز میتوانیم از ورودیها و خروجیهای متنی و تصویری این مدل استفاده کنیم، اما قصد داریم در آینده بهبودهای فنی و ایمنی را برای ارائه قابلیتهای دیگر GPT-4o اعمال کنیم.
دسترسی به مدل:
ارائهی GPT-4o، یک پیشرفت جدید در حوزهی یادگیری عمیق، است. این مدل با امکانات بهتر و کارایی بیشتر در دسترس قرار گرفته است. همچنین، اعلام شده که قابلیتهای متنی و تصویری این مدل از امروز در ChatGPT فعال شده و برای کاربران پلاس به صورت رایگان در دسترس است. همچنین، نسخهی جدید حالت صوتی با GPT-4o نیز به زودی در دسترس قرار خواهد گرفت. این متن همچنین اشاره میکند که برنامه نویسان میتوانند از این مدل در API استفاده کنند و این مدل نسبت به نسخههای قبلی خود سریعتر و همچنین ارزانتر است..