Hello GPT-4o

Hello GPT-4o

Open Ai اعلام کرد که مدل جدید پرچمدار خود با نام GPT-4o را معرفی کرده است که قادر است به صورت لحظه ای حوزه‌های صوت، تصویر و متن را استدلال کند.

GPT-4o  ( o به معنای omni) یک گام بزرگ به سوی تعامل طبیعی‌تر بین انسان و کامپیوتر است؛ این مدل قادر به پذیرش هر ترکیبی از متن، صدا، و تصویر به عنوان ورودی است و می‌تواند هر ترکیبی از متن، صدا، و تصویر را به عنوان خروجی تولید کند. 

زمان پاسخ به ورودی‌های صوتی حداکثر ۲۳۲ میلی‌ثانیه است، با میانگین ۳۲۰ میلی‌ثانیه که با زمان پاسخ انسانی در گفتگو مشابه است. این مدل در عملکرد متن به زبان انگلیسی و با کد GPT-4 Turbo تطابق دارد و با ارتقاء چشمگیر در عملکرد متن در زبان‌های غیر انگلیسی، همچنین سرعت بیشتر و ۵۰٪ ارزان‌تر در API، متمایز می‌شود. GPT-4o به ویژه در درک تصویر و صدا نسبت به مدل‌های موجود بهتر عمل می‌کند.

توانایی های مدل :

قبل از GPT-4o، شما می‌توانستید با استفاده از حالت صوتی با تاخیرهای متوسط ۲.۸ ثانیه برای GPT-3.5 و ۵.۴ ثانیه برای GPT-4، با چت‌جی‌پی‌تی گفتگو کنید. در این حالت، یک سیستم پردازشی از سه مدل جداگانه استفاده می‌کند: یک مدل ساده  که صدا را به متن تبدیل می‌کند، GPT-3.5 یا GPT-4 که متن را دریافت کرده و متن را خروجی می‌دهد، و یک مدل دیگر ساده که متن را به صدا تبدیل می‌کند. این فرآیند باعث می‌شود که منبع اصلی هوش، یعنی GPT-4، بسیاری از اطلاعات را از دست بدهد – به عنوان مثال، این مدل نمی‌تواند تنظیمات صدا، چندین سخنگو، یا صداهای پس‌زمینه را مشاهده کند، و همچنین نمی‌تواند خنده، آواز خوانی یا بیان احساسات را به خوبی بیان کند.

با استفاده از GPT-4o، یک مدل جدید را از صفر تا صد  آموزش داده شده که قادر است به صورت یکپارچه و در هر سه حوزه‌ی متن، تصویر و صدا عمل کند، به این معنا که تمام ورودی‌ها و خروجی‌ها توسط همان neural network پردازش می‌شوند. با توجه به اینکه GPT-4o اولین مدل است که تمام این حالت‌های ورودی را ترکیب می‌کند، هنوز در حال بررسی عمیق قابلیت‌ها و محدودیت‌های آن هستند.

ارزیابی مدل:

با توجه به ارزیابی‌های انجام‌شده بر روی شاخص‌های معمول، GPT-4o در عملکرد متن، استدلال و هوش کدنویسی به سطح GPT-4 Turbo می‌رسد، در حالی که در قابلیت‌های چندزبانه، صوتی وتصویری، عملکرد بالایی را ارائه می‌دهد.

امنیت و محدودیت‌های مدل:

ما مدل GPT-4o را ارزیابی کرده‌ایم و نتیجه نشان داد که این مدل به بالاترین سطح خطری که Medium نامیده می‌شود، نمی‌رسد. همچنین، با همکاری بیش از ۷۰ متخصص در زمینه‌های مختلف، مدل بررسی شده و از ریسک‌های احتمالی پیشگیری شده است. امروز می‌توانیم از ورودی‌ها و خروجی‌های متنی و تصویری این مدل استفاده کنیم، اما قصد داریم در آینده بهبودهای فنی و ایمنی را برای ارائه قابلیت‌های دیگر GPT-4o اعمال کنیم.

دسترسی به مدل:

ارائه‌ی GPT-4o، یک پیشرفت جدید در حوزه‌ی یادگیری عمیق، است. این مدل با امکانات بهتر و کارایی بیشتر در دسترس قرار گرفته است. همچنین، اعلام شده که قابلیت‌های متنی و تصویری این مدل از امروز در ChatGPT فعال شده و برای کاربران پلاس به صورت رایگان در دسترس است. همچنین، نسخه‌ی جدید حالت صوتی با GPT-4o نیز به زودی در دسترس قرار خواهد گرفت. این متن همچنین اشاره می‌کند که برنامه نویسان می‌توانند از این مدل در API استفاده کنند و این مدل نسبت به نسخه‌های قبلی خود سریع‌تر و همچنین ارزان‌تر است..

دیدگاه‌ها ۰
ارسال دیدگاه جدید