تمرکز بر حریم خصوصی در هوش مصنوعی؛ معرفی مدل جدید گوگل با نام VaultGemma


گوگل بهتازگی از VaultGemma رونمایی کرده؛ مدلی آزمایشی که نشان میدهد میتوان سیستمهای هوش مصنوعی قدرتمندی ساخت که کمتر در معرض افشای ناخواسته اطلاعات حساس کاربران قرار دارند. این نوآوری میتواند نگاه گوگل و سایر غولهای فناوری را به موضوع حریم خصوصی در نسلهای آینده هوش مصنوعی تغییر دهد.
یکی از چالشهای اصلی در مدلهای زبانی بزرگ این است که گاهی بخشی از دادههای آموزشی خود را عیناً بازتولید میکنند. اگر این دادهها شامل اطلاعات شخصی یا محتوای دارای حق نشر باشد، خطر نقض حریم خصوصی و مسائل حقوقی جدی بهوجود میآید.
راهکار گوگل برای این مشکل، استفاده از روش «حریم خصوصی افتراقی» (Differential Privacy) است؛ روشی که با افزودن نویز کنترلشده به فرآیند آموزش، مانع از حفظ جزئیات دقیق دادهها توسط مدل میشود. مشکل این روش همواره افت کارایی و افزایش نیاز محاسباتی بوده است.
اما تیم تحقیقاتی گوگل موفق شد برای نخستینبار «قوانین مقیاسپذیری» را در مدلهای خصوصی کشف کند. آنها فرمولی ارائه دادهاند که تعادلی بهینه بین سه عامل ایجاد میکند: بودجه حریم خصوصی (میزان نویز)، بودجه محاسباتی (منابع پردازشی) و بودجه داده (حجم دادههای آموزشی). این دستاورد امکان استفاده مؤثرتر از منابع در توسعه مدلهای ایمنتر را فراهم میکند.
البته گوگل اعلام کرده این روش احتمالاً برای مدلهای عظیم و همهمنظوره که بیشترین کارایی در آنها اهمیت دارد، به کار نخواهد رفت. در عوض، کاربرد اصلی آن در مدلهای کوچکتر و تخصصی خواهد بود؛ مثل ابزارهایی که برای خلاصهسازی ایمیل یا پیشنهاد پاسخهای هوشمند طراحی میشوند.
VaultGemma که بر پایه مدل Gemma 2 ساخته شده و تنها ۱ میلیارد پارامتر دارد، یک مدل وزنباز (open-weight) محسوب میشود. این مدل هماکنون در پلتفرمهای Hugging Face و Kaggle برای دانلود در دسترس است.