نکات برجسته از کارگاه هوش مصنوعی ما در عمل

دامانی براون
Damani Brown
ملیسا میچل
Melissa Mitchell
ماری ویانا
Mari Viana

منتشر شده: ۱۴ اکتبر ۲۰۲۵

با همکاری گروهی از استارت‌آپ‌ها در شهر نیویورک، ما یک کارگاه فنی «هوش مصنوعی در عمل» برگزار کردیم. هدف ساده بود: نشان دادن اینکه چگونه هوش مصنوعی سمت کلاینت و APIهای داخلی هوش مصنوعی می‌توانند مستقیماً در محصولاتشان برای سرعت بیشتر، حفظ حریم خصوصی و تجربه کاربری بهتر ادغام شوند.

در مجموع، ما میزبان ۲۴ توسعه‌دهنده از ۸ استارتاپ نوآور بودیم. جلسه صبح شامل گفتگوهایی از متخصصان محصول و مهندسی بود که پتانسیل عظیم مدل‌های متن‌باز و روی دستگاه و اهمیت استراتژیک آوردن مستقیم هوش مصنوعی به پلتفرم وب را پوشش می‌داد. سپس متخصصان فنی راهنمایی‌های عملی برای شروع کار با APIهای داخلی هوش مصنوعی ارائه دادند.

شرکت‌کنندگان این رویداد را بسیار ارزشمند یافتند، چرا که متوجه شدند استفاده از این APIها صرف نظر از دانش یادگیری ماشینی موجودشان آسان است. آنها همچنین از طریق آزمایش، موارد استفاده جدیدی را برای برنامه‌های خود کشف کردند. ما از اعتبارسنجی مستندات خود هیجان‌زده بودیم. حتی یک گروه به ما در شناسایی و بازتولید یک اشکال پیچیده کمک کرد تا بتوانیم آن را اصلاح کنیم.

شرکت‌کنندگان ما با موفقیت ۱۰ نمونه اولیه را با استفاده از هوش مصنوعی سمت کلاینت توسعه دادند. نگاهی به برخی از پروژه‌های آنها بیندازید و با تجربه آنها در این رویداد آشنا شوید.

تشخیص رویداد آداپتور با استفاده از Prompt API

هدف آداپتور ساخت «کنترل ماموریت برای زندگی روزمره ما است که حداکثر زمان آزاد را به جای زمان استفاده از صفحه نمایش فراهم می‌کند.» آنها یک افزونه اثبات مفهوم با دو قابلیت ساختند:

  • تشخیص رویداد هوشمند و هماهنگ که رویدادهای درون یک صفحه وب را هنگام مرور (کنسرت‌ها، رستوران‌ها، رویدادها) شناسایی می‌کند و سپس آنها را با زمینه شخصی از جمله در دسترس بودن تقویم شخصی، ترجیحات زندگی و سیگنال‌های اجتماعی در لحظه تطبیق می‌دهد و همه آنها را به صورت محلی پردازش می‌کند.
  • رتبه‌بندی مجدد محتوا در لحظه که ترتیب محتوای یک صفحه وب را بر اساس علایق شخصی شما و بنا به درخواست شما شخصی‌سازی می‌کند.

آداپتور از رابط برنامه‌نویسی کاربردی Prompt برای تجزیه، استدلال و فراخوانی ابزارها و از رابط برنامه‌نویسی کاربردی Writer برای تولید متن محلی استفاده می‌کرد.

«ما در حال انجام استدلال‌های پیچیده و گردش‌های کاری چند مرحله‌ای در لبه شبکه با بده‌بستان‌های محدود حریم خصوصی هستیم. این امر برنامه‌های هوش شخصی را که در زمانی که هر استنتاج به معنای ارسال داده‌ها در سراسر شبکه‌ها و در عین حال تعمیق محاسبات از راه دور بود، غیرعملی بودند، امکان‌پذیر می‌کند.» – دیلون پونزو، مهندس بنیانگذار آداپتور

رابط‌های برنامه‌نویسی کاربردی (API) هوش مصنوعی داخلی کروم، مدل‌های سبکی را فعال می‌کنند که داده‌ها را به صورت محلی پردازش می‌کنند و به طور پیش‌فرض حریم خصوصی را حفظ می‌کنند. آیدان کرانک و دیلون پونزو، مهندسان بنیانگذار آداپتور، این را به عنوان تاییدی بر فلسفه معماری خود می‌دانستند.

کرانک، که پیش از پیوستن به آداپتور، در AWS روی مهندسی یادگیری ماشین در مقیاس بزرگ کار می‌کرد، توضیح می‌دهد: «بیشتر افزونه‌های هوش مصنوعی، زمینه را ثبت کرده و آن را به جای دیگری ارسال می‌کنند. هوش مصنوعی داخلی کروم این مدل را معکوس می‌کند. داده‌های شخصی شما روی دستگاهتان باقی می‌ماند، اما شما تجربیات هوشمندی را که قبلاً غیرقابل دسترسی بودند، دریافت می‌کنید.»

آدام گتی، یکی از بنیانگذاران Adapter، که شرکت قبلی او، Ionic Security، پیشگام امنیت داده‌محور مستقل در مقیاس بزرگ بود، پیامدهای عمیق‌تری را می‌بیند: «حریم خصوصی ویژگی‌ای نیست که شما اضافه کنید؛ بلکه معماری‌ای است که شما انتخاب می‌کنید. هوش مصنوعی داخلی کروم این معماری را کاربردی می‌کند.»

همچنان که کروم این قابلیت‌ها را با پشتیبانی چندوجهی و APIهای غنی‌تر گسترش می‌دهد، مزیت رقابتی فقط به معنای رسیدن به فضای ابری نیست. برای هوش مصنوعی شخصی و خصوصی، مسئله پیشی گرفتن از آن در جایی است که منطقی به نظر می‌رسد.

زیرلایه تصاویر را با استفاده از Prompt API دسته‌بندی می‌کند تا تغییرات را بهبود بخشد.

ساب‌لایِر یک اپلیکیشن سرگرم‌کننده به نام Photoslider ساخته است که برای متحول کردن نحوه‌ی تعامل شما با تصاویرتان و ایجاد تغییرات در آن‌ها طراحی شده است.

برای استفاده از PhotoSlider، کاربر یک عکس آپلود می‌کند یا یک عکس جدید می‌گیرد و روی Analyze کلیک می‌کند. Prompt API این تصاویر را برای تجزیه و تحلیل به مدل ارسال می‌کند و از مدل می‌خواهد که 3 ویژگی کلیدی را شناسایی کند و به آنها مقداری از 1 تا 10 بدهد. برای مثال، یک ویژگی می‌تواند "traditional" یا "luminosity" باشد.

در قسمت فرانت‌اند، تصویر و اسلایدرها برای تنظیم مقادیر یا معرفی ویژگی‌های جدید با مقادیر سفارشی به کاربر ارائه می‌شود. درخواست‌های تغییرات و تصویر به هوش مصنوعی سمت سرور ارسال می‌شوند، به طوری که یک مدل بزرگتر با قابلیت‌های خروجی چندوجهی می‌تواند بر اساس مشخصات تغییر یافته، تصویر کاملاً جدیدی تولید کند. این فرآیند تکراری می‌تواند بی‌نهایت تکرار شود و به شما کنترل کامل می‌دهد تا زمانی که به تصویر ایده‌آل خود برسید.

اسکات ورنر ، مدیرعامل Sublayer، اشتیاق خود را ابراز کرد: «ما واقعاً علاقه‌مند به بررسی چگونگی استنتاج محلی بوده‌ایم. در دسترس قرار دادن آن به صورت پیش‌فرض در مرورگر دستگاه‌های کاربرانمان، بی‌نهایت آسان‌تر از تکیه بر کاربران برای پیمایش پیچیدگی‌های نصب مستقیم مدل‌ها است.»

Echo3D مدل‌های سه‌بعدی را به داده‌های غنی و قابل جستجو تبدیل می‌کند.

Echo3D یک پلتفرم و API برای شرکت‌ها فراهم می‌کند تا بتوانند مدل‌ها و اسکن‌های سه‌بعدی را به طور یکپارچه در تیم‌ها و سازمان‌های مختلف ذخیره، ایمن و به اشتراک بگذارند. خطوط لوله پیشرفته سه‌بعدی و متنی آنها، مدل‌های سه‌بعدی را به طور مؤثر به داده‌های غنی و قابل جستجو پردازش می‌کنند.

در این رویداد، echo3D ابزارهای تبدیل سه‌بعدی به متن به سه‌بعدی را توسعه داد که درک بصری از دارایی‌ها را افزایش می‌دهد. آنها از Prompt API برای خودکارسازی برچسب‌گذاری مدل، تشخیص تکرار و ساده‌سازی فهرست‌بندی و مستندسازی کتابخانه‌های گسترده سه‌بعدی استفاده کردند.

{
  "description": "A 3D model of a large, tan-colored sandcastle with one main
    tower, four small towers, and staircases wrapping around. The towers
    have multiple windows. There is a main gate.",
  "tags": ["sand","castle","gate","tan","tower","staircase"]
}

این به هر دارایی یک توضیح غنی، منسجم و قابل جستجو می‌دهد و در نتیجه کل کتابخانه کاربر را سازمان‌یافته‌تر و قابل دسترس‌تر می‌کند. علاوه بر این، در فضای ذخیره‌سازی صرفه‌جویی می‌کند و از تداخل نسخه‌بندی ناشی از فایل‌های تکراری جلوگیری می‌کند.

«تیم ما واقعاً برای این رویداد ارزش قائل بود. ما به ویژه از سهولت ادغام ویژگی‌های هوش مصنوعی در برنامه‌های وب با استفاده از هوش مصنوعی داخلی تحت تأثیر قرار گرفتیم. توانایی نمونه‌سازی اولیه و استقرار ویژگی‌های هوش مصنوعی امن و سمت کلاینت در چنین بازه زمانی کوتاهی یک مزیت قابل توجه بود.» – آلون گرینشپون ، مدیرعامل echo3D

Spot2 از تصاویر آپلود شده، فراداده‌های ساختاریافته ایجاد کرد.

اپلیکیشن Spot2 فهرست املاک و مستغلات برای اجاره در مکزیکوسیتی را ارائه می‌دهد. اغلب وقتی این املاک فهرست می‌شوند، فراداده‌های حیاتی و سایر اطلاعات ارزشمند در فهرست وجود ندارند. جزئیات بسیار متغیر هستند و به توجه تأمین‌کننده به جزئیات بستگی دارند. Spot2 تمام روز را صرف بهبود کیفیت داده‌ها با Prompt API کرد.

تیم آنها قابلیتی را توسعه داد تا به طور خودکار نحوه ساختاردهی فراداده‌های فهرست را پردازش و سازماندهی کند. این فرآیند در لحظه آپلود عکس رخ می‌دهد که به کامل بودن و ثبات کمک می‌کند. با انجام این کار در سمت کلاینت به جای سمت سرور، این قابلیت مقرون به صرفه است.

در صورت راه‌اندازی، این ویژگی نویدبخش تأثیر دوگانه‌ای خواهد بود: بهبود قابل توجه در کیفیت داده‌ها و کاهش قابل توجه هزینه‌های عملیاتی. «ما پیش‌بینی می‌کنیم که فهرست‌های با کیفیت بالاتر به افزایش نرخ تبدیل نیز منجر شوند.»

دفعه بعد به ما بپیوندید