এই ডকুমেন্টটি হল ওয়েব অ্যাসেম্বলি এবং ওয়েবজিপিইউ বর্ধিতকরণের একটি ধারাবাহিকতা দ্রুততর ওয়েব এআই, পার্ট 1 । আমরা আপনাকে এই পোস্টটি পড়ার পরামর্শ দিচ্ছি বা চালিয়ে যাওয়ার আগে IO 24 এ আলোচনাটি দেখুন ৷
ওয়েবজিপিইউ
WebGPU দক্ষ, উচ্চ-সমান্তরাল গণনা সম্পাদন করতে ক্লায়েন্টের GPU হার্ডওয়্যারে ওয়েব অ্যাপ্লিকেশনগুলিকে অ্যাক্সেস দেয়। Chrome-এ WebGPU চালু করার পর থেকে, আমরা ওয়েবে কৃত্রিম বুদ্ধিমত্তা (AI) এবং মেশিন লার্নিং (ML) এর অবিশ্বাস্য ডেমো দেখেছি।
উদাহরণস্বরূপ, ওয়েব স্টেবল ডিফিউশন দেখিয়েছে যে সরাসরি ব্রাউজারে টেক্সট থেকে ইমেজ তৈরি করতে AI ব্যবহার করা সম্ভব। এই বছরের শুরুর দিকে, Google এর নিজস্ব Mediapipe টিম বৃহৎ ভাষার মডেল অনুমানের জন্য পরীক্ষামূলক সমর্থন প্রকাশ করেছে।
নিচের অ্যানিমেশনটি Gemma , Google-এর ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) দেখায়, যা সম্পূর্ণরূপে Chrome-এ ডিভাইসে চলে, বাস্তব সময়ে৷
মেটার সেগমেন্ট এনিথিং মডেলের নিম্নলিখিত আলিঙ্গন মুখের ডেমোটি সম্পূর্ণরূপে ক্লায়েন্টের উপর উচ্চ মানের অবজেক্ট মাস্ক তৈরি করে।
এগুলি কয়েকটি আশ্চর্যজনক প্রকল্প যা AI এবং ML-এর জন্য WebGPU-এর শক্তি প্রদর্শন করে৷ WebGPU এই মডেলগুলি এবং অন্যদেরকে CPU-তে যতটা সম্ভব তার চেয়ে উল্লেখযোগ্যভাবে দ্রুত চালানোর অনুমতি দেয়।
টেক্সট এম্বেডিংয়ের জন্য হাগিং ফেসের ওয়েবজিপিইউ বেঞ্চমার্ক একই মডেলের একটি সিপিইউ বাস্তবায়নের তুলনায় অসাধারণ গতি প্রদর্শন করে। একটি Apple M1 Max ল্যাপটপে, WebGPU 30 গুণ বেশি দ্রুত ছিল। অন্যরা রিপোর্ট করেছেন যে WebGPU বেঞ্চমার্ককে 120 গুণের বেশি ত্বরান্বিত করে।
AI এবং ML এর জন্য WebGPU বৈশিষ্ট্য উন্নত করা
WebGPU AI এবং ML মডেলগুলির জন্য দুর্দান্ত, যার বিলিয়ন প্যারামিটার থাকতে পারে, কম্পিউট শেডারগুলির সমর্থনের জন্য ধন্যবাদ৷ কম্পিউট শেডারগুলি GPU-তে চলে এবং বৃহৎ পরিমাণ ডেটাতে সমান্তরাল অ্যারে অপারেশন চালাতে সাহায্য করে।
গত বছরে WebGPU-তে অসংখ্য উন্নতির মধ্যে, আমরা ওয়েবে ML এবং AI পারফরম্যান্স উন্নত করার জন্য আরও ক্ষমতা যোগ করা অব্যাহত রেখেছি। সম্প্রতি, আমরা দুটি নতুন বৈশিষ্ট্য চালু করেছি: 16-বিট ফ্লোটিং পয়েন্ট এবং প্যাকড ইন্টিজার ডট পণ্য।
16-বিট ফ্লোটিং পয়েন্ট
মনে রাখবেন, এমএল ওয়ার্কলোডের নির্ভুলতার প্রয়োজন হয় না । shader-f16
হল একটি বৈশিষ্ট্য যা ওয়েবজিপিইউ শেডিং ভাষায় f16 টাইপ ব্যবহার করতে সক্ষম করে। এই ফ্লোটিং পয়েন্ট টাইপ স্বাভাবিক 32 বিটের পরিবর্তে 16 বিট নেয়। f16 এর একটি ছোট পরিসর রয়েছে এবং এটি কম সুনির্দিষ্ট, তবে অনেক ML মডেলের জন্য এটি যথেষ্ট।
এই বৈশিষ্ট্যটি কয়েকটি উপায়ে দক্ষতা বাড়ায়:
হ্রাসকৃত মেমরি : f16 উপাদান সহ টেনসরগুলি অর্ধেক স্থান নেয়, যা অর্ধেক মেমরির ব্যবহারকে হ্রাস করে। জিপিইউ কম্পিউটেশনগুলি প্রায়ই মেমরি ব্যান্ডউইথের উপর বাধাগ্রস্ত হয়, তাই অর্ধেক মেমরি প্রায়শই শেডারগুলিকে দ্বিগুণ দ্রুত চালানোর অর্থ হতে পারে। প্রযুক্তিগতভাবে, মেমরি ব্যান্ডউইথ সংরক্ষণ করতে আপনার f16 এর প্রয়োজন নেই। কম-নির্ভুলতা বিন্যাসে ডেটা সংরক্ষণ করা সম্ভব, এবং তারপর গণনার জন্য শেডারে এটিকে সম্পূর্ণ f32-এ প্রসারিত করুন। কিন্তু, GPU ডেটা প্যাক এবং আনপ্যাক করতে অতিরিক্ত কম্পিউটিং শক্তি ব্যয় করে।
হ্রাসকৃত ডেটা রূপান্তর : f16 ডেটা রূপান্তর হ্রাস করে কম গণনা ব্যবহার করে। কম নির্ভুলতা ডেটা সংরক্ষণ করা যেতে পারে এবং তারপরে রূপান্তর ছাড়াই সরাসরি ব্যবহার করা যেতে পারে।
বর্ধিত সমান্তরালতা : আধুনিক জিপিইউগুলি জিপিইউ-এর এক্সিকিউশন ইউনিটগুলিতে একই সাথে আরও মান ফিট করতে সক্ষম, এটিকে আরও বেশি সংখ্যক সমান্তরাল গণনা করতে দেয়। উদাহরণস্বরূপ, একটি জিপিইউ যা প্রতি সেকেন্ডে 5 ট্রিলিয়ন f32 ফ্লোটিং-পয়েন্ট অপারেশন সমর্থন করে প্রতি সেকেন্ডে 10 ট্রিলিয়ন f16 ফ্লোটিং-পয়েন্ট অপারেশন সমর্থন করতে পারে।
WebLLM হল একটি প্রকল্প যা একাধিক বড় ভাষার মডেল চালাতে পারে। এটি Apache TVM ব্যবহার করে, একটি ওপেন সোর্স মেশিন লার্নিং কম্পাইলার ফ্রেমওয়ার্ক।
আমি WebLLM কে Llama 3 আট-বিলিয়ন প্যারামিটার মডেল ব্যবহার করে প্যারিস ভ্রমণের পরিকল্পনা করতে বলেছি। ফলাফলগুলি দেখায় যে মডেলের প্রিফিল পর্বের সময়, f16 f32 এর চেয়ে 2.1 গুণ দ্রুত। ডিকোড পর্বের সময়, এটি 1.3 গুণ বেশি দ্রুত।
অ্যাপ্লিকেশনগুলিকে প্রথমে নিশ্চিত করতে হবে যে GPU অ্যাডাপ্টারটি f16 সমর্থন করে এবং এটি উপলব্ধ থাকলে, একটি GPU ডিভাইসের অনুরোধ করার সময় স্পষ্টভাবে এটি সক্ষম করুন৷ যদি f16 সমর্থিত না হয়, আপনি requiredFeatures
অ্যারেতে এটির অনুরোধ করতে পারবেন না।
// main.js
const adapter = await navigator.gpu.requestAdapter();
const supportsF16 = adapter.features.has('shader-f16');
if (supportsF16) {
// Use f16.
const device = await adapter.requestDevice({
requiredFeatures: ['shader-f16'],
});
initApp(device);
}
তারপর, আপনার WebGPU শেডারগুলিতে, আপনাকে অবশ্যই শীর্ষে স্পষ্টভাবে f16 সক্ষম করতে হবে। এর পরে, আপনি এটিকে অন্য যেকোন ফ্লোট ডেটা টাইপের মতো শেডারের মধ্যে ব্যবহার করতে পারবেন।
// my-shader.wgsl
enable f16;
struct Data {
values : array<vec4<f16>>
}
@group(0) @binding(0) var<storage, read> data : Data;
@compute @workgroup_size(64) fn main(@builtin(global_invocation_id) gid : vec3u) {
let value : vec4<f16> = data.values[gid.x];
...
}
প্যাকড পূর্ণসংখ্যা ডট পণ্য
অনেক মডেল এখনও মাত্র 8 বিট নির্ভুলতা (f16-এর অর্ধেক) দিয়ে ভাল কাজ করে। বিভাজন এবং বস্তুর স্বীকৃতির জন্য এটি এলএলএম এবং চিত্র মডেলগুলির মধ্যে জনপ্রিয়। এটি বলেছে, মডেলগুলির আউটপুট গুণমান কম নির্ভুলতার সাথে হ্রাস পায়, তাই 8-বিট কোয়ান্টাইজেশন প্রতিটি অ্যাপ্লিকেশনের জন্য উপযুক্ত নয়।
তুলনামূলকভাবে কিছু GPU নেটিভভাবে 8-বিট মান সমর্থন করে। এখানেই প্যাক করা পূর্ণসংখ্যা ডট পণ্য আসে। আমরা Chrome 123 এ DP4a পাঠিয়েছি।
আধুনিক জিপিইউ-তে দুটি 32-বিট পূর্ণসংখ্যা নেওয়ার জন্য বিশেষ নির্দেশাবলী রয়েছে, তাদের প্রতিটিকে 4টি পরপর-প্যাক করা 8-বিট পূর্ণসংখ্যা হিসাবে ব্যাখ্যা করুন এবং তাদের উপাদানগুলির মধ্যে ডট পণ্য গণনা করুন।
এটি এআই এবং মেশিন লার্নিংয়ের জন্য বিশেষভাবে উপযোগী কারণ ম্যাট্রিক্স গুণন কার্নেলগুলি অনেকগুলি, অনেকগুলি ডট পণ্যের সমন্বয়ে গঠিত।
উদাহরণস্বরূপ, একটি 8 x 1 ভেক্টর দিয়ে একটি 4 x 8 ম্যাট্রিক্সকে গুণ করি। আউটপুট ভেক্টরের প্রতিটি মান গণনা করার জন্য এটি কম্পিউট করার জন্য 4টি ডট পণ্য নেওয়া জড়িত; A, B, C, এবং D.
এই প্রতিটি আউটপুট গণনা করার প্রক্রিয়া একই; আমরা তাদের একটি কম্পিউটিং জড়িত পদক্ষেপ তাকান হবে. যেকোন গণনার আগে, আমাদের প্রথমে 8-বিট পূর্ণসংখ্যা ডেটাকে এমন একটি টাইপে রূপান্তর করতে হবে যার সাথে আমরা পাটিগণিত করতে পারি, যেমন f16। তারপর, আমরা একটি উপাদান-ভিত্তিক গুণ চালাই এবং অবশেষে, সমস্ত পণ্য একসাথে যোগ করি। মোট, সমগ্র ম্যাট্রিক্স-ভেক্টর গুণনের জন্য, আমরা ডেটা আনপ্যাক করার জন্য 40টি পূর্ণসংখ্যা ফ্লোট কনভার্সন করি, 32টি ফ্লোট গুণন এবং 28টি ফ্লোট সংযোজন করি।
আরও অপারেশন সহ বড় ম্যাট্রিক্সের জন্য, প্যাক করা পূর্ণসংখ্যা ডট পণ্যগুলি কাজের পরিমাণ কমাতে সাহায্য করতে পারে।
ফলাফল ভেক্টরের প্রতিটি আউটপুটের জন্য, আমরা WebGPU শেডিং ল্যাঙ্গুয়েজ বিল্ট-ইন dot4U8Packed
ব্যবহার করে দুটি প্যাকড ডট প্রোডাক্ট অপারেশন করি এবং তারপর একসাথে ফলাফল যোগ করি। মোট, সমগ্র ম্যাট্রিক্স-ভেক্টর গুণনের জন্য, আমরা কোনো ডেটা রূপান্তর করি না। আমরা 8টি প্যাকড ডট পণ্য এবং 4টি পূর্ণসংখ্যা যোগ করি।
আমরা বিভিন্ন ভোক্তা GPU-তে 8-বিট ডেটা সহ প্যাকড ইন্টিজার ডট পণ্যগুলি পরীক্ষা করেছি। 16-বিট ফ্লোটিং পয়েন্টের তুলনায়, আমরা দেখতে পাচ্ছি যে 8-বিট 1.6 থেকে 2.8 গুণ দ্রুত। যখন আমরা অতিরিক্তভাবে প্যাকড পূর্ণসংখ্যা ডট পণ্য ব্যবহার করি, তখন কর্মক্ষমতা আরও ভালো হয়। এটি 1.7 থেকে 2.9 গুণ দ্রুত।
wgslLanguageFeatures
সম্পত্তির সাথে ব্রাউজার সমর্থনের জন্য পরীক্ষা করুন। যদি GPU প্যাকড ডট পণ্যগুলিকে স্থানীয়ভাবে সমর্থন না করে, তাহলে ব্রাউজারটি তার নিজস্ব বাস্তবায়ন পলিফিল করে।
// main.js
if (navigator.gpu.wgslLanguageFeatures.has('packed_4x8_integer_dot_product')) {
// Use dot4U8Packed, dot4I8Packed builtin
// functions in the shaders.
}
নিম্নলিখিত কোড স্নিপেট পার্থক্য (পার্থক্য) একটি WebGPU শেডারে প্যাক করা পূর্ণসংখ্যা পণ্য ব্যবহার করার জন্য প্রয়োজনীয় পরিবর্তনগুলি হাইলাইট করে৷
আগে — একটি WebGPU শেডার যা ভেরিয়েবল `sum`-এ আংশিক ডট পণ্য জমা করে। লুপের শেষে, একটি ভেক্টর এবং ইনপুট ম্যাট্রিক্সের একটি সারির মধ্যে 'সমষ্টি' সম্পূর্ণ ডট পণ্যটিকে ধরে রাখে।
// my-dot-product.wgsl @compute @workgroup_size(64) fn main(@builtin(global_invocation_id) gid : vec3u) { var sum : f16; let start = gid.x * uniforms.dim; for (var i = 0u; i < uniforms.dim; i++) { let v1 : vec4<f16> = vector.values[i]; let v2 : vec4<f16> = matrix.values[start + i]; sum += dot(v1, v2); } }
পরে — প্যাক করা পূর্ণসংখ্যা ডট পণ্য ব্যবহার করার জন্য লেখা একটি WebGPU শেডার। প্রধান পার্থক্য হল ভেক্টর এবং ম্যাট্রিক্স থেকে 4টি ফ্লোট মান লোড করার পরিবর্তে, এই শেডারটি একটি একক 32-বিট পূর্ণসংখ্যা লোড করে। এই 32-বিট পূর্ণসংখ্যা চারটি 8-বিট পূর্ণসংখ্যা মানের ডেটা ধারণ করে। তারপর, আমরা দুটি মানের ডট পণ্য গণনা করতে dot4U8Packed
কল করি।
// my-dot-product.wgsl
@compute @workgroup_size(64)
fn main(@builtin(global_invocation_id) gid : vec3u) {
var sum : f32;
let start = gid.x * uniforms.dim;
for (var i = 0u; i < uniforms.dim; i++) {
let v1 : u32 = vector.values[i];
let v2 : u32 = matrix.values[start + i];
sum += dot4U8Packed(v1, v2);
}
}
16-বিট ফ্লোটিং পয়েন্ট এবং প্যাকড ইন্টিজার ডট পণ্য উভয়ই ক্রোমে পাঠানো বৈশিষ্ট্য যা AI এবং ML-কে ত্বরান্বিত করে। 16-বিট ফ্লোটিং পয়েন্ট উপলব্ধ থাকে যখন হার্ডওয়্যার এটিকে সমর্থন করে এবং Chrome সমস্ত ডিভাইসে প্যাকড ইন্টিজার ডট পণ্যগুলি প্রয়োগ করে৷
আপনি আরও ভাল পারফরম্যান্স অর্জন করতে আজই Chrome Stable-এ এই বৈশিষ্ট্যগুলি ব্যবহার করতে পারেন৷
প্রস্তাবিত বৈশিষ্ট্য
সামনের দিকে তাকিয়ে, আমরা আরও দুটি বৈশিষ্ট্য অনুসন্ধান করছি: উপগোষ্ঠী এবং সমবায় ম্যাট্রিক্স গুন।
সাবগ্রুপ বৈশিষ্ট্যটি SIMD-স্তরের সমান্তরালতাকে যোগাযোগ করতে বা সমষ্টিগত গণিত ক্রিয়াকলাপ সম্পাদন করতে সক্ষম করে, যেমন 16টির বেশি সংখ্যার জন্য একটি যোগফল। এটি দক্ষ ক্রস-থ্রেড ডেটা ভাগ করে নেওয়ার অনুমতি দেয়। সাবগ্রুপগুলি আধুনিক GPUs API-এ সমর্থিত, বিভিন্ন নাম সহ এবং সামান্য ভিন্ন আকারে।
আমরা সাধারণ সেটটিকে একটি প্রস্তাবে পাতিয়েছি যা আমরা WebGPU মানককরণ গ্রুপে নিয়েছি। এবং, আমরা একটি পরীক্ষামূলক পতাকার পিছনে Chrome-এ উপগোষ্ঠীগুলিকে প্রোটোটাইপ করেছি এবং আমাদের প্রাথমিক ফলাফলগুলিকে আলোচনায় নিয়ে এসেছি৷ মূল বিষয় হল কিভাবে পোর্টেবল আচরণ নিশ্চিত করা যায়।
কোঅপারেটিভ ম্যাট্রিক্স মাল্টিপ্লাই হল GPU-তে সাম্প্রতিক সংযোজন। একটি বড় ম্যাট্রিক্স গুণকে একাধিক ছোট ম্যাট্রিক্স গুণে ভাগ করা যেতে পারে। সমবায় ম্যাট্রিক্স গুন একক যৌক্তিক ধাপে এই ছোট স্থির-আকারের ব্লকগুলিতে গুণন সম্পাদন করে। সেই ধাপের মধ্যে, থ্রেডের একটি গ্রুপ ফলাফল গণনা করতে দক্ষতার সাথে সহযোগিতা করে।
আমরা অন্তর্নিহিত GPU API-এ সমর্থন জরিপ করেছি , এবং WebGPU মানককরণ গ্রুপের কাছে একটি প্রস্তাব উপস্থাপন করার পরিকল্পনা করেছি। সাবগ্রুপগুলির মতো, আমরা আশা করি যে বেশিরভাগ আলোচনা পোর্টেবিলিটির চারপাশে কেন্দ্রীভূত হবে।
সাবগ্রুপ ক্রিয়াকলাপগুলির কার্যকারিতা মূল্যায়ন করার জন্য, একটি বাস্তব অ্যাপ্লিকেশনে, আমরা MediaPipe-এ সাবগ্রুপগুলির জন্য পরীক্ষামূলক সমর্থনকে একীভূত করেছি এবং সাবগ্রুপ অপারেশনগুলির জন্য Chrome এর প্রোটোটাইপের সাথে এটি পরীক্ষা করেছি৷
আমরা বড় ভাষা মডেলের প্রিফিল ফেজের GPU কার্নেলে সাবগ্রুপ ব্যবহার করেছি, তাই আমি শুধুমাত্র প্রিফিল ফেজের জন্য স্পিডআপ রিপোর্ট করছি। একটি ইন্টেল জিপিইউতে, আমরা দেখতে পাই যে সাবগ্রুপগুলি বেসলাইনের চেয়ে আড়াই গুণ দ্রুত কাজ করে। যাইহোক, এই উন্নতিগুলি বিভিন্ন GPU তে সামঞ্জস্যপূর্ণ নয়।
পরবর্তী চার্ট একাধিক ভোক্তা GPU জুড়ে একটি ম্যাট্রিক্স গুণিত মাইক্রোবেঞ্চমার্ক অপ্টিমাইজ করতে সাবগ্রুপ প্রয়োগের ফলাফল দেখায়। বৃহৎ ভাষার মডেলে ম্যাট্রিক্স গুণন একটি ভারী ক্রিয়াকলাপ। ডেটা দেখায় যে অনেক GPU-তে, সাবগ্রুপগুলি বেসলাইনের চেয়ে দুই, পাঁচ এবং এমনকি তেরো গুণ গতি বাড়ায়। যাইহোক, লক্ষ্য করুন যে প্রথম GPU-তে, সাবগ্রুপগুলি মোটেও ভাল নয়।
GPU অপ্টিমাইজেশান কঠিন
শেষ পর্যন্ত, আপনার GPU অপ্টিমাইজ করার সর্বোত্তম উপায় ক্লায়েন্ট কি GPU অফার করে তার উপর নির্ভর করে। অভিনব নতুন GPU বৈশিষ্ট্যগুলি ব্যবহার করা সর্বদা আপনি যেভাবে আশা করতে পারেন তা পরিশোধ করে না, কারণ এতে অনেক জটিল কারণ জড়িত থাকতে পারে। একটি জিপিইউতে সেরা অপ্টিমাইজেশন কৌশল অন্য জিপিইউতে সেরা কৌশল নাও হতে পারে।
GPU-এর কম্পিউটিং থ্রেডগুলি সম্পূর্ণরূপে ব্যবহার করার সময় আপনি মেমরি ব্যান্ডউইথ কমাতে চান।
মেমরি অ্যাক্সেস প্যাটার্ন সত্যিই গুরুত্বপূর্ণ হতে পারে, খুব. কম্পিউট থ্রেডগুলি হার্ডওয়্যারের জন্য সর্বোত্তম প্যাটার্নে মেমরি অ্যাক্সেস করার সময় জিপিইউগুলি আরও ভাল পারফর্ম করে। গুরুত্বপূর্ণ: আপনি বিভিন্ন GPU হার্ডওয়্যারে বিভিন্ন কর্মক্ষমতা বৈশিষ্ট্য আশা করা উচিত। আপনাকে GPU এর উপর নির্ভর করে বিভিন্ন অপ্টিমাইজেশান চালানোর প্রয়োজন হতে পারে।
নিম্নলিখিত চার্টে, আমরা একই ম্যাট্রিক্স মাল্টিপ্লাই অ্যালগরিদম নিয়েছি, কিন্তু বিভিন্ন অপ্টিমাইজেশান কৌশলের প্রভাব এবং বিভিন্ন GPU তে জটিলতা এবং ভিন্নতা আরও প্রদর্শন করতে আরেকটি মাত্রা যোগ করেছি। আমরা এখানে একটি নতুন কৌশল প্রবর্তন করেছি, যাকে আমরা "Swizzle" বলব। সুইজল হার্ডওয়্যারের জন্য আরও অনুকূল হতে মেমরি অ্যাক্সেস প্যাটার্নগুলিকে অপ্টিমাইজ করে।
আপনি দেখতে পারেন যে মেমরি সুইজল একটি উল্লেখযোগ্য প্রভাব আছে; এটি কখনও কখনও উপগোষ্ঠীর চেয়েও বেশি প্রভাবশালী। GPU 6-এ, swizzle একটি 12x স্পিডআপ প্রদান করে, যখন সাবগ্রুপগুলি একটি 13x স্পিডআপ প্রদান করে। একত্রিত, তাদের একটি অবিশ্বাস্য 26x গতি আছে। অন্যান্য জিপিইউ-এর জন্য, কখনও কখনও সুইজল এবং সাবগ্রুপগুলি একত্রিত যেকোনটির চেয়ে ভাল পারফর্ম করে। এবং অন্যান্য জিপিইউতে, একচেটিয়াভাবে সুইজল ব্যবহার করা সর্বোত্তম কার্য সম্পাদন করে।
হার্ডওয়্যারের প্রতিটি অংশে ভালভাবে কাজ করার জন্য জিপিইউ অ্যালগরিদম টিউনিং এবং অপ্টিমাইজ করার জন্য অনেক দক্ষতার প্রয়োজন হতে পারে। কিন্তু সৌভাগ্যক্রমে মিডিয়াপিপ , Transformers.js , Apache TVM , ONNX রানটাইম ওয়েব এবং আরও অনেক কিছুর মতো উচ্চ স্তরের লাইব্রেরি ফ্রেমওয়ার্কগুলিতে প্রচুর প্রতিভাবান কাজ চলছে৷
লাইব্রেরি এবং ফ্রেমওয়ার্কগুলি বিভিন্ন জিপিইউ আর্কিটেকচার পরিচালনার জটিলতা এবং প্ল্যাটফর্ম-নির্দিষ্ট কোড তৈরি করার জন্য ভাল অবস্থানে রয়েছে যা ক্লায়েন্টে ভালভাবে চলবে।
Takeaways
ক্রোম টিম মেশিন লার্নিং ওয়ার্কলোডের জন্য ওয়েব প্ল্যাটফর্ম উন্নত করতে WebAssembly এবং WebGPU স্ট্যান্ডার্ড তৈরি করতে সাহায্য করে চলেছে। আমরা দ্রুত কম্পিউট প্রাইমিটিভে বিনিয়োগ করছি, ওয়েব স্ট্যান্ডার্ড জুড়ে আরও ভাল ইন্টারপ, এবং নিশ্চিত করছি যে বড় এবং ছোট উভয় মডেলই ডিভাইস জুড়ে দক্ষতার সাথে চলতে সক্ষম।
আমাদের লক্ষ্য হল প্ল্যাটফর্মের ক্ষমতাকে সর্বাধিক করা এবং ওয়েবের সেরাটি ধরে রাখা: এটির নাগাল, ব্যবহারযোগ্যতা এবং বহনযোগ্যতা। এবং আমরা একা এই কাজ করছি না. আমরা W3C-এ অন্যান্য ব্রাউজার বিক্রেতা এবং অনেক ডেভেলপমেন্ট পার্টনারদের সাথে সহযোগিতায় কাজ করছি।
আমরা আশা করি আপনি WebAssembly এবং WebGPU এর সাথে কাজ করার সময় নিম্নলিখিতটি মনে রাখবেন:
- AI অনুমান এখন ওয়েবে, ডিভাইস জুড়ে উপলব্ধ। এটি ক্লায়েন্ট ডিভাইসে চালানোর সুবিধা নিয়ে আসে, যেমন সার্ভারের কম খরচ, কম লেটেন্সি এবং বর্ধিত গোপনীয়তা।
- যদিও আলোচিত অনেক বৈশিষ্ট্য প্রাথমিকভাবে ফ্রেমওয়ার্ক লেখকদের জন্য প্রাসঙ্গিক, আপনার অ্যাপ্লিকেশনগুলি খুব বেশি ওভারহেড ছাড়াই উপকৃত হতে পারে।
- ওয়েব মান তরল, এবং বিকশিত, এবং আমরা সবসময় প্রতিক্রিয়া খুঁজছি. WebAssembly এবং WebGPU-এর জন্য আপনার শেয়ার করুন।
স্বীকৃতি
আমরা Intel ওয়েব গ্রাফিক্স টিমকে ধন্যবাদ জানাতে চাই, যারা WebGPU f16 এবং প্যাকড ইন্টিজার ডট প্রোডাক্ট ফিচার চালানোর ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা পালন করেছিল। আমরা অন্যান্য ব্রাউজার বিক্রেতাদের সহ W3C-তে WebAssembly এবং WebGPU ওয়ার্কিং গ্রুপের অন্যান্য সদস্যদের ধন্যবাদ জানাতে চাই।
অবিশ্বাস্য অংশীদার হওয়ার জন্য Google এবং ওপেন সোর্স সম্প্রদায় উভয়েই AI এবং ML টিমকে ধন্যবাদ৷ এবং অবশ্যই, আমাদের সব সতীর্থ যারা এই সব সম্ভব করে তোলে।