سیستم های توصیه گر
سیستم توصیه گر یا پیشنهاد گر (واژه سیستم گاهی با واژه های مترادفی مثل؛ “پلتفرم” یا “موتور” جایگزین می شود) زیر مجموعه ای از سامانه ی پالایش اطلاعات است که بدنبال پیش بینی “امتیاز” یا “اولویتی” است، که کاربر به یک آیتم (داده، اطلاعات، کالا و …) خواهد داد.
در سال های اخیر سیستم های توصیه گر بسیار متداول شده و در حوزه های مختلفی مورد استفاده قرار گرفته اند. برخی از کاربرد های معروف آن در موارد زیر است:
فیلم های سینمایی، موسیقی، اخبار، کتابها، مقالات تحقیقاتی، جست و جوی پرسش ها، تگ های اجتماعی و غالب محصولات.
علاوه بر این سیستم های توصیه گر برای؛ متخصصان، گروه های همکاران، طنز پردازیها، رستورانها، خدمات مالی، بیمه عمر، مسائل عاطفی (قرار و مدارهای آنلاین) و صفحات تویتر نیز ارائه شده است.
بررسی اجمالی
معمولاً سیستم های توصیه گر، لیستی از پیشنهادات را به یکی از دو صورت زیر ارائه می دهند:
از طریق پالایش گروهی و محتوا محور (Collaborative and Content-based filtering) یا رهیافت شخصیت محور (Personality-based approach)
رهیافت های پالایش گروهی، مدلی ایجاد می کنند که این مدل بر اساس رفتار گذشته کاربر (آیتم هایی که قبلاً خریداری یا انتخاب کرده و یا امتیازاتی که به آیتم ها داده است) و نیز تصمیمات مشابهی که توسط کاربران دیگر گرفته شده است، میباشد. سپس با استفاده از مدل ایجاد شده، آیتم هایی که ممکن است مورد علاقه ی کاربر باشد، معرفی می گردد. رهیافت های پالایش محتوا محور، از یک سری مشخصات مجزای یک آیتم برای پیشنهاد آیتم های دیگر با ویژگی های مشابه، استفاده می کند. این رهیافت ها اغلب با یکدیگر ترکیب می شوند (سیستم های توصیه گر هیبرید).
رهیافت شخصیت محور، تمایلات کاربر به کالا و خدمات را از شخصیت وی نتیجه می گیرد.
تفاوت های بین پالایش گروهی و پالایش محتوا محور را می توان با مقایسه ی دو سیستم توصیه گر موسیقی نشان داد؛ Last.fm و Pandora Radio.
Last.fm با بررسی نوازندگان و تراکهایی که کاربر قبلاً گوش کرده است و مقایسه ی آنها با آنچه که دیگر کاربران به آن گوش کرده اند، مجموعه ای از آهنگ های پیشنهادی را ارائه می دهد.
Last.fm تراکهایی را خواهد نواخت، که در کتابخانه ی کاربر (مجموعه ی اهنگ های کاربر) موجود نیستند ولی دیگر کاربران با علایق مشابه به آنها گوش داده اند. از آنجا که این رهیافت، رفتار کاربران را تحت تأثیر قرار می دهد، نمونه ای از تکنیک پالایش گروهی است.
Pandora از خصوصیات یک آهنگ یا هنرمند ( زیر مجموعه ای مشتمل بر 400 ویژگی که توسط “پروژه ژنوم موسیقی” تهیه شده است) برای ایجاد ایستگاهی از موسیقی ها با ویژگی های مشابه استفاده می کند.
واکنش کاربر جهت پالایش نتایج ایستگاه استفاده می گردد، زمانیکه کاربر یک آهنگ را نمی پسندد ویژگی های آن از تاکید Pandora خارج و زمانیکه کاربر آهنگی را می پسندد، ویژگی های آن آهنگ مورد تأکید قرار می گیرند. Pandora نمونه ای از رهیافت محتوا محور است.
هر نوع سیستمی نقاط ضعف و قوت خودش را دارد. در مثال بالا Last.fm جهت ارائه پیشنهادات دقیق، نیازمند حجم بالایی از اطلاعات در مورد کاربر است. نکته ضعف ذکر شده نمونه ای از “مشکل استارت سرد” ( همانند مشکلی که هنگام استارت زدن به موتور سرد پیش می آید) است و در سیستم های پالایش گروهی امری عادیست. در حالیکه Pandora به اطلاعات بسیار کمی برای آغاز کار خود نیاز دارد، ولی میدان عمل آن بسیار محدود است (بعنوان مثال؛ تنها قادر به ارائه پیشنهاداتیست که شبیه آهنگ اصلی باشند).
سیستم های توصیه گر جایگزین سودمندی برای الگوریتم های جست و جو هستند چرا که به کاربران کمک می کنند تا آیتم هایی را بیابند که ممکن بود خودشان نتوانند آنها را پیدا کنند. سیستم های توصیه گر با استفاده از موتورهای جست و جو، به طور جالبی داده های جدید را فهرست می کنند.
مونتانر نخستین نمایه کلی از سیستم های توصیه گر را از منظر یک عامل هوشمند ارائه داد. آدوماویسیوس (Adomavicius) نمایی جدید از سیستم های توصیه گر را ارائه کرد. هرلاکر (Herlocker) تکنیک های ارزیابی سیستم های توصیه گر را مورد بررسی قرار داد و بیل و همکارانش مشکلات ارزیابی های آفلاین را مورد بحث و بررسی قرار دادند. بیل و همکاران، پیشینه ای از تحقیقات در مورد سیستم های کنترل و چالش های موجود را ارائه دادند.
سیستم های توصیه گر موضوع تحقیقاتی فعال در زمینه های “کاوش اطلاعات” و “یادگیری ماشینی” هستند. RecSys، SIGIR و KDD از جمله کنفرانس هایی هستند که تحقیقات در زمینه سیستم های توصیه گر را مورد توجه قرار دادند.
رهیافت ها
رهیافتی که در طراحی سیستم های توصیه گر استفاده وسیعی دارد، رهیافت پالایش گروهیست. روش های پالایش گروهی، بر جمع آوری و آنالیز حجم بالایی از اطلاعات در مورد رفتارها، فعالیت ها و تمایلات کاربران و نیز پیش بینی پسند کاربران، بر اساس شباهت خواسته های آنها با دیگران، مبتنی هستند. مهم ترین مزیت پالایش گروهی اینست که وابسته به محتوای قابل تحلیل برای ماشین نیست و از این رو به درستی می تواند آیتم های پیچیده ای همچون فیلم های سینمایی را بدون نیاز به درک خود آیتم، توصیه کند. الگوریتم های زیادی در اندازه گیری تشابه کاربر یا تشابه آیتم در سیستم های توصیه گر مورد استفاده قرار می گیرند. برای مثال؛ “رهیافت نزدیک ترین همسایه k ” (k-nearest neighbor (k-NN)) و ضریب همبستگی پیرسون که نخستین بار توسط آلن اجرا شد.
پالایش گروهی بر اساس این اندیشه استوار است: افرادی که در گذشته موافق بوده اند، در آینده نیز موافق خواهند بود و انواع اقلامی را خواهند پسندید که در گذشته نیز مورد دلخواهشان بوده است.
موقعیکه یک مدل بر اساس رفتار کاربر ایجاد می گردد، تمایزی بین فرم های صریح و ضمنی جمع آوری داده ها پیش می آید.
نمونه هایی از جمع آوری داده ها به صورت “صریح” شامل موارد زیر است:
از کاربر خواسته شود تا آیتم را در معیاری متغیر ارزیابی کند.
از کاربر خواسته شود تا جست و جو کند.
از کاربر خواسته شود تا مجموعه ای از آیتم ها را بر اساس علاقه اش رتبه بندی کند.
دو آیتم به کاربر نشان داده شده و از وی خواسته شود یکی از آنها را انتخاب کند.
از کاربر خواسته شود تا لیستی از آیتم هایی را که دوست دارد، ایجاد کند.
نمونه ای از جمع آوری داده ها به صورت “ضمنی” شامل موارد زیر می باشد:
مشاهده آیتم هایی که کاربر در فروشگاه آنلاین به آنها می نگرد.
تحلیل آیتم هایی که کاربر ملاحظه کرده است.
حفظ سابقه ی خرید های آنلاین کاربر.
فراهم کردن لیستی از آیتم هایی که کاربر در رایانه خود به آنها گوش داده یا تماشا کرده است.
تحلیل شبکه اجتماعی کاربر و یافتن موارد مشابهی که وی آنها را پسندیده و یا نپسندیده است.
سیستم توصیه گر اطلاعات جمع آوری شده را با اطلاعات جمع آوری شده مشابه و غیر مشابه از جانب دیگران، مورد مقایسه قرار داده و لیستی از آیتم های پیشنهادی برای کاربر را محاسبه می کند (در مقاله سیستم های پالایش گروهی ویکی پدیا، چندین مورد از مثالهای تجاری و غیر تجاری فهرست شده است).
یکی از معروف ترین مثالهای پالایش گروهی، پالایش “آیتم به آیتم” است (افرادی که کالای x را می خرند کالای y را نیز می خرند) الگوریتمی که توسط سیستم توصیه گر Amazon.com عمومیت یافت.
نمونه های دیگر شامل:
- همانطور که توضیح داده شد، fm آهنگ هایی را که پیشنهاد می دهد بر اساس مقایسه ای از عادت های شنیداری کاربران مشابه است.
- Facebook، My Space، Linked in و دیگر شبکه های اجتماعی از پالایش گروهی برای پیشنهاد دوستان جدید، گروهها و دیگر روابط اجتماعی استفاده می کنند (با بررسی شبکه ارتباطات بین کاربر و دوستانش). تویتر از تعداد زیادی سیگنال و محاسبات حافظه ای استفاده می کند تا به کاربرانش پیشنهاد دهد که چه کسی را فالو کنند.
رهیافت های پالایش گروهی از سه مشکل رنج می برند: استارت سرد (cold start)، مقیاس پذیری (Scalability) و پراکندگی (Sparsity).
استارت سرد: این سیستم ها برای ارائه پیشنهادات دقیق و صحیح، اغلب به حجم بالایی از اطلاعات کاربر نیاز دارند.
مقیاس پذیری: در بسیاری از فضاهایی که این سیستم ها پیشنهادات را ارائه می دهند، میلیون ها کاربر و محصول حضور دارند. از این رو برای محاسبه پیشنهادات، به قدرت محاسباتی بالایی نیاز است.
پراکندگی: تعداد آیتم هایی که در سایت های اصلی تجارت الکترونیک فروخته شده اند، بسیار بسیار زیاد است. فعالترین کاربران نیز تنها زیر مجموعه ی کوچکی از تمامی پایگاه های داده را ارزیابی خواهند کرد. به این خاطر است، که حتی محبوبترین آیتم ها نیز امتیازات پایینی دارند.
نوع ویژه ای از الگوریتم پالایش گروهی از فاکتور ماتریس استفاده می کند، یک “تکنیک تقریب رتبه پایین ماتریس” (low-rank matrix approximation technique).
روش های پالایش گروهی به دو دسته مبتنی بر حافظه و پالایش گروهی مبتنی بر مدل تقسیم می شوند.
نمونه ی شناخته شده ی رهیافت های مبتنی بر حافظه، “الگوریتم کاربر محور” (user-based algorithm) و نمونه ای از رهیافت های مبتنی بر مدل، “توصیه گر کرنل – نقشه” (Kernel-Mapping) است.
پالایش محتوا محور
دیگر رهیافت متداولی که در طراحی سیستم های توصیه گر استفاده می شود، پالایش محتوا محور است. روش های پالایش محتوا محور بر اساس توصیفی از آیتم و پروفایلی از سلیقه ی کاربر، استوار هستند. در یک سیستم توصیه گر محتوا محور، از کلمات کلیدی برای توصیف آیتم ها استفاده شده و برای نشان دادن نوع آیتمی که کاربر دوست دارد، پروفایل وی ساخته می شود. به عبارت دیگر، این الگوریتم ها در تلاش هستند تا آیتم هایی را پیشنهاد دهند که شبیه به اقلامی باشد که کاربر پیش از این آنها را پسندیده بود ( یا اقلامی که در حال حاضر بررسی کرده است). آیتم های کاندید با آیتم هایی که قبلاً توسط کاربر ارزیابی شده بودند، مورد مقایسه قرار گرفته و آیتم هایی که بهترین انطباق ها را با معیارهای کاربر داشته باشند، پیشنهاد می گردند. این رهیافت در بازیابی اطلاعات و بررسی پالایش اطلاعات ریشه دوانیده است. برای خلاصه کردن مشخصات آیتم ها در سیستم، یک الگوریتم نمایش آیتم به کار برده می شود. الگوریتمی که استفاده ی گسترده ای دارد، نمایش فراوانی تی اف-آی دی اف (tf-idf representation) است (مدل “فضا برداری” نیز گفته می شود).
برای ایجاد پروفایل کاربر، سیستم بایستی بیشترین تمرکز خود را بر دو نوع از اطلاعات معطوف کند: 1. الگویی از سلیقه ی کاربر 2. تاریخچه ای از عکس العمل کاربر با سیستم توصیه گر.
اساساً این روش ها با استفاده از پروفایل آیتم (بعبارتی مجموعه ویژگی ها و مشخصات)، ویژگی های آن را در سیستم ترسیم می کنند. سیستم، یک پروفایل محتوا محور بر اساس بردار وزنی ویژگی های آیتم برای کاربر ایجاد می کند. وزن ها، اهمیت هر ویژگی برای کاربر را نشان می دهند، و می توان از طریق مؤلفه های رتبه بندی شده و بهره گیری از تکنیک های گوناگون، آنها را مورد محاسبه قرار داد. رهیافت های ساده، از میانگین ارزش های مؤلفه های رتبه بندی شده استفاده می کنند، در حالیکه دیگر رهیافت ها از روش های پیچیده ی یادگیری ماشینی همچون؛ دسته بندی بندی کننده های نایو بیز (Bayesian Classifiers)، دسته بندی بندی کننده های نایو بیز (Bayesian Classifiers)، درخت های تصمیم (Decision trees) و شبکه های عصبی مصنوعی (Artificial neural networks) برای تخمین احتمال آنکه کاربر چه آیتمی را پسند خواهند کرد، بهره می برند.
بازخورد مستقیم از جانب کاربر (معمولا در غالب “Like” یا “Dislike”) می تواند برای اختصاص وزن بالا یا پایین بر اهمیت خصوصیات معین، مورد استفاده قرار گیرد (با استفاده از طبقه بندی راکچیو یا دیگر تکنیک های مشابه).
مسئله کلیدی در رابطه با پالایش محتوا محور اینست که آیا سیستم قادر است از طریق اقداماتی که کاربر در رابطه با یک محتوا نشان می دهد و بهره گیری از آنها در تقابل با انواع محتوا ها، پی به تمایلات کاربر ببرد. زمانیکه سیستم محدود به توصیه ی محتواهایی است که مشابه با آنچه که کاربر قبلاً استفاده کرده است باشد، در این حالت ارزش سیستم توصیه گر در مقایسه با زمانیکه سیستم از سرویس های دیگر نیز برای توصیه محتوا استفاده می کند، کم تر است. برای مثال، توصیه ی مقالات خبری بر اساس مرور اخبار سودمند است، ولی زمانیکه آهنگ، ویدئو، محصولات، مباحث و … از سرویس های مختلف و البته بر اساس مرور اخبار توصیه گردد، به مراتب پربارتر و سودمندتر خواهد بود.
همانطور که قبلاً نیز توضیح داده شد، Pandora Radio یک مثال معروف از سیستم توصیه گر محتوا محور است که آهنگ های پیشنهادی آن مشابه با ویژگی های آهنگی است که بعنوان بذر اولیه توسط خود کاربر ایجاد شده است. تعداد بسیار زیادی از سیستم های توصیه گر محتوا محور وجود دارد که پیشنهاد دهنده فیلم هستند که چند تا از آنها عبارتند از: Rotten Tomatoes، Internet Movie Database، Jinni، Rovi Corporation، Jaman and See This Next (http://www.seethisnext.com/). سیستم های توصیه گر مرتبط با سند و مدرک، هدفشان توصیه ی مدارک برای آگاهی دادن به کارگران است، مثل؛ Noggle(https://www.noggle.online/knowledge-base/document-recommendation) و Google Springboard.
سیستم های توصیه گر هیبرید
بررسی اخیر حاکی از آنست که رهیافت هیبرید (ترکیبی از پالایش گروهی و پالایش محتوا محور) در برخی موارد می تواند بسیار مؤثر واقع گردد. رهیافت های هیبرید از چندین راه قابل اجرا هستند، با ایجاد جداگانه پیش بینی های محتوا محور و گروه محور و نهایتاً ترکیب آنها با هم، افزودن قابلیت های رهیافت محتوا محور به گروه محور (یا بالعکس)، یا یکی کردن رهیافت ها در یک مدل . چندین مطالعه ی تجربی، اجرای سیستم هیبرید را با نوع خالص سیستم های گروه محور و محتوا محور مورد مقایسه قرار داده است، و نشان داده شده که روش های هیبرید پیشنهادات دقیق تری را ارائه می دهند. همچنین، این روش ها می توانند برای غلبه بر مسائل روتین سیستم های توصیه گر مثل استارت سرد و پراکندگی مورد استفاده قرار گیرند.
نت فلیکس مثال خوبی از استفاده ی سیستم های توصیه گر هیبرید است. آنها با مقایسه ی عادات دیداری و جست و جویی کاربران مشابه (یعنی پالایش گروهی) و نیز پیشنهاد فیلم هایی که دارای ویژگی های مشترک با مواردی هستند که کاربر به انها امتیاز بالایی داده است، پیشنهادات را ارائه می دهند.
انواعی از تکنیک ها به عنوان پایه و اساس سیستم های توصیه گر، مطرح گردیده است: گروهی، محتوا محور، دانش محور و تکنیک های جمعیت شناختی. هر یک از این تکنیک ها کمبودهای شناخته شده ای دارند، مثل مشکل معروف استارت سرد برای سیستم های پالایش گروهی و محتوا محور (با کابران جدید که به اقلام کمی امتیاز داده اند، چه کند!؟) و تنگنای مهندسی دانش در رهیافت دانش محور. سیستم توصیه گر هیبرید، سیستمی است که چند رهیافت را با هم ترکیب می کند تا به همیاری بین آنها دست یابد.
- گروهی: سیستم، تنها با استفاده از اطلاعاتی که از طریق پیشینه ی امتیاز دهی کاربران بدست آمده است، پیشنهادات را ارائه می دهد. سیستم های گروهی، کاربران همتا با تاریخچه ی مشابه امتیازدهی با کاربر آنلاین را در مجاور هم قرار داده و با استفاده از این همسایگی اقدام به ارائه پیشنهادات می کند.
- محتوا محور: سیستم، پیشنهادات را از دو منبع ارائه می دهد: مشخصات مرتبط با محصول و امتیازاتی که کاربر به آنها داده است. توصیه گرهای محتوا محور، با یک پیشنهاد همچون طبقه بندی یک مسئله ی خاص کاربر رفتار می کنند، و در می یابند که طبقه بندی کننده ی پسندها و ناپسندهای کاربر، بر پایه ی ویژگی های محصول است.
- جمعیت شناختی (Demographic): یک سیستم توصیه گر جمعیت شناختی، پیشنهادات را بر اساس مشخصات جمعیت شناختی کاربر (مشخصاتی همچون؛ سن، جنسیت و ملیت کاربر) ارائه می دهد. محصولات پیشنهادی می توانند برای دیگر مجموعه های جمعیتی، با ترکیب امتیازاتی که کاربران درآن مجموعه ها به محصولات داده اند استفاده گردند.
- دانش محور: سیستم دانش محور، مواردی را پیشنهاد می کند که از نیازها و تمایلات کاربر استنتاج کرده باشد. این دانش، گهگاه حاوی فهمی عملکردی و واضح از برآوردن نیازهای کاربر توسط ویژگی های معینی از محصول، خواهد بود.
در اینجا، واژه ی “سیستم توصیه گر هیبرید” برای توصیف هر سامانه ی پیشنهاد دهنده ای که جهت ارائه پیشنهاد چند تکنیک توصیه را با هم ترکیب کرده است، بکار می رود. دلیلی برای چرایی اینکه چند تکنیک متفاوت از یک نوع، نتوانند با یکدیگر هیبرید شوند، وجود ندارد. برای مثال دو سیستم توصیه گر محتوا محور متفاوت، می توانند باهم کار کنند که تعدادی از طرح ها این نوع از هیبرید را مورد بررسی قرار داده اند:
NewsDude، که از هر دو طبقه بندی کننده ی ساده Bayes و kNN در توصیه ی اخبارهای خود استفاده می کند، تنها یک مثال از این دست سیستم های هیبرید است.
7 تکنیک هیبریداسیون
- وزنی (Weighted): امتیازاتی که توسط اجزای توصیه گر متفاوت داده می شود، بصورت عددی با یکدیگر ترکیب می شوند.
- راه گزینی (Switching): سیستم از بین اجزای توصیه گر انتخاب کرده، و جزء انتخابی را به کار می گیرد.
- مخلوط (Mixed): پیشنهادات توصیه گر های متفاوت، با هم ارائه می گردند.
- ترکیب خصوصیات (Feature Combination): ویژگی های بدست آمده از منابع شناختی متفاوت، با یکدیگر ترکیب شده و یک الگوریتم پیشنهادی مجرد را ارائه می دهد.
- تقویت خصوصیات(Feature Augmentation): یک فن توصیه، برای محاسبه ی یک ویژگی یا مجموعه ای از خصوصیات به کار برده می شود، که بخشی از ورودی تکنیک بعدیست.
- آبشار(Cascade): به توصیه گرها اولویت اکید داده می شود؛ انهایی که از اولویت پایین تر برخوردارند برای به ثمر رساندن آنهایی که اولویت بالایی دارند، نادیده گرفته شوند.
- Meta-level: یک تکنیک توصیه بکار برده شده و تعدادی مدل ایجاد می کند که پس از آن بعنوان ورودی تکنیک بعدی مورد استفاده قرار می گیرد.
سیستم های توصیه گر شخصیت محور:
رهیافتی جدید که از بوتنر (Buettner) نشأت گرفت. او “توصیه گر محصول شخصیت محور” (Personality-based product recommender(PBPR)) را مطرح کرد، چارچوبی که داده های شبکه اجتماعی را تحلیل می کند تا شخصیت کاربر را پیش بینی کرده و از شخصیت کاربر پی به تمایلات او برد.
فراتر از دقت
معمولاً پژوهش در باب سیستم های توصیه گر، از بابت یافتن دقیق ترین الگوریتم های پیشنهاد، نگران است.
- تنوع (Diversity): زمانیکه لیستی بلند بالا و متنوع از پیشنهادات ارائه گردد، موجب رضایت بیشتر کاربر میشود، برای مثال آیتم هایی از هنرمندان مختلف.
- اصرار توصیه گر (Recommender persistence): در برخی موارد، دوباره نشان دادن توصیه ها یا اینکه رتبه بندی دوباره ی آیتم ها توسط کاربر، بسیار مؤثر تر از نشان دادن آیتم های جدید است. مثلاً، ممکن است کاربران در دفعه اول وقت کافی برای بررسی دقیق پیشنهادات نداشته اند.
- حریم خصوصی(Privacy): معمولاً سیستم های توصیه گیر در رابطه با مسئله حریم خصوصی نگران هستند، چرا که کاربران مجبور به فاش کردن اطلاعات حساس هستند. ایجاد پروفایل کاربران با استفاده از پالایش گروهی می تواند از نقطه نظر حریم خصوصی، مشکل آفرین باشد. بسیاری از کشورهای اروپایی رسومی بسیار غنی از حریم خصوصی دارند، و هر تلاشی که منجر به معرفی سطحی از مشخصات کاربر شود، با عکس العمل منفی مشتری روبرو می شود. با پیشنهاد نت فلیکس برای رقابت جایزه نت فلیکس (Netflix Prize) مسائلی در رابطه با حریم خصوصی در حیطه ی مجموعه اطلاعات بوجود آمد. گرچه برای حفظ حریم خصوصی مشتری، مجوعه داده ها ناشناس بودند، در سال 2007 دو محقق از دانشگاه تگزاس با انطباق مجموعه ی داده هایی که از امتیاز دهی فیلم ها و از Internet Movie Database بدست آمده بود، توانستند کاربران را شناسایی کنند. در سال 2009 کاربر ناشناس نت فلیکس، نت فلیکس را در Doe v. Netflix شکایت کرد و مدعی شد که نت فلیکس قوانین تجارت عادلانه ی ایالات متحده و قانون حفاظت از حریم خصوصی ویدئو (Video Privacy Protection Act) را با پخش مجموعه ی داده ها، نقض کرده است. این ادعا در بخشی منجر به حذف دومین رقابت جایزه نت فلیکس سال 2010 گردید. در این مدت تحقیقات زیادی در زمینه حریم خصوصی انجام گرفته است. راماکریشنان و همکاران، در مورد موازنه ی شخصی سازی و حریم خصوصی تحقیق گسترده ای را انجام داده و دریافتند که از ترکیب روابط ضعیف (یک ارتباط غیر منتظره که بصورت اتفاقی پیشنهادات خوب و جالبی را ارائه می دهد) و دیگر منابع اطلاعاتی می توان برای کشف هویت کاربران در یک مجموعه داده ی ناشناس استفاده کرد.
- جمعیت شناختی کاربر (User demographics): بیل وهمکاران، دریافتند که اطلاعات جمعیت شناختی کاربران می تواند بر میزان رضایت مندی آنها از پیشنهادات ارائه شده، تأثیر گذار باشد. آنها در مقاله خود نشان دادند که کاربران مسن تر بیشتر از کاربران جوان، علاقه مند به توصیه های ارائه شده هستند.
- نیرومندی (Robustness): زمانیکه کاربران بتوانند در سیستم توصیه گر مشارکت کنند، مسئله کلاهبرداری بایستی مورد توجه قرار گیرد.
- سرندی پیتی (یافتن تصادفی)(Serendipity): سرندی پیتی مقیاسی است که نشان می دهد، پیشنهادات چقدر شگفت انگیز و تعجب آور هستند. برای مثال، سیستم توصیه گری که در یک بقالی خرید شیر را به مشتری پیشنهاد می دهد، گرچه ممکن است پیشنهاد دقیقی باشد ولی پیشنهاد خوبی نیست، چرا که “خرید شیر” برای مشتری امری واضح و روشن است و نیازی به پیشنهاد ندارد.
- اعتماد (Trust): سیستم توصیه گری که کاربر به آن اعتماد نداشته باشد، از ارزش بسیار پایینی برخوردار است. اعتماد توسط سیستم توصیه گر و با توصیف چگونگی ایجاد پیشنهادات و علت پیشنهاد یک آیتم، ایجاد میگردد.
- برچسب گذاری (Labelling): بر چسب گذاری پیشنهادات ممکن است رضایت مندی کاربر را تحت تأثیر قرار دهد. برای مثال در مطالعه ای نرخ کلیک(click-through rate(CTR)) برای پیشنهاداتی که برچسب ” ضمانت” داشتند (CTR=5.93%) کمتر از حالتی بود که همان پیشنهادات برچسب “ارگانیک” داشتند (CTR=8.86%). نکته قابل توجه اینجاست؛ پیشنهاداتی که هیچ برچسبی نداشتند از نرخ کلیک بالاتری برخوردار بودند (CTR=9.87%).
سیستم های توصیه گر سیار
تحقیق در حوزه ی سیستم های توصیه گر سیار، یکی از حیطه های تحقیقاتی در حال رشد در زمینه ی سیستم های توصیه گر است. با افزایش دسترسی اسمارت فون ها به اینترنت و همه گیر شدن آن، ارائه پیشنهادات شخصی سازی شده و حساس به محیط ممکن شده است. از آنجاییکه اطلاعات سیار بسیار پیچیده تر از داده هایی است که سیستم های توصیه گر با آن درگیر بوده اند، تحقیقات در این حیطه به مراتب دشوارتر است (مسائلی که این حیطه با آن روبروست: ناهمسانی، پر سر و صدایی، نیاز به همبستگی خودکار مکانی و زمانی ، و نیز مشکلات تأیید و عمومیت دارد). علاوه بر این سیستم های توصیه گر سیار از مشکلات جابجایی نیز متضرر هستند، چرا که ممکن است پیشنهادات ارائه شده در تمامی مناطق بکار نیاید (برای مثال، پیشنهاد یک دستور غذایی که همه ی اجزایش را نمی توان در آن منطقه فراهم کرد، پیشنهادی نابخردانه است).
سیستمی که پیشنهاد کننده مسیرهای ایده آل برای رانندگان شهریست، یک نمونه از سیستم های توصیه گر سیار است. این سیستم داده های خود را از طریق ردیابی GPS راههایی که تاکسی پیموده است، بدست می آورد که این داده ها عبارتند از؛ مکان یابی (طول و عرض جغرافیایی)، نشان دادن زمان و وضعیت اجرایی (با مسافر یا بدون مسافر). سیستم از این داده ها برای بهینه سازی زمان صرف شده برای هر مسافر (یعنی با پیشنهاد ایده آل ترین راه، مدت زمانی که مسافر در تاکسی است به کمترین میزان خود برسد) و عاید کردن سود بیشتر برای راننده تاکسی، بهره می گیرد. این نوع سیستم، وابسته به مکان است، و از آنجاییکه در دستگاههای دستی یا جاساز شده استفاده می شود نیاز محاسباتی و انرژی آن بایستی در سطح پایینی نگه داشته شود.
نمونه ای دیگر از سیستم های توصیه گر سیار، سیستمی است که برای کاربران متخصص توسعه داده شده است (بونفوف و همکاران، 2012). این سیستم با ردیابی GPS کاربر و برنامه ی کاری او، بهترین اطلاعات و پیشنهادات را بسته به موقعیت و علایق وی، ارائه می دهد. این سیستم، از فنون یادگیری ماشینی و پردازش استدلالها برای ایجاد یک سازگاری پویا بین سیستم توصیه گر سیار با سیر تحولی علایق کاربر ، بهره می برد. بانی این الگوریتم نام آن را hybrid-ε-greedyگذاشته است.
سیستم های توصیه گر سیار همچنین”Web of Data” را به عنوان منبعی برای اطلاعات ساختاری، ایجاد کرده اند. یک مثال خوب از این سیستم ها ” “SMARTMUSEUM است. این سیستم حتی زمانیکه اطلاعات کمی از کاربر ارائه شده باشد با استفاده از مدل سازی معنایی، بازیابی اطلاعات و فنون یادگیری ماشینی اقدام به توصیه ی محتوای مطابق با علایق کاربر می کند.
سیستم های توصیه گر آگاه از ریسک
تمرکز عمده رهیافت های موجود بکار گرفته شده در سیستم های توصیه گر ارائه ی مرتبط ترین محتوا برای کاربران است و ریسک برآشفتن کاربر در شرایط خاص را به حساب نمی آورند. با این وجود در بسیاری از اپلیکیشن ها (مانند پیشنهاد محتوای شخصی سازی شده) ریسک پریشان کردن کاربر نیز مهم تلقی شده و از تحمیل پیشنهادات در شرایط خاصی همچون یک جلسه ی تخصصی، صبح زود یا دیر وقت ممانعت می شود. از این رو عملکرد سیستم توصیه گر در بخشی به درجه ای از ریسکی که در فرایند پیشنهاد دهی لحاظ می کند، بستگی دارد.
تعریف ریسک
در سیستم های توصیه گر واژه ی “ریسک” به احتمال ایجاد مزاحمت یا پریشان کردن کاربر که منجر به عکس العمل نامناسب وی شود، اطلاق می گردد.
در پاسخ به این چالش ها، جمعی از محققان یک سیستم توصیه گر پویا و حساس به ریسک DRARS(Dyanamic Risk-Aware Recommender system) را ابداع کردند که توصیه ی زمینه ی آگاه (context – aware) را همچون یک “مسئله ی راهزن” (bandit problem) مدلسازی کرده است. این سیستم یک تکنیک محتوا محور را به یک الگوریتم “راهزن متنی” (Contextual bandit) ترکیب کرده است. این محققان نشان دادند که DRARS با محاسبه ی بهینه ترین ارزش اکتشافی برای حفظ توازن بین اکتشاف و بهره برداری مبتنی بر سطح ریسک موقعیت کاربر، موجب بهبود خط مشی “اعتماد به نفس حد بالا” (Upper Confidence Bound(UCB)) می شود. این محققان آزمایشات خود را در یک زمینه صنعتی و با داده ها و کاربران واقعی اجرا کرده و نشان دادند که اهمیت دادن به سطح ریسک موقعیت کاربران، قدرت اجرای سیستم های توصیه گر را افزایش می دهد.
جایزه نت فلیکس
یکی از وقایعی که به تحقیقات سیستم های توصیه گر انرژی مضاعفی بخشید، جایزه نت فلیکس بود. از سال 2006 تا سال 2009 میلادی نت فلیکس اسپانسر رقابتی بود که در آن جایزه ی 1000000 دلاری به گروهی تعلق می گرفت که بتواند مجموعه ی داده ای با بیش از 100 میلیون فیلم رتبه بندی شده ارائه دهد به نحوی که بازخورد پیشنهادات 10 درصد، دقیق تر از نرم افزار موجود نت فلیکس باشد (در ارائه پیشنهادات، 10 درصد دقیق تر از نت فلیکس عمل کند). این رقابت به امر تحقیق جهت یافتن الگوریتم های جدید و دقیق تر، انرژی مضاعفی بخشید. در 21 سپتامبر 2009 جایزه یک میلیون دلاری با رعایت قانون”tiebreaking” (قانونی که در صورت مساوی شدن رقبا، طرف برنده را تعیین می کند) به تیم Bellkor’s pragmatic Chaos اهدا گردید.
در سال 2007 ترکیبی از 107 رهیافت الگوریتمی متفاوت، منجر به ایجاد دقیق ترین الگوریتم پیش بینی گردید:
زمانیکه چندین سیستم پیشگویی با یکدیگر ترکیب شوند، دقت پیشگویی به طور قابل ملاحظه ای افزایش می یابد. تجربه ی ما اینست که بیشتر تلاشها بایستی بر حصول رهیافت های مختلف معتبر متمرکز می شد نه پالایش یک تکنیک مجرد. در نتیجه راه حل ما نیز حاصل جمع آثار مجموعه ای از روش هاست.
مزایای بسیاری بخاطر پروژه نت فلیکس عاید وب شد. تعدادی از تیم فن آوریشان را گرفته و در دیگر بازارها بکار گرفتند. اعضای تیمی که به مقام دوم رسیدند یک موتور توصیه گر به نام Gravity R&Dایجاد کردند که در جامعه RecSys فعال است. 4-Tell، Inc راه حلی را که از پروژه نت فلیکس بدست آورده بودند در وبسایت های تجارت الکترونیک بکار بردند.
مسابقه ی دوم نیز طراحی شد اما نهایتاً در عکس العمل به طرح دعوایی در دادگاه و ابراز نگرانی از “کمیسیون تجارت فدرال” (Federal Trade Commission) لغو گردید.
سنجش عملکرد
در تشخیص تأثیر الگوریتم های توصیه، ارزیابی امری بسیار مهم است. متریک های معمول استفاده شده در ارزیابی الگوریتم ها، میانگین مربعات خطا و ریشه ی میانگین مربعات خطا می باشد که مورد آخر در جایزه ی نت فلیکس مورد استفاده قرار گرفت. متریک های بازیابی اطلاعات مثل معیار دقت و بازیابی یا DCG جهت ارزیابی کیفیت یک روش پیشنهادی، سودمند و کارا هستند. اخیراً تنوع، نوآوری و پوشش نیز به عنوان جنبه های مهم ارزیابی در نظر گرفته می شوند. هر چند که بسیاری از اندازه گیری های ارزیابی کلاسیک، شدیداً مورد انتقاد قرار گرفته اند. اغلب، نتایج ارزیابی های به اصطلاح آفلاین، با تشخیص واقعی رضایت کاربر هم خوانی ندارد. نویسندگان بیان کردند”ما بایستی در نتایج ارزیابی های افلاین (یا همان اندازه گیری های کلاسیک) تردید می کردیم”.
سیستم های توصیه گر چند معیاره
سیستم های توصیه گر چند معیاره (MCRS) به عنوان سامانه هایی توصیف می شوند که سلایق را در چند معیار با هم متحد می سازند. به جای توسعه ی فنون پیشنهادی مبتنی بر ارزش های تک معیاره، تمامی سلایق کاربر در نظر گرفته می شود. این سیستم ها تلاش می کنند تا رتبه بندی آیتم های ناشناخته توسط کاربر را، پیش بینی کنند. این امر با بهره گیری از اطلاعات سلیقه ای و براساس معیارهای چند گانه که تمامی ارزش های سلیقه ای را تحت تأثیر قرار می دهد، ممکن شده است. چندین محقق MCRS را به عنوان یک مسئله ی تصمیم گیر چند معیاره (MCDM) در نظر گرفته و فنون و روش های MCDM را برای اجرای سیستم های MCRS بکار گرفته اند.
منبع سایت مدیا سافت