در زمینه هایی مانند بیوتکنولوژی ، پزشکی ، داروسازی ، مراقبت های بهداشتی و علوم زیستی ، ضرورت اطمینان از سلامت و ایمنی انسان از بالاترین اولویت در هنگام استفاده از یادگیری ماشینی هوش مصنوعی (AI) است. محققان موسسه Broad MIT و هاروارد و همكاران آنها چارچوبی را برای ممیزی و تخریب یادگیری ماشین AI در علوم زندگی ایجاد كردند و مطالعه اخیر خود را در زیست شناسی ارتباطات منتشر كردند.
م Fatسسه Broad MIT و محققان هاروارد ، Fatma-Elzahraa Eid ، Haitham Elmarakeby ، Yujia Alina Chan ، نوشت: "سوگیری در داده های مورد استفاده برای آموزش مدل های یادگیری ماشین (ML) می تواند عملکرد پیش بینی آنها را افزایش داده و درک ما را از اینکه چگونه و آنچه یاد می گیرند اشتباه گرفته شود." نادین فورنلوس ، الیازر ون آلن و کسپر لاژ به همراه محمود الهفناوی در مرکز تحقیقات ملی در جیزه مصر و لنوود هیث در انستیتوی پلی تکنیک ویرجینیا و دانشگاه ایالتی. "اگرچه تعصبات در داده های بیولوژیکی معمول است ، اما ممیزی سیستماتیک مدل های ML برای شناسایی و از بین بردن این سوگیری ها ، یک روش معمول در هنگام استفاده از ML در علوم زندگی نیست."
تیم تحقیق ابتدا چارچوبی را برای تخریب تعامل پروتئین و پروتئین (PPI) ایجاد کردند ، سپس آن را در فعالیت های زیستی هدف دارویی و اتصال MHC به پپتیدها اعمال کردند. پیش بینی فعل و انفعالات پروتئین و پروتئین برای عملکردهای سلولی ارگانیسم ها حیاتی است و درک آن برای مهندسی زیستی و کشف داروی جدید مهم است. در پزشکی ، فعالیت زیستی هدف دارویی به تاثیری که دارو بر روی یک بافت زنده یا ارگانیسم می گذارد اشاره دارد. مجموعه اصلی سازگاری بافتی (MHC) گروهی از ژنهای موجود در مهره داران است که برای پروتئینهای موجود در سطوح سلول کدگذاری می کند که سیستم ایمنی را قادر می سازد مواد خارجی را شناسایی کند.
"برای نشان دادن کاربرد وسیع چارچوب حسابرسی ما به طور کلی و کاربرد حسابرسان توسعه یافته برای سایر برنامه های ورودی جفت شده ، ما چارچوب حسابرسی را برای دو برنامه اضافی با اهمیت درمانی مهم تطبیق دادیم: پیش بینی های زیست فعالی هدف دارویی و پپتید MHC الزام آور ، "محققان نوشتند.
چارچوب یادگیری ماشین حسابرسی دارای چهار ماژول است: محک زدن ، بازجویی سوگیری ، شناسایی تعصب و حذف تعصب.
برای ماژول اول ، محققان عملکرد پایه را با محک زدن طبقه بندی ها در مجموعه داده های جداگانه ایجاد کردند. از بین هفت طبقه بندی ، پنج ماشین بردار پشتیبان (SVM) با هسته های مختلف ، یکی جنگل تصادفی و دیگری خودکار رمزگذار انباشته مبتنی بر یادگیری عمیق استفاده کرده است. ترکیبی از MATLAB با کتابخانه LibSVM برای طبقه بندی ماشین بردار پشتیبانی استفاده شد. از سه پایگاه داده پروتئین های انسانی استفاده شد. طبقه بندی کننده ها در زیرمجموعه های یک مجموعه داده خاص مانند جفت پروتئین آموزش دیدند. محققان گزارش دادند که "بهترین عملکرد معیار در تمام طبقه بندی ها بالا است" که با میانگین سطح زیر منحنی (AUC) اندازه گیری می شود.
محققان نوشتند: "مدل های ML بیولوژیکی قوی باید به مجموعه داده های مستقل تعمیم یابد."
در یادگیری ماشینی هوش مصنوعی ، تعمیم به توانایی الگوریتم برای استفاده از آنچه در حین آموزش با درجه دقت بالایی آموخته است ، روی داده های جدیدی که قبلاً مشاهده نکرده است ، اطلاق می شود. استحکام از این نظر به توانایی الگوریتم یادگیری ماشین برای عملکرد خوب داده های ورودی جدید اشاره دارد.
مقاله پس از تبلیغات ادامه می یابد
برای رسیدن به این هدف ، تیم یک حسابرس تعمیم پذیری را به عنوان ماژول دوم ایجاد کرد. این ماژول در تلاش برای شناسایی مناطق تعصب ، عملکرد اصلی یک مدل را با یک مجموعه داده مستقل به نام مجموعه داده های تعمیم مقایسه می کند.
تعصبات شناسایی شده به همراه فرضیه های تعصب به ماژول سوم وارد می شوند که تعصب شناسایی را بررسی می کند. این ماژول فرضیه های تعصب فرموله شده را رد یا تأیید می کند.
ماژول نهایی برای حذف سوگیری است. این تعصب را که در مرحله قبل با ارزیابی نحوه تعمیم طبقه بندی کننده ها بعد از جدا کردن مجموعه داده ها ، آزمایش می کند.
محققان کشف کردند: "هنگامی که سیگنال کافی در نمایش داده های آموزش وجود ندارد ، مدل های ML می توانند در درجه اول از تعصبات بازنمایی در داده های آموزش بیاموزند." "به نظر می رسد این امر عمدتا بر برنامه های ML ورودی جفت تأثیر می گذارد و اگر از طریق ممیزی روشن نشود ، می تواند گمراه کننده باشد."
محققان توصیه می کنند دانشمندان یادگیری ماشین که از هوش مصنوعی برای اهداف بیولوژیکی استفاده می کنند ، "موضع گسترده ای در جامعه در مورد ممیزی سیستماتیک مدل های ML برای تعصبات" ایجاد کنند و کد ، منابع و روش هایی را در مخزن GitHub ارائه دهند. محققان با این اثبات مفهوم راهی برای انجام یادگیری ماشینی برای پیش بینی روابط بیولوژیکی با کاهش تعصب برای دقت بیشتر و نتایج بهتر ارائه داده اند.
مشاهده پست مشابه : معرفی برترین گوشی های مجهز به پردازنده دو هسته ای (سایت ناموب)
آیا مادر یا پدر شما مورد آزار و اذیت قرار می گیرند؟