تصویربرداری مولکولی لیزری داده هایی با ابعاد بالا با ساختار وابسته به روش نوری ، نوع لیزر ، روش تشخیص ، نوع نمونه و غیره تولید می کند. به طور کلی ، ابعاد بالای داده ها با موقعیتی مطابقت دارد که تعداد پارامترهای اولیه به ترتیب بزرگتر از تعدادی از متغیرهای مستقل پنهان ، به عنوان مثال ، هنگامی که تعداد ضرایب جذب اندازه گیری شده از یک مخلوط گاز پیچیده بیش از یک سفارش یا بیشتر از مقدار اجزای خالص موجود در مخلوط باشد.
به دلیل مشکل "نفرین ابعاد" که توسط R. Bellman فرموله شده است ، استفاده از داده های با ابعاد بالا برای ساخت مدل داده های پیش بینی دشوار است. اساساً وقتی ابعاد بردار ویژگی افزایش می یابد ، حجم داده های مورد نیاز برای آموزش طبقه بندی کننده به صورت تصاعدی افزایش می یابد. این امر به این دلیل است که تفاوت بین دو بردار تصادفی با افزایش ابعاد آنها بر اساس قضیه حد مرکزی صفر می شود.
یکی از اهداف اصلی استخراج ویژگی ، غلبه بر این مشکل است. رویکرد جهانی برای این امر کاهش ابعاد داده است. راههای مشخص به منبع داده بستگی دارد. به طور خاص ، تصاویر 2 بعدی-سه بعدی را می توان به قطعات کوچک هندسی با خواص مشابه به نام بافت تجزیه کرد. رویکرد بافت به شما اجازه می دهد تا توصیف فشرده ای از تصویر اولیه پیدا کنید.
طیف های مولکولی را می توان به عنوان یک مورد انحطاط از داده های تصویربرداری مولکولی در مورد یک محیط همگن در نظر گرفت ، هنگامی که می توانیم فقط یک "نقطه" را برای توصیف کل نمونه مطالعه کنیم.
کاهش ابعاد بردار ویژگی شامل انتخاب ویژگی و استخراج ویژگی است. تفاوت بین آنها فقط در راههایی است که برای به دست آوردن نتیجه استفاده می شود. این فصل این روشها را با جزئیات کافی برای کاربردهای عملی توضیح می دهد. کدهای پایتون برای مفیدترین روشهای تحلیلی توصیف شده در فصل در مواد تکمیلی ارائه شده است.
3.1 انتخاب ویژگی
3.1.1 روشهای متغیر انتخاب ویژگی
3.1.2 روشهای چند متغیره انتخاب ویژگی
3.2 استخراج ویژگی
3.3 دورزدایی و کاهش نویز
3.3.1 حذف بیرونی
3.3.2 کاهش نویز با فیلتر سیگنال
3.3.2.1 فیلتراسیون سیگنال خطی
3.3.2.2 فیلتراسیون سیگنال غیر خطی
3.3.2.3 پردازش تصویر با فیلتر غیر خطی