بازگشت به بانک اطلاعات پایان نامه ها
شماره دانشجویی : 920633560
نویسنده : نسترن کریمی قاسم آباد
عنوان پایان نامه : پاکسازی و آماده سازی داده با استفاده از روشهای خوشه بندی
دانشكده : دانشکده تحصیلات تکمیلی و مجتمع فنی
گروه تحصيلي : کامپیوتر
رشته/گرایش تحصيلي : مهندسي كامپيوتر- نرم افزار
مقطع تحصيلي : کارشناسی ارشد
استاد راهنما (استاد مدعو) : , اعظم السادات نوربخش,
استاد مشاور (استاد مشاور مدعو) : , اعظم السادات نوربخش,
چكيده : پاکسازی داده ها از خطاها و نویز یکی از بخش های اصلی فرایند نگهداری داده محسوب می گردد. پاکسازی به توالی عملیات های انجام شده با هدف بهبود کیفیت کلی مجموعه های داده ها اتلاق می شود. در واقع پاکسازی داده کاهش و حذف نسخه های کپی در مجموعه داده می باشد. مسئله ای در برنامه های کاربردی پایگاه داده رخ می دهد و زمانی بدتر می شود که داده های منابع بخواهند با هم تلفیق شوند. از این رو ، پاکسازی داده به عنوان بخش اصلی فرایند یکپارچگی داده شناخته شده است.
هنوز مسائل و چالش های زیادی از جمله تصحیح خطا و حل تعارض، نگهداری داده های پاکسازی شده و پاکسازی داده در محیط های مجازی یکپارچه در زمینه پاکسازی داده وجود دارد. برای حل چالش های پیش رو پاکسازی داده توسعه یک چارچوب مناسب نیز احساس می شود.
از این رو در این تحقیق یک روش آماده سازی و پاکسازی داده مبتنی بر خوشه بندی ارایه شده است که در آن ابتدا دادههای خام را به دلیل اینکه به سرعت به پاکسازی و نرمالسازیهای آتی داده کمک میکند، خوشهبندی نموده سپس عملیات پاکسازی دادهها و در مرحله آخر عمل تبدیل داده انجام می شود. در این تحقیق، آزمایش ها در بدترین حالت میزان نویز، در نظر گرفته شده و با این وضعیت آزمایش پیش برده شده، تا بهترین نتیجه برای روش پیشنهادی بدست آید. به طور کلی روش پیشنهادی یک چارچوب پاکسازی داده جهت بهبود صحت روشهای دادهکاوی برروی دادههای پاکسازی شده را نشان می دهد و مزیت اصلی روش ارایه شده این است که نیاز به بروزرسانی در محیطهای پویا را نداشته و با قراردادن هر داده جدید در دسته مناسب همیشه منبع را بهروز نگه میدارد. در روش پیشنهادی از مجموعه داده تشخیص حروف با 20000داده استفاده شده است که بعد از اعمال گام های روش پیشنهادی بر روی مجموعه داده، دو مجموعه پاکسازی شده با روش پیشنهادی مورد مقایسه قرار گرفته و طبق نتایج بدست آمده، روش پیشنهادی الگوریتم طبقه بندی Kstar را 25 درصد بهبود داده است.
كلمات كليدي : پاکسازی، خوشه بندی، داده، نویز و خطا
تاريخ دفاع : 1395-5-2