تحلیلگران داده، نقش مهمی در تبدیل دادههای خام به اطلاعات تجاری و قابل استفاده دارند. تجزیه و تحلیلهای پیشرفتهتر باعث میشوند تا این دادهها، کاربردیتر شده و اهمیتشان برای تصمیم گیرندگان و سهامداران بیشتر شود. به همین دلیل، آن دسته از متخصصان داده که به دنبال افزایش مهارتهای خود هستند باید در زمینهی دادهکاوی و نحوهی به کارگیری آن در کار خود اطلاعات زیادی کسب کنند.
دادهکاوی مفهوم جدیدی نیست. کسب و کارها برای دهههای زیادی از آن به منظور یافتن اطلاعات مفید برای ابر دادهای در حال رشدی که کسب و کارها ایجاد نمودهاند استفاده میکردند. با این حال، جمعآوری دادههای همواره به اخذ تصمیمات درست منتهی نمیشود. در واقع، تکیهی بیش از حد به دادهها میتواند باعث اختلال در فرآیند تصمیمگیری شود؛ و این همان مفهومی است که تحت عنوان «پُر از داده، اما وجود ضعف اطلاعاتی» شناخته میشود. دادهکاوی به شما کمک میکند تا این معضل به فرصت جدیدی تبدیل شود و به همین دلیل، اهمیت آن همچنان در حال افزایش است.
در این مقاله، به بررسی جامعی از دادهکاوی خواهیم پرداخت و دربارهی کارهایی که میتوانند به پیشرفت شغل شما در علم داده کمک کند، اطلاعاتی ارائه خواهیم داد.
با ما همراه باشید.
دادهکاوی چیست و چرا برای کسب و کارها اهمیت دارد؟
دادهکاوی، نیاز به شکل دهی دادهها به اطلاعات کاربردی را برطرف میکند. در واقع دادهکاوی، فرآیند تجزیه و تحلیل مقادیر زیادی از دادهها به منظور تشخیص روندها، الگوهای غیر شهودی یا حتی ناهنجاریها است. دیتاماینرها از ابزارها و فناوریهای مختلفی برای کشف این یافتهها استفاده میکنند و سپس برای کمک به کسب و کارها برای تصمیمگیری و انجام پیشبینیهای بهتر، از آنها استفاده میکنند.
شرکتها از روشهای مختلفی از دادهکاوی سود میبرند: پیشبینی تقاضا برای محصولات، یافتن بهترین شیوهها برای تشویق مشتریان به خرید، ارزیابی ریسک، محافظت از کسب و کار خود در برابر کلاهبرداری و بهبود فعالیتهای بازاریابی.
چرا شرکتها نسبت به استفاده از دادهکاوی مشتاق هستند؟
طبق گفتهی SAS، اصطلاح “دادهکاوی” در دهه 1990 ظهور کرد. این فرآیند با عنوان “کشف دانش پایگاههای داده” نیز شناخته میشود و قبل از آن که مواردی مانند پردازش کامپیوتری و سایر فناوریها باعث سریعتر و کارآمدتر شدن آن شوند، به صورت دستی انجام میشد.
هر بار که شخصی کارت اعتباری را بکشد، روی یک وب سایت کلیک کند یا محصولی را در صف پرداخت، اسکن کند، یک داده ایجاد میشود. تا زمانی که بتوان هر یک از این نقاط داده را استخراج، کامپایل و یا با سایر نقاط مقایسه کرد، غیرفعال باقی میمانند. شرکتها هیچ سودی از بیاثر بودن دادهها نمیبرند. آنها باید با این دادهها تعامل داشته باشند تا بتوانند از اطلاعات موجود در آنها استفاده کرده و آن ارزشی که برای هر کسب و کاری اهمیت دارد را ایجاد نمایند.
شرکت بینالمللی داده (IDC) پیشبینی میکند که هزینههای جهانی تحلیلهای کسب و کار و کلان دادهها در سال 2021 به 215.7 میلیارد دلار خواهد رسید و میگوید که این هزینهها تا سال 2025 به میزان 12.8 درصد رشد خواهند کرد.
اکثر متخصصان تجزیه و تحلیل اعتقاد دارند که دادهها و تجزیه و تحلیل آنها برای رشد مهم است؛ بیش از نیمیاز آنها میگویند که از دادهها و تجزیه و تحلیل آنها برای هدایت فرآیند، کارایی هزینه، استراتژی و تغییر استفاده میکنند.
دادهکاوی در این رشد، نقش مهمی را در تجزیه و تحلیل دادهها ایفا میکند و این موضوع باعث شدهاست تا بسیاری از صنایع (مانند خرده فروشی، امور مالی و بیمه، ارتباطات، مراقبتهای بهداشتی و غیره)، به کارمندان ماهری در این زمینه نیاز داشته باشند. برخی از مشاغلی که تکنیکهای دادهکاوی میتوانند در آنها اهمیت داشته باشند عبارتند از: تحلیلگر داده، متخصص علوم داده، مهندس نرم افزار، تحلیلگر مالی و تحلیلگر تجاری.
نمونههای دادهکاوی در دنیای واقعی
در همه جا نمونههایی از دادهکاوی وجود دارد. شرکتهای خردهفروشی بهشدت به دادهکاوی متکی هستند؛ بهویژه آنهایی که کارتهای پاداش و عضویتهای ویژه را ارائه میکنند. برای مثال ممکن است که مصرفکنندگانی که برند خاصی از شامپو را خریداری میکنند، برای سایر محصولاتی که منطبق با رفتار خرید شخصی آنها هستند یا محصولاتی که گروههای مصرفکنندهی مشابهی دارند، کوپنهایی دریافت نمایند.
کسانی که به صورت آنلاین خرید میکند یا سرگرمیهایشان به صورت آنلاین است، دادههای زیادی را برای استخراج ایجاد مینمایند. قطعا آنها بر اساس خرید، عادات تماشا و کلیکهایی که داشتهاند، توصیههایی برای تماشای فیلم یا خرید کفش دریافت کردهاند. به منظور تولید پاپآپهای “پیشنهاد برای شما”، دادههای شما و میلیاردها مصرفکنندهی دیگر گردآوری میشوند.
علاوه بر این، مؤسسات مالی از دادهکاوی برای کشف کلاهبرداری استفاده میکنند و از خود و مشتریانشان محافظت میکنند. ارائه دهندگان مراقبتهای بهداشتی نیز روشهای درمانی خود را طبق الگوهای دادهکاوی که از انجاک مطالعات بر بیمار و آزمایشات بالینی به دست آمدهاند، بهبود میبخشند.
![داده کاوی](https://naserhojjati.com/wp-content/uploads/2023/11/graph-growth-success-improvement-development-business.jpg)
6 مرحلهی فرآیند دادهکاوی
دادهکاوی از فرآیند معتبری به نام CRISP-DM پیروی میکند. این فرآیند استاندارد میانصنعتی که برای دادهکاوی مورد استفاده قرار میگیرد، یک فرآیند شش مرحلهای است که با تعریف یک هدف تجاری شروع میشود و با دیپولی (Deploy) کردن پروژه دادهی تکمیل شده، خاتمه مییابد.
مرحلهی 1: درک کسب و کار
پروژههای دادهکاوی با درک کسب و کار آغاز میگردند؛ با شرکتهایی که اهداف خود را برای یک پروژه تعیین میکنند. شرکت، به مطالعهی کدام دادهها تمایل دارد؟ اهداف آن مطالعه چیست؟ پروژه به دنبال حل چه مشکلات یا یافتن چه فرصتهایی است؟ این مرحله برای تعیین مجموعه دادههای مناسب، برای تجزیه و تحلیل، اهمیت فراوانی دارد. در نتیجه، تحلیلگران داده باید درک روشنی از ماموریت، استراتژی و نیازهای هدف شرکت خود داشته باشند.
مرحلهی 2: درک دادهها
پس از تعیین هدف، پروژهی دادهکاوی وارد مرحلهی بعدی میشود: تعریف دادهها. در این مرحله، تحلیلگران، دادهها را جمعآوری میکنند، آنها را توصیف میکنند (مقدار، شامل اعداد و رشتهها، نحوه کدگذاری و غیره) و کیفیت آن را تأیید مینمایند. برخی از سؤالات کلیدی این مرحله عبارتند از: آیا شکافی در دادهها وجود دارد؟ آیا دادهها دارای خطا هستند؟ آیا فیلدها به درستی کدگذاری شدهاند؟ آیا دادهای وجود دارد که تکراری باشد؟
به این نکته توجه کنید که قرار نیست هرکدام از نقاط دادهای که یک شرکت ذخیره میکند، مناسب تمامی پروژهها باشد. جمع آوری دادههای مناسب میتواند باعث صرفهجویی در زمان و همچنین اطمینان از کیفیت و کاربرد اطلاعات به دست آمده در طول پروژه شود.
مرحلهی 3: آمادهسازی دادهها
معمولا آمادهسازی دادهها، وقت گیرترین مرحلهی پروژه ماینینگ است. طبق گفته IBM، آمادهسازی دادهها میتواند 50 تا 70 درصد از زمان و تلاش یک پروژه را مصرف کند. آمادهسازی دادهها شامل انتخاب، تمیز کردن، مرتبسازی و قالببندی دادههای مورد مطالعه است. علاوه بر این، دادههایی که از چندین منبع مختلف به دستآمدهاند باید ادغام یا تنظیم شوند که ممکن است که به ساختن دادههای جدیدی نیاز شود. پس از بررسی کامل و آمادهسازی دادهها، آنها آمادهی مطالعه میشوند.
مرحلهی 4: مدلسازی
در مرحلهی مدلسازی، تحلیلگران و متخصصان علوم داده به منظور یافتن اطلاعات، از انواع تکنیکهای مدلسازی (که بعداً بررسی خواهیم کرد) استفاده میکنند. شاید آنها برای یافتن الگوها یا ناهنجاریها، مدلهایی را اجرا کنند. به عنوان مثال ممکن است که آنها، اقدام به اجرای مدل پیشبینی کنند تا بفهمند آیا دادههای قبلی میتوانند نتایج آینده را تعیین کنند یا خیر. همچنین ممکن است که از کاوش قواعد وابستگی یا Association Rule Mining (از طریق مدلهای ماشین لرنینگ) برای کشف الگوهای غیر شهودی که تحلیلگران حتی از وجود آنها اطلاع ندارند و اطلاعات ارزشمندی ارائه میدهند، استفاده نمایند. به این نکته توجه داشته باشید که معمولا تحلیلگران، بسته به اهداف و الزامات پروژه، مدلهای متعددی را بر روی یک مجموعه از دادهها اجرا میکنند.
مرحلهی 5: ارزیابی
تحلیلگران در مرحلهی ارزیابی، به بررسی این موضوع میپردازند که آیا نتایج میتوانند به درستی به سؤالات درک کسب و کار پاسخ دهند، اهداف پروژه را برآورده سازند و هرگونه الگوی غیر منتظرهای را آشکار نمایند یا خیر. آنها همچنین ارزیابی خواهند کرد که آیا از مدلهای صحیح استفاده شده است یا خیر.
اگر هدف اولیه برآورده نشود (و یا سؤالات جدیدی مطرح شوند) تحلیلگران داده به مرحلهی مدلسازی باز خواهند گشت. علاوه بر این ممکن است که به تنظیم مجدد دادهها نیز نیاز شود. هنگامیکه نتایج دادهها به سؤالات درک کسب و کار پاسخ دهند، پروژه به مرحله نهایی خود میرسد.
مرحلهی 6: استقرار
در مرحله استقرار، تحلیلگران داده یافتههای خود را گزارش میکنند و طرحی را برای عملی ساختن این اطلاعات توصیه مینمایند. شاید پروژه دادهکاوی به این نتیجه رسیده باشد که مشتریان خرده فروشی در هنگام خرید خوشبوکنندهی هوا، معمولا سس مایونز میخرند؛ که این نتیجه، یکک بینش کاملا غیر شهودی است. خردهفروش میتواند از این اطلاعات از منظر تبلیغاتی استفاده کرده و یک برنامهی بازاریابی ایجاد کند.
بر کدام ابزارهای دادهکاوی باید مسلط شد
حال که فرآیند CRISP-DM را درک کردهاید، اجازه دهید تا برخی از ابزارهای برتر دادهکاوی و فناوریهایی که تحلیلگران از آنها استفاده میکنند را بررسی کنیم. ابزارهای زیادی در این زمینه وجود دارند و کسانی که در علم داده و تجزیه و تحلیل آن کار میکنند احتمالاً با بسیاری از آنها آشنا میباشند.
پایتون
طبق گفتههای Stack Overflow، پایتون معمولا به عنوان پرکاربردترین و مورد نیازترین زبانهای برنامهنویسی جهان شناخته میشود. پایتون به عنوان یک زبان شئگرا با سینتکس آسان برای یادگیری، کاربردهای زیادی دارد. توسعه دهندگان وبسایتها و بازیها از پایتون برای طراحی آنها استفاده میکنند و برنامهنویسان هوش مصنوعی با استفاده از پایتون، مدلهای آموزشی میسازند. علاوه بر این، دانشمندان داده اغلب از پایتون برای دادهکاوی و تجزیه و تحلیل استفاده میکنند.
گسترده بودن کتابخانهها و ماژولهای ریاضی و علمی پایتون به این زبان کمک میکند تا به نیروگاه دادهکاوی تبدیل شود. مواردی مانند Pandas، Numpy و Matplotlib تنها سه مورد از کتابخانههای موجود در پایتون هستند که کاربران پایتون میتوانند از آنها در پروژههای دادهکاوی خود استفاده میکنند. وبسایت پایتون تعداد زیادی از شرکتهایی را فهرست کردهاست که به این زبان متکی هستند، مانند پلتفرم منابع انسانی Gusto. این پلتفرم تجاری میگوید که پایگاههای داده پایتون «امکان توسعهی سریع و بدون دردسر ابزارهای دادهکاوی را به کاربران میدهد».
R
زبان برنامهنویسی R، مانند پایتون، زبان محبوبی است و در تجزیه و تحلیل دادهها مورد استفاده قرار میگیرد. محیط برنامه نویسی R بر روی “دستکاری دادهها (Data Manipulating)، محاسبه و نمایش گرافیکی” متمرکز است که این موارد همگی، از عناصر کلیدی دادهکاوی به حساب میآیند.
تحلیلگران داده از زبان R برای اجرای چند تکنیک دادهکاوی مانند طبقهبندی و خوشهبندی و همچنین تجسم نتایج استفاده میکنند. زبان R، که رایگان و منبع باز است، بیش از 18000 بسته همراه را ارائه میدهد؛ مانند دهها بسته که شامل دادهکاوی هستند.
Tableau
طبق گفته گارتنر، Tableau یکی از پلتفرمهای هوش تجاری پیشرو در جهان است و شرکتها به طور گسترده برای ارزیابی، تجزیه و تحلیل و انتقال اطلاعات داده، از آن استفاده میکنند.
پلتفرم Tableau هر دو نسخه رایگان و پولی را ارائه میدهد و کاربران میتوانند دادهها را از صفحات گسترده یا انبارهای داده عظیم وارد کنند. همچنین Tableau به کاربران خود این امکان را میدهد تا الگوهای داده یا روندها را کشف کنند (یکی از اهداف اصلی ماینینگ) و یافتههای خود را تجسم سازند.
تحلیلگران با استفاده از Tableau دیگر نیازی به یادگیری نحوهی استفاده از زبانهای برنامهنویسی مانند Python و R برای انجام پروژه دادهکاوی خود ندارند. شرکتهایی مانند Charles Schwab، Honeywell، Red Hat و Whole Foods از جمله شرکتهایی هستند که از Tableau استفاده میکنند. همچنین Tableau Public، نسخهی آنلاین و رایگان این پلتفرم است که تمامی افراد میتوانند با کمک آن اقدام به بصریسازی دیتا (تجسم داده) نمایند.
SAS
یک شرکت نرمافزار تحلیلی SAS، پلتفرمهای متعددی را برای دادهکاوی ارائه میدهد که کاربرانی که دارای مهارتهای آماری یا برنامهنویسی محدود هستند میتوانند از آنها استفاده کنند. فرآیند پلت فرم SAS Enterprise Miner، تمامی مراحل فرآیند CRISP-DM را پوشش میدهد و از یک کاربر ساده تا شرکتهای بزرگ را در خود جای میدهد.
همچنین SAS محصولاتی را برای هوش مصنوعی، ماشین لرنینگ، مدیریت داده، رایانش ابری و غیره میفروشد. کاربران میتوانند به طیف وسیعی از منابع آموزشی، حتی از جمله برخی از کلاسهای زنده دسترسی داشته باشند.
Hadoop
ابزار Apache Hadoop، چارچوب متن بازی برای ذخیره و پردازش مقادیر قابل توجهی داده است. کسانی که با کلان دادهها کار میکنند، چالشهای کار با مقیاس و انواع دادههای تولید شده را درک مینمایند. چارچوب Hadoop ذخیره، دسترسی و تجزیه و تحلیل دادهها را سریعتر و آسانتر میسازد. بسیاری از شرکتها مانند فیسبوک، شورون، ایبی و لینکدین، Hadoop را به عنوان بخشی از استراتژیهای دادهی خود قرار دادهاند.
Apache Spark
آپاچی اسپارک، بخشی از اکوسیستم Hadoop است که برای به روز رسانی عملکرد نگاشتکاهش یا MapReduce پردازش دادهها، توسعه داده شد. به گزارش InfoWorld، اسپارک به ابزار مهمی در دنیای کلاندادهها و ماشین لرنینگ تبدیل شدهاست.
مزیت اصلی Spark سرعت آن است. این پلتفرم میتواند بارهای کاری Hadoop را بسیار سریعتر از چارچوب معمولی اجرا کند. همچنین Spark شامل کتابخانههایی برای کار با زبان پرسمان ساختیافته (SQL) در پایگاه دادهها و ماشین لرنینگ است. بیش از 100 شرکت و سازمان برای پروژههای کلان دادهی خود از Spark استفاده میکنند.
RapidMiner
ابزار RapidMiner، پلتفرمیاست که بسیاری از وظایف تجزیه و تحلیل دادهها را خودکار میسازد. استودیوی RapidMiner، اقدام به ارائهی API میکند که دارای ویژگیهای کاربرپسند مختلفی است: رابط بصری با قابلیت کشیدن و رها کردن (Drag and Drop)، کتابخانهی مدلسازی با بیش از ۱۵۰۰ الگوریتم و عملکرد، و الگوهایی برای ارزیابی ریزش مشتری، انجام تحلیلهای پیشبینیکننده، و کشف کلاهبرداری.
کاربران میتوانند با استفاده از این ابزار (مانند سایر پلتفرمهای مشابه دیگر)، اکثر منابع داده از جمله پایگاههای دادهی داخلی را به RapidMiner متصل کرده و دادهها را بدون نوشتن کد SQL پیچیده، جستجو کنند. همچنین RapidMiner ابزارهایی را برای تهیه و تجسم دادهها (که یکی از زمان برترین اجزای پروژههای دادهکاوی است) ارائه میکند.
مدلسازIBM SPSS
مدلساز SPSS IBM، چارچوبی برای علم داده بصری و ماشین لرنینگ است. این ابزار به این منظور طراحی شدهاست تا متخصصان علم داده بتوانند کارهای خود را سریعتر انجام دهند. این ابزار از بیش از 40 الگوریتم برای تجزیه و تحلیل دادهها استفاده میکند و میتواند با چندین منبع داده (از جمله Hadoop و محیطهای مبتنی بر ابر) مورد استفاده قرار گیرد. همچنین این ابزار قابلیت یکپارچه شدن با Apache Spark را نیز دارد.
همچنین ابزار مدلساز SPSS با زبانهای برنامه نویسی مانند پایتون و R نیز ادغام میشود و دارای کتابخانهی آماری بزرگ و همچنین مجموعهی گستردهای از فیلمها و آموزشها است.
متداولترین تکنیکهای دادهکاوی چه مواردی هستند؟
متخصصان علم داده از روشهای مختلفی برای ذخیره و جستجوی دادهها و همچنین مدلهای مختلفی برای تجزیه و تحلیل آنها استفاده میکنند. تکنیکها و اصطلاحات فراوانی وجود دارند و تحلیلگران مشتاق داده باید با آنها آشنا باشند.
![داده کاوی](https://naserhojjati.com/wp-content/uploads/2023/11/woman-with-arrows.jpg)
ماشین لرنینگ
دادهکاوی و ماشین لرنینگ دارای ویژگیهای مشترکی هستند و هر دو زیر چتر علم داده قرار میگیرند. با این حال، آنها تفاوتهای مهمی نیز با یکدیگر دارند.
در حالی که دادهکاوی، فرآیند استخراج اطلاعات از دادهها است، ماشین لرنینگ فرآیندی است که فرآیند تجزیه و تحلیل دادهها را به رایانهها آموزش میدهد. در واقع متخصصان علم داده، اقدام به توسعهی الگوریتمهایی میکنند که به رایانهها آموزش میدهند تا بسیاری از فرآیندهای دادهکاوی که شرکتها به آنها نیاز دارند را انجام دهند: افزایش کارایی و حجم تجزیه و تحلیل قابل تکمیل.
معمولا ماشین لرنینگ به عنوان جزئی از دادهکاوی مورد استفاده قرار میگیرد. بسیاری از شرکتها از ماشین لرنینگ برای انجام تجزیه و تحلیلِ بخشبندی ویژگیهای مختلف بر روی پایگاه مشتری خود استفاده میکنند. به عنوان مثال، سرویسهای استریمینگ میتوانند از ماشین لرنینگ برای بررسی عادات تماشای کاربران و توصیه ژانرها یا برنامههای جدیدی که ممکن است دوست داشته باشند، استفاده کنند. به هر میزانی که الگوریتم بهتر باشد، به همان میزان نیز توصیهها دقیقتر و بهتر خواهند بود.
تجسم دادهها
پروژههای دادهکاوی که به شیوهی موفقیتآمیزی اجرا شدهاند میتوانند واضحترین و مفیدترین اطلاعات را در اختیار متخصصان و کارفرمایان قرار دهند. اما اگر این دادهها به صورت عددی در صفحه باشند، به درد تصمیمگیرندگان نخواهند خورد.
تجسم دادهها به تحلیلگران اجازه میدهد تا اکتشافات خود را از طریق چارتها، جدولها، نمودارهای پراکنده، نقشههای حرارتی، گرافیکهای مارپیچی، نمودارهای جریان و غیره به اشتراک بگذارند. تجسمها میتوانند ایستا یا تعاملی باشند و از همه آن که میتوانند اطلاعات حیاتی مورد نیاز برای تصمیمگیریهای کلیدی تجاری را به طور مؤثری منتقل کنند.
برخی از ابزارهایی که پیشتر به بررسی آنها پرداختیم، پلتفرمهای تجسم را ارائه میدهند؛ به این معنا که آن اعضای تیم که نمیتوانند کدنویسی کنند، همچنان میتوانند تجسم دادهها را ایجاد کنند. با این حال، بسیاری از متخصصان علوم داده برای تقویت مهارتهای تجسم خود، HTML/CSS یا جاوا اسکریپت را میآموزند.
تکنیکهای آماری
دادهکاوی از روشهای آماری مختلفی برای تجزیه و تحلیل مجموعه کلاندادهها استفاده میکند و پلتفرمهای دادهکاوی (مانند مواردی که در بالا بررسی شدند) میتوانند دادهکاوی را آسانتر کنند. با این حال، یادگیری تکنیکهای آماری دادهکاوی باعث میشود تا تحلیلگران بتوانند درک بیشتری از کاری که انجام میدهند و شیوهی اجرای بهتر آن، به دست آورند.
برخی از تکنیکهای آماری شامل رگرسیون، طبقهبندی، بازنمونهگیری (استفاده از نمونههای متعدد از یک مجموعه داده) و ماشینهای بردار پشتیبانی (زیر مجموعهی الگوریتمی طبقهبندی) میباشند.
وابستگی
تحلیلگران داده از قانون وابستگی برای یافتن روابط در الگوهای دادههای غیر شهودی استفاده میکنند و میفهمند که کدام ارزشهای تجاری به آن الگوها وابسته و مرتبط هستند.
تجزیه و تحلیلتراکنشی یا رفتار متقابل (Transactional Analysis)، یکی از انواع رایج وابستگی است. خردهفروشها مجموعهای از سفرهای خرید بسیاری از مشتریان را اسکن میکنند و در بسیاری از معاملات برای یافتن الگوها جستجو میکنند. این تجزیه و تحلیل، الگوهایی که انتظار یافتن آنها را دارید (مانند کره بادام زمینی و ژله، سس مایونز و نان) را برجسته میکند. همچنین این ارتباط، الگوهایی را نشان میدهد که روابط غیر شهودی (مانند کافی کریمر و خوشبوکنندهی هوا) دارند. سپس بررسی عمیقتری بر روی این الگوهای وابستهی شناساییشده صورت میگیرد و آنها یا تأیید میشوند و به عنوان اطلاعات کاربردی منتقل میشوند (به عنوان مثال، الگوی خامه قهوه/خوشبوکننده هوا به دلیل موارد فصلی مانند خامه زنجبیلی و خوشبوکننده هوای بلسان رخ میدهد) و یا به عنوان اختلالآور، کنار گذاشته میشوند (به عنوان مثال، همزمان با برنامههای تبلیغاتی، دو کالا را به طور مکرر در یک زمان به فروش برسند).
طبقهبندی
تکنیک طبقهبندی به ویژگیهای مرتبط با یک مجموعهی داده میپردازد که نتیجهی مشخصی در آن رایج است (به عنوان مثال، مشتریانی که تخفیف خاصی را دریافت کرده و استفاده کردهاند). این تکنیک سپس به دنبال آن ویژگیهای رایج در یک مجموعهی دادهی گستردهتر میگردد تا مشخص کند که کدام نقاط داده میتوانند منعکسکنندهی آن نتیجه باشند (به عنوان مثال، کدام مشتریان تمایل دارند که در صورتی که تخفیفی به آنها ارائه شود، از آن استفاده کنند). مدلهای طبقهبندی میتوانند به کسب و کارها کمک کنند تا بودجهی مؤثرتری داشته باشند، تصمیمات تجاری بهتری اتخاذ کنند و نرخ بازگشت سرمایه (ROI) را با دقت بیشتری تخمین بزنند.
درختهای تصمیم (Decision Trees) زیرمجموعهای از ماشین لرنینگ میباشند. آنها الگوریتمهایی هستند که هنگام اجرای مدلهای طبقهبندی یا رگرسیون در دادهکاوی مورد استفاده قرار میگیرند. این الگوریتم میتواند سوالات سادهی بله یا خیر را از نقاط داده بپرسد تا بتواند آنها را در گروههای مختلفی طبقهبندی کند. این کار به کسب اطلاعات مفید کمک میکند. به عنوان مثال ممکن است که مؤسسات مالی به منظور مشخص کردن واجد شرایط بودن وام بر اساس دادههای طبقهبندی مرتبط مانند آستانهی درآمد، مدت تصدی حساب، درصد اعتبار استفادهشده و امتیاز اعتباری مورد استفاده، از درخت تصمیم بهره ببرند
خوشهبندی
دادهکاویها میتوانند با استفاده از خوشهبندی، گروههایی را در یک مجموعهی داده بر اساس ویژگیهای مشابه شناسایی کرده و ایجاد نمایند. این فرآیند به منظور تجزیه و تحلیل داده، آنها را به زیر مجموعهها یا خوشهها تقسیم میکند. انجام این کار، تصمیمگیری آگاهانهتری را بر اساس مجموعههای هدفمند دادهها، فراهم میکند.
تحلیلگران از چندین تکنیک خوشهبندی مختلف استفاده میکنند. آنها از روش پارتیشن بندی استفاده میکنند؛ به عنوان مثال، تقسیم دادهها به خوشههایی که بتوان آنها را به طور جداگانهای تجزیه و تحلیل کرد. الگوریتم K-Means روش محبوبی برای خوشهبندی پارتیشنی است. این الگوریتم بدینگونه عمل میکند که ابتدا به کاربر اجازه میدهد تا تعدادی K-cluster را به عنوان مرکز (یا نقاط مرکزی) یا تکرارهایی که الگوریتم از طریق آنها اجرا میشود، انتخاب کند. سپس، نزدیکترین اشیاء به این نقاط گروهبندی میشوند تا «تعداد K خوشه» را تشکیل دهند و با هر تکرار، فاصلهی مرکز برای هر خوشه تغییر میکند و بر این اساس بهروزرسانی میشود. این فرآیند تا زمانی تکرار میشود که در هیچ خوشهای هیچ تغییری در فاصلهی مرکز ایجاد نشود. یکی از کاربردهای جالب استفاده از الگوریتم K-Means در خوشهبندی پارتیشن آن است که هنگام انتخاب تیم فانتزی فوتبال، به دنبال بازیکنان کماستفاده/کشف نشده بگردید. این الگوریتم میتواند از آمار یک بازیکن فوقستاره بهعنوان مرکز استفاده کند و سپس از طریق تکرارهایی که دستههایی از ویژگیها یا بازیکنان را شناسایی میکند (بر اساس ویژگی)، بهره ببرد.
برعکس، در روش سلسله مراتبی، نقاط دادهی منفرد به عنوان یک خوشهی منفرد در نظر گرفته میشوند و سپس میتوان آنها را بر اساس شباهتهای آنها گروهبندی کرد. دندروگرام، نمونه عملی از روش سلسله مراتبی است. در واقع دندروگرام، ساختار شبکهای درختمانندی است که از نقاط داده یا گرههای به هم پیوسته تشکیل شده است. این ساختار برای نشان دادن روابط طبقهبندی، مورد استفاده قرار میگیرد. دندروگرامها، تکنیک تجسم رایجی برای نمایش خوشههای سلسله مراتبی هستند. در مثال تیم فانتزی فوتبال میتوان از دندروگرام برای تجسم فرآیندی استفاده شود که یا ما انتخاب کردهایم و یا طبق ارزیابیها و ویژگیهای مورد نظر ما بر اساس گزینههای بازیکن بودهاست.
پاکسازی و آمادهسازی دادهها
طبق گفتهی فوربس، یکی از مشکلات اصلی تجزیه و تحلیل دادهها، وجود دادههای بد است. به همین دلیل نیز، پاکسازی و آمادهسازی دادهها اهمیت زیادی دارد.
این فرآیند بر دستیابی به دادههای مناسب و اطمینان از دقیق و سازگار بودن آنها تمرکز دارد. خطاها، تفاوتهای قالببندی و مجموعههای تهی غیرمنتظره میتوانند باعث ایجاد اختلال در فرآیند ماینینگ شوند.
مراحل پاکسازی دادهها شامل تأیید فرمت صحیح دادهها، حذف دادههای غیر ضروری یا نامربوط، حذف مجموعههای تکراری و تصحیح مسائل ساده مانند خطاهای ورودی هستند. حتی بهترین الگوریتم نیز نمیتواند با دادههای ناقص یا خراب کار کند.
ذخیرهسازی دادهها
کسب و کارهایی که تولید محصول دارند به مکانهای قابل دسترس، امن و سازمانیافتهای نیاز دارند تا بتوانند آن محصولات را تا زمان توزیع، ذخیره کنند. همین موضوع دربارهی دادهها نیز صدق میکند.
کسب و کارهایی که حجم قابل توجهی از دادهها را ایجاد میکنند باید آنها را به درستی جمعآوری کرده و ذخیره نمایند تا بتوانند تجزیه و تحلیل مناسبی از آنها داشته باشند. انبار داده (Data Warehouse)، فرآیند سه مرحلهای است که معمولاً با عنوان ETL شناخته میشود؛ این عبارت، مخفف کلمات استخراج (Extract)، تبدیل (Transform) و بارگذاری (Load) است. دادهها از منبع خود به منطقهی عملیاتی استخراج میشوند، جایی که تبدیل (یا پاکسازی) و اعتبارسنجی صورت میگیرد. سپس در انبار داده، بارگذاری میشوند.
انبارداری مناسب، اهمیت زیادی برای کسب و کارهایی دارد که حجم زیادی از دادهها را تولید میکنند. کسب و کارها میتوانند با ذخیرهی درست این دادهها، به راحتی آنها را برای الگوها و روندها، دادهکاوی کنند.
یافتن دادههای پرت
اکثر تکنیکهای دادهکاوی به دنبال یافتن الگو در دادهها هستند. در یافتن دادههای پرت باید به دنبال پیدا کردن نمونههایی بود که منحصر به فرد هستند.
این فرآیند به دنبال دادههایی میگردد که با بقیهی مجموعه در تضاد هستند. این دادهها میتوانند شامل خطاها باشند (شاید برخی از دادهها به اشتباه وارد شده باشند) یا دادههایی که اطلاعات تجاری منحصر به فردی را ارائه میدهند. تحلیلگران میتوانند مقدار عددی پرت بودن را آزمایش کنند، یکDBScan (که نقاط نویز را مشخص میکند) را اجرا کنند، یا ناهنجاریها را در مجموعهی بزرگی از دادهها (جنگل ایزوله) جدا کنند.
یافتن دادههای پرت میتواند به کسب و کارها کمک کند تا خریدهای منحصر به فرد را درک کنند (به عنوان مثال، لباسهای شنا در زمستان)، کلاهبرداریها را شناسایی نمایند و جریان لجستیکی موجود در فرآیند تولید را بهبود بخشند.
پیشبینی
یکی از اهداف اساسی دادهکاوی، پیشبینی است. کسب و کارها از مدلسازی پیشبینی برای پاسخ به این سوال استفاده میکنند: «چه اتفاقی در آینده خواهد افتاد؟»
مدلهای پیشبینی، الگوها را در دادهها پیدا میکنند، سپس از آن الگوها برای ایجاد پیشبینی استفاده مینماید. این پیشبینیها میتوانند شامل عادات هزینههای مصرفکننده، نیازهای موجودی تأمینکننده، سایتهایی که افراد از آنها بازدید کنند و غیره باشند.
انواع مختلفی از مدلهای پیشبینی در دسترس هستند. مدل سازی پیشبینی به دنبال پاسخ به یک سوال خاص است. به عنوان مثال، فروشنده خودرو باید در ماه آینده چند خودروی شاسی بلند داشته باشد؟ مدلسازی سریهای زمانی، دادهها را بر اساس تاریخ ورودی آنها تجزیه و تحلیل میکند؛ مانند فروش محصول در یک سال خاص که ممکن است به پیشبینی فروش سالهای بعد کمک کند.
رگرسیون
در دادهکاوی، رگرسیون برای تجزیه و تحلیل روابط میان متغیرها به عنوان بخشی از فرآیند مدلسازی پیشبینی، مورد استفاده قرار میگیرد. میتوان از آن برای پیشبینی فروش، سود، حجم محصول مورد نیاز، دادههای آب و هوا و حتی نرخ بهبودی بیماران استفاده کرد. تحلیلگران در وهلهی اول از دو مدل رگرسیون استفاده میکنند. رگرسیون خطی، رابطهی بین دو متغیر را تخمین میزند. به عنوان مثال ممکن است که یک محقق اجتماعی، رابطهی بین موقعیت مکانی یک فرد و شادی کلی را مطالعه کند و از تحلیل رگرسیون برای تعیین این موضوع که آیا بین این دو متغیر، رابطه خطی وجود دارد یا خیر، استفاده نماید. همچنین رگرسیون خطی میتواند برای پیشبینی قیمت مسکن در بازار املاکی که خانهها به طور کلی از نظر اندازه و ساختار در حال افزایش هستند، استفاده شود. در این مورد، یک متغیر (تغییرات در اندازه و ساختار خانه) در رابطه با متغیر دیگر (تغییرهای بعدی در قیمت) تحلیل میشود.
از سوی دیگر، رگرسیون چندگانه، رابطهی بین متغیرهای متعدد یا نقاط داده را توضیح میدهد. به عنوان مثال، تحلیلگران در هنگام تجزیه و تحلیل دادههای پزشکی مانند فشار خون یا سطح کلسترول میتوانند از مدلهای رگرسیون چندگانه برای بررسی متغیرهای مرتبطی مانند قد، سن و زمان صرفشده برای ورزش هوازی در یک هفته، استفاده کنند.
میتوان به منظور تعیین میزان احتمال رسیدن به یک خروجی خاص از دو نتیجه، از درخت تصمیم در مدلهای رگرسیون استفاده کرد. این مثال را در نظر بگیرید: یک شرکت دارای مجموعه ای از دادهها است که مشتریان را مرد یا زن و بر اساس سنشان مشخص کردهاست. این شرکت با کمک الگوریتم درخت تصمیم میتواند یک سری سؤال بپرسد (“آیا مشتری زن است؟” و “آیا مشتری کمتر از 35 سال است؟”) و نتایج را بر اساس آن، گروهبندی کند. این شیوه، ابزار رایجی در استراتژی بازاریابی است که به منظور هدف قرار دادن مشتریان بالقوه بر اساس جمعیتشناسی، مورد استفاده قرار میگیرد.
الگوهای متوالی
کاوش الگوهای متوالی، به دنبال رویدادهایی است که غالبا در دادهها رخ میدهند. این فرآیند شبیه قانون وابستگی است زیرا به دنبال یافتن روابط میباشد، اما این شیوه، الگوی منظمی را تشکیل میدهد.
یکی از مثالهای مرتبط با این زمینه، الگوهای خرید است. معمولا خرده فروشان، محصولات را در نزدیکی یکدیگر قرار میدهند چرا که اغلب مشتریان به ترتیب خرید میکنند. مثال دیگر، شیوهای است که تبلیغات اینترنتی، مخاطبان را هدف قرار میدهد. این هدف قرار دادن، بر اساس الگوی کلیک مرورگر میباشد. کسب و کارها میتوانند با استفاده از الگوهای متوالی، نتایج را به صورت دقیقتری پیشبینی کنند.
ردیابی الگوها
فرآیند ردیابی الگو، اهمیت زیادی برای دادهکاوی دارد. تحلیلگران، روندها و الگوهای دادههای مرتبط با پیشرفت زمان را رصد میکنند. این کار به آنها اجازه میدهد تا بتوانند نتایج حساس به زمان بالقوه را پیشبینی کنند.
کسب و کارها باید بدانند که محصولاتشان چگونه، چه زمانی و چند وقت یکبار خریداری می شوند. برای مثال، یک تولیدکنندهی تجهیزات ورزشی میتواند با دنبال کردن فروش فصلی وسایل بیسبال، توپهای فوتبال یا اسنوبرد، زمانهای مناسب برای اجرای برنامههای بازیابی یا تبلیغاتی را شناسایی کند. مثال دیگر، اقامتگاهها هستند که میتوانند الگوهای خرید قبل از تعطیلات آخر هفته را دنبال کنند تا بفهمند چه مقدار کرم ضد آفتاب و آب معدنی دستنخورده باقی میمانند.
مهارتهای مورد نیاز برای افزایش تجربه در زمینهی تجزیه و تحلیل دادهها
طبق گزارش اداره آمار کار ایالات متحده (BLS)، صنعت علوم کامپیوتر و تحقیقات اطلاعات (که شامل تجزیه و تحلیل دادهها است) تا سال 2030 تا 22 درصد رشد خواهد کرد. دادهکاوی یکی از مهارتهایی است که میتواند احتمال مشغول به کار شدن شما در این زمینه را افزایش دهد. در زیر چند مهارت دیگر نیز معرفی شدهاند:
مایکروسافت اکسل: این ابزار، بسیار وسیعتر از یک صفحه گسترده است. تحلیلگران میتوانند با استفاده از اکسل اقدام به برنامهنویسی VBA، مدلسازی آماری و انجام پیشبینیهای مختلف نمایند. اکسل هنوز هم به عنوان ابزار قدرتمندی در دنیای دادهها شناخته میشود.
ابزار پایتون: کتابخانههایی مانند NumPy، Pandas، Matplotlib و Beautiful Soup به اهمیت پایتون در علم داده کمک میکنند.
کار با پایگاه داده: به یادگیری برنامه نویسی در SQL، NoSQL و MySQL توجه داشته باشید. همچنین نحوهی کار با فریمورکهایی مانند MongoDB را نیز فرا بگیرید.
تکنیکهای تجسم یا بصریسازی: مدیران و تصمیمگیرندگان به دادههایی توجه میکنند که نه تنها قابل اجرا هستند، که از نظر بصری نیز قانعکننده به نظر برسند. شما میتوانید با یادگیری نحوهی تجسم دادهها با استفاده از HTML/CSS، جاوا اسکریپت و غیره، دادههای خود را زنده کنید.
شرکتها به دنبال چیزی فراتر از دادهها هستند. آنها به متخصص ماهری نیاز دارند که بداند چگونه دادهها را به موفقیت تجاری تبدیل کند. شما میتوانید با افزایش مهارت خود در دادهکاوی و سایر تکنیکهای تحلیلی دیگر، سابقهی کاری جذابی را برای خود فراهم کنید.