👀 Computer Vision ගැන සරලව

අද මම ඔයාලත් එක්ක කතා කරන්න යන්නේ කෘත්‍රිම බුද්ධිය (AI) ලෝකයේ තියෙන මාරම මාතෘකාවක් ගැන. උදේට නැගිට්ටහම ජනේලෙන් එළිය බලද්දී, පාරේ යන වාහන, අහසේ යන කුරුල්ලෝ අඳුරගන්න අපිට කිසිම අමාරුවක් නෑනි, අපේ ඇස් දෙකයි මොළයයි ඒ දේ ඉතා ඉක්මනින් Process කරලා ඉවරයි. ඒත් වයර් සහ ඉලක්කම් (0 සහ 1) විතරක් තේරෙන කම්පියුටර් එකකට කොහොමද අපි මේ ලෝකය පෙන්නන්නේ? අන්න ඒ තාක්ෂණයට තමයි අපි සරලව **Computer Vision ** කියලා කියන්නේ.

ඔයාගෙ ෆෝන් එකට මූණ පෙන්නුවම phone එක අන්ලොක් (Face ID) වෙන්නේ කොහොමද? ඩ්‍රයිවර් කෙනෙක් නැතුව Tesla කාර් පාරේ යන්නේ කොහොමද? මේ හැමදේම පිටිපස්සේ තියෙන මැජික් එක අද සරලව කතා කරමු.

_{Source Image}

ඉතින් මොකක්ද මේ Computer Vision කියන්නේ? 🤔

මේක සරලවම කියන්නම්. Computer Vision කියන්නේ කෘත්‍රිම බුද්ධියේ (AI) එක්තරා කොටසක්. මේකෙන් කරන්නේ photos, videos දිහා බලලා ඒවයේ තියෙන්නේ මොනවද කියලා තේරුම් ගන්න Computer වලට උගන්නන එකයි.

අපිට ඇස් තියෙනවා වගේ කම්පියුටර් එකට කැමරා තියෙනවා. අපිට ඒ පේන දේවල් තේරුම් ගන්න මොළයක් තියෙනවනි එ වගෙ කම්පියුටර් එකට Machine Learning Algorithms තියෙනවා. මේ කැමරාවයි, ඇල්ගොරිතම ටිකයි එකතු වුණාම තමයි පරිගණකයට මේ "Vision" ලැබෙන්නේ.

කම්පියුටර් එකක් ඇත්තටම ෆොටෝ එකක් දකින්නේ කොහොමද? 📸

අපි ලස්සන මලක් දැක්කම අපිට ඒකේ පාට, හැඩය පේනවනේ. ඒත් මම ඔයාලට කිව්වොත් කම්පියුටර් එකට කිසිම ෆොටෝ එකක් පේන්නේ නෑ, ඒකට පේන්නේ ඉලක්කම් ගොඩක් විතරයි කියලා, ඔයාලා විශ්වාස කරනවද? ඔව්, ඒක තමයි ඇත්ත!

ඔයාලා ෆොටෝ එකක් ගොඩාක් සූම් (Zoom in) කරලා බලලා තියෙනවද? එහෙම කරහම ඔයාලට පෙනෙයි ෆොටෝ එක හැදිලා තියෙන්නේ පුංචි පුංචි හතරැස් කොටු ගොඩකින් කියලා. අපි මේවට කියනවා Pixels කියලා.

කම්පියුටර් එකක් කරන්නේ මේ හැම පික්සල් එකකම තියෙන පාට, ඉලක්කමකට හරවන එකයි. සාමාන්‍යයෙන් මේවා RGB (Red, Green, Blue) විදිහට තමයි තියෙන්නේ. කම්පියුටර් එක දකින්නේ 0 ඉඳලා 255 වෙනකන් තියෙන ඉලක්කම් වලින් හැදුණු ලොකූ වගුවක් (Matrix එකක්) විතරයි. (0 කියන්නේ කළු පාට, 255 කියන්නේ සුදු පාට).

අපි පොඩි සෙල්ලමක් කරමුද? 🎮

නිකන්ම කියවනවට වඩා, ඇත්තටම කම්පියුටර් එකක් ෆොටෝ එකක් process කරන්නේ කොහොමද කියලා ඔයාලටම අත්හදා බලන්න මම පහළින් පොඩි Interactive Widget එකක් හැදුවා. ඒකේ තියෙන බටන්ස් ක්ලික් කරලා බලන්න, සාමාන්‍ය ෆොටෝ එකක දාර (Edges) කම්පියුටර් එක හොයාගන්නේ කොහොමද, ෆොටෝ එකක් පික්සල් විදිහට කම්පියුටර් එකට පේන්නේ කොහොමද කියලා.

(ඔබට පහතින් ඇති බටන්ස් ක්ලික් කර වෙනස්කම් නිරීක්ෂණය කළ හැක)

🔍 Computer Vision Simulator

පරිගණකයක ඇසින් ලෝකය දකින්න! පහතින් ඇති Filters ඔබා බලන්න.

සාමාන්‍ය රූපය (Original)

පෙරහන් (Filters) තෝරන්න

Edge detection දැම්මහම ඔයාලට පේනවා නේද ෆොටෝ එකේ තියෙන හැඩතල (කාර් එකේ හැඩය, ඉරේ හැඩය) කම්පියුටර් එක සුදු පාට ඉරි වලින් වෙන් කරලා අඳුරගන්න විදිහ? අන්න ඒ වගේ මූලික දේවල් වලින් පටන් අරන් තමයි AI එක ලොකු ලොකු දේවල් අඳුරගන්න පුරුදු වෙන්නේ.

Computer Vision වල ප්‍රධාන වැඩ 4 මොනවද? 🛠️

ඔයාලා හිතන්න එපා කම්පියුටර් එකට අපි වගේ එකපාරටම ෆොටෝ එකක් දැක්කම හැමදේම තේරෙනවා කියලා. මේක ප්‍රධාන කොටස් 4 කට බෙදන්න පුළුවන්.

Image Classification (රූප වර්ගීකරණය) - "මේ මොකක්ද?" 🐶 මම කම්පියුටර් එකට ෆොටෝ එකක් දාලා අහනවා "මේ බල්ලෙක්ද? පූසෙක්ද?" කියලා. කම්පියුටර් එක ෆොටෝ එක process කරලා කියනවා "මේක බල්ලෙක්" කියලා. ඔයාලා Google Photos වල "Dog" කියලා සර්ච් කරහම ඔයාලගේ Search results එකේ තියෙන්නෙ බල්ලන්ගේ photos විතරක් එන්නේ මේ තාක්ෂණය නිසා.
Object Detection (වස්තු හඳුනාගැනීම) - "ඒක තියෙන්නේ කොහෙද?" 🚗 ෆොටෝ එකේ ඉන්නේ බල්ලෙක් කියලා කිව්වට විතරක් මදි. ඌ ඉන්නේ ෆොටෝ එකේ කොතනද කියලා හොයන්නත් ඕනේ. මෙතනදී කම්පියුටර් එක කරන්නේ ෆොටෝ එකේ තියෙන කාර්, මිනිස්සු, සත්තු හොයලා ඒ හැම එකක් වටේටම පාට පාට කොටුවක් (Bounding Box එකක්) අඳින එකයි.

_{Source Image}

Image Segmentation (රූප ඛණ්ඩනය) ✂️ මේක අර කොටු අඳිනවට වඩා මාරම සූක්ෂම වැඩක්. හිතන්න ඔයාලා Canva එකේ හරි Photoshop වල හරි ෆොටෝ එකක Background එක අයින් කරනවා (Remove BG) කියලා. අන්න ඒ වගේ, හරියටම මනුස්සයගෙ හැඩේටම කපලා වෙන් කරගන්න එකට තමයි Segmentation කියන්නේ.
Facial Recognition (මුහුණු හඳුනාගැනීම) - "මේ කවුද?" 🧑‍🦱 මේක නම් ඔයාලා හැමෝම දන්නවා. ඔයාලගේ ඇස් දෙක තියෙන දුර, නහයේ හැඩය වගේ දේවල් මැනලා "මේ ඉන්නේ මගේ බොසා" කියලා ෆෝන් එක අඳුරගන්න එක.

පරිගණකය මේවා තේරුම් ගන්න ඉගෙන ගන්නේ කොහොමද? 🧠

මම ඔයාලට කිව්වොත්, කම්පියුටර් එකට ෆොටෝ අඳුරගන්න උගන්නන එක හරියට පොඩි ළමයෙකුට උගන්නනවා වගේ වැඩක් කියලා.

හිතන්න ඔයාලගේ ගෙදර ඉන්න පොඩි මල්ලිට හරි නංගිට හරි බල්ලෙක්ව අඳුරගන්න කියලා දෙනවා. ඔයා මොකද කරන්නේ? පොතක් අරන් බල්ලන්ගේ ෆොටෝස් 10-15 ක් පෙන්නලා කියනවා "ඔන්න බලන්න, මේ ඉන්නේ බල්ලා" කියලා. ඊටපස්සේ ඒ ළමයා පාරේ යන ඕනෑම බල්ලෙක්ව දැක්ක ගමන් අඳුරගන්නවා.

අපි කම්පියුටර් එකටත් කරන්නේ ඕකමයි! අපි කම්පියුටර් එකට කියනවා නෑ "බල්ලෙකුට කන් දෙකක් තියෙනවා, වලිගයක් තියෙනවා" කියලා නීති දාලා. මොකද පූසටත් ඒවා තියෙනවනේ. ඒ වෙනුවට අපි කරන්නේ Deep Learning (Convolutional Neural Networks - CNN) කියන AI මොළයට බල්ලන්ගේ ෆොටෝස් ලක්ෂ ගණනක් පෙන්නන එක.

කම්පියුටර් එක මේ ෆොටෝස් ලක්ෂ ගාන දිහා බලලා තනියම ඉගෙන ගන්නවා "ආ.. බල්ලෙක් නම් මෙන්න මේ වගේ හැඩයක් තමයි තියෙන්න ඕනේ" කියලා.

එකම වෙනස මනුස්සයෙක සුලු දත්ත ප්‍රමානයකින් තෙරුම් කරන්න පුලුවන් දෙ AI එකක්ට හොදින් තෙරුම් ගන්න විශාල dataset යොදාගෙන traing කරන්න වෙනවා

අපේ එදිනෙදා ජීවිතේ මේවා පාවිච්චි වෙන්නේ කොහෙද? 🌍

" ඔය Technology එකෙන් මට තියෙන වාසිය මොකක්ද?" කියලා ඔයාලට හිතෙන්න පුළුවන්. ඒත් ඇත්තම කතාව, ඔයාලා නොදැනුවත්වම හැමදාම මේ දේවල් පාවිච්චි කරනවා.

Social Media Filters (Snapchat / Instagram): ඔයාලා ස්නැප්චැට් එකේ බල්ලගෙ කන් දාලා, දිව දාලා ෆොටෝ අරන් තියෙනවනේ? ඔයා ඔලුව හොලවද්දි ඒ කන් දෙකත් ඔයාගේ ඔලුව එක්කම යන්නේ කොහොමද? අන්න එතන ඔයාගේ මුහුණේ තියෙන ඇස්, නහය, කට Real-time ට්‍රැක් කරන්නේ මේ Computer Vision තාක්ෂණයෙන්.
Self-Driving Cars (ස්වයංක්‍රීය වාහන): ටෙස්ලා (Tesla) වගේ කාර් පාරේ තනියම යන්නේ වාහනේ වටේට තියෙන කැමරා වලින් අර අපි කලින් කතා කරපු Object Detection පාවිච්චි කරලා පාරේ යන අනිත් කාර්, පාර පනින මිනිස්සු අඳුරගන්න නිසයි.
Amazon Go Stores: මේක මාරම ගැජට් එකක්. ඇමසන් සමාගමේ තියෙනවා සුපර් මාර්කට් වගයක් මුදල් අයකරන අය (Cashiers) නැති. ඔයාට තියෙන්නේ කඩේට ගිහින් ඕන බඩු ටික අරන් එළියට එන්න විතරයි. ඔයා ගත්තේ මොනවද කියලා කඩේ උඩ තියෙන කැමරා වලින් (Computer Vision හරහා) අඳුරගෙන ඔයාගේ කාඩ් එකෙන් ගාණ කපාගන්නවා!

හැබැයි මේකේ පොඩි අවුලකුත් තියෙනවා (Chihuahua vs. Muffin Problem)

කම්පියුටර්ස් කොච්චර ස්මාර්ට් වුණත්, සමහර වෙලාවට අපිට හිනායන විදිහේ මෝඩ වැඩත් කරනවා.

මුල් කාලේදී AI රිසර්ච් කරන අයට ආපු ලොකුම ප්‍රශ්නයක් තමයි කම්පියුටර් එකට Chihuahua (චිහුවාවා) කියන බලු වර්ගයයි, Blueberry Muffins (කප් කේක් ජාතියක්) යි වෙන් කරලා අඳුරගන්න බැරි වෙච්ච එක. මොකද ඒ බල්ලගෙ මූණයි, ඒ කේක් එකේ හැඩයයි දෙකම එක වගේ! බල්ලගෙ ඇස් දෙකයි නහයයි හරියට කේක් එකේ තියෙන බ්ලූබෙරි ඇට වගේමයි කම්පියුටර් එකට පෙනුණේ.

ඒත් අද වෙද්දී නම් තාක්ෂණය ගොඩක් දියුණුයි, දැන් නම් කම්පියුටර් එක අපිව වුණත් රවට්ටන තරමටම දක්ෂ වෙලා තියෙන්නේ.

මගේ අදහස... 💡

Computer Vision කියන්නේ නිකන්ම Sci-Fi ෆිල්ම්ස් වලට සීමා වෙච්ච දෙයක් නෙවෙයි. මේ වෙද්දිත් වෛද්‍යවරුන්ට පිළිකා සෛල හොයාගන්න, ගොවියන්ට ලෙඩ වෙච්ච ගස් හොයාගන්න මේ තාක්ෂණය උදව් වෙනවා. ඉස්සරහට එන Augmented Reality (AR) වගේ දේවල් එක්ක (උදාහරණයක් විදිහට Apple Vision Pro) අපේ ලෝකය සම්පූර්ණයෙන්ම වෙනස් වෙන්න යනවා.

ඉතින් ඊළඟ පාර ඔයාගේ ෆෝන් එකේ කැමරාවෙන් මොකක් හරි ෆොටෝ එකක් අරන් AI එකකින් Edit කරද්දී, තත්පරෙන් දාහෙන් පංගුවක් ඇතුළත ඒ සිද්ධවෙන දැවැන්ත ක්‍රියාවලිය ගැන පොඩ්ඩක් හිතලා බලන්න!

ඔයාලට මොකද හිතෙන්නේ? කවදාහරි දවසක කම්පියුටර් වලට මිනිස්සුන්ගේ ඇස් වලට වඩා හොඳට දේවල් තේරුම් ගන්න පුළුවන් වෙයිද? පල්ලෙහායින් කමෙන්ට් එකක් දාන්න, අපි ඒ ගැන කතා කරමු! 👇

(ඔබට මෙම ලිපිය වැදගත් වුණා නම් යාලුවන් එක්ක Share කරන්නත් අමතක කරන්න එපා!)