Камп’ютарны зрок

З пляцоўкі Вікіпедыя
Jump to navigation Jump to search

Камп’ютарны зрок — междысцыплінарная сфера дзейнасці, якая адказвае на пытанне, якія аперацыі могуць быць зроблены, каб атрымаць высокаўзроўневае уражанне ад фатаграфій і відэа. З пункту гледжання распрацоўкі, гэта спроба аўтаматызаваць задачы, за якія адказвае зрок чалавека.

Задачы камп’ютарнага зроку уключаюць у сябе метады для атрымання, апрацоўкі, аналізу і разумення лічбавых выяў з вылучэннем мнагамерных дадзеных з рэальнага свету каб выдаць колькасную ці сімвальную інфармацыю у тым ліку у форме вырашэнняў. Разуменне ў гэтым кантэксце азначае трансфармацыю візуальных вобразаў (уваходныя дадзеныя сятчаткі) у апісанне навакольнага свету, якое можа ўзаемадзейнічаць з іншымі мысліцельнымі працэсамі і выклікаць адпаведныя дзеянні. На гэтае разуменне выяў можа глядзець як на вылучэнне сімвальнай інфармацыі з дадзеных выявы выкарыстоўваючы мадэлі пабудаваныя з дапамогай геаметрыі, фізікі, статыстыкі і тэорыі навучання.

Як навуковая дысцыпліна, камп’ютарны зрок звязаны з тэорыяй, на якой грунтуюцца штучныя сістэымы для вылучэння інфармацыі з выяў. Візуальныя дадзеныя могуць прымаць шмат форм, такіх як відэапаслядоўнасці, віды з некалькіх камер альбо мнагамерныя дадзеныя з медыцынскага сканера. Як тэхналагічная дысцыпліна, камп’ютарны зрок імкнецца прымяняць свае тэорыі і мадэлі для пабудовы сістэм камп’ютарнага зроку.

Падгаліны камп’ютарнага зроку уключаюць у сябе рэканструкцыю сцэн, выяўленне падзей, відэаадсочванне, ідэнтыфікацыя аб’ектаў, арыентацыя у трохмернай прасторы, навучэнне, індэксаванне, ацэнка руху і рэстаўрацыя выяў.

Гісторыя[правіць | правіць зыходнік]

Пры канцы 1960х камп’ютарны зрок з’явіўся ва універсітэтах, якія былі першапраходцамі ў штучным інтэлекце. Яно было прызначана для імітацыі візуальнай сістэмы чалавека, як трамплін да надзялення робатаў інтэлектуальным паводзінамі. У 1966 году лічылася, што гэта можа быць дасягнута няцяжкім праектам, шляхам далучэння камеры да камп’ютара, які апіша, што бачыць.

Што адрознівала у той час камп’ютарны зрок ад пераважаючай галіны лічбавай апрацоўкі малюнкаў, было жаданнем атрымаць трохмерны структуру з малюнкаў з мэтай дасягнення поўнага разумення сцэны. Даследаванні, праведзеныя ў 1970-х гадах фармавалі першыя асновы для многіх алгарытмаў камп’ютарнага зроку, якія існуюць сёння, у тым ліку здабывання краёў з малюнкаў, маркіровак ліній, без шматграннага і шматграннага мадэлявання, прадстаўлення аб’ектаў як міжзлучэнняў невялікіх структур, аптычнага патоку, і ацэнкі руху.

Наступнае дзесяцігоддзе адзначылася даследаваннямі, заснаванымі на больш строгім матэматычным аналізе і колькасным аспекце камп’ютарнага зроку. Яны ўключаюць у сябе паняцце маштабу-прасторы, высновы аб форме на аснове зацянення, тэкстуры, фокусу і мадэль контураў, вядомай як «змейка». Даследнікі таксама зразумелі, што многія з гэтых матэматычных паняццяў могуць разглядацца ў тых жа рамках аптымізацыі, што рэгулярызацыя і выпадковыя палі Маркава. Да 1990х некаторыя тэмы даследаванняў сталі больш актыўнымі чым іншыя. Даследаванні ў галіне праекцыйных 3-D рэканструкцый прывяло да лепшага разумення каліброўкі камеры. З з’яўленнем метадаў аптымізацыі для каліброўкі камеры, стала зразумела, што многія ідэі ўжо былі вывучаны ў тэорыі карэктыроўкі сувязяў з вобласці фотаграметрыі. Гэта прывяло да спосабаў разрэджаных 3-D рэканструкцый сцэн з некалькіх малюнкаў. Быў дасягнуты прагрэс у праблеме шчыльнага стэрэа і далейшых метадах шматпраекцыйнага стэрэа. У той жа час, былі выкарыстаныя варыяцыі графа разрэзу дзеля сегментацыі выявы. У гэтым дзесяцігоддзе таксама ўпершыню метады статыстычнага навучання былі выкарыстаны на практыцы для распазнання асоб у малюнках (гл Eigenface). Да канца 1990-х гадоў, значныя змяненні адбыліся з павелічэннем узаемадзеяння паміж сферамі камп’ютарнай графікі і камп’ютарным зрокам. Гэта ўключала ў сябе рэндэрынг на аснове выявы, морфинг, інтэрпаляцыю сцэны, сшыванне панарамных выяў і ранняю візуалізацыю светлавых палёў.

Апошнія працы адмечаны адраджэннем метадаў заснаваных на вылучэнні дэталяў, якія выкарыстоўваюцца ў спалучэнні з метадамі машыннага навучання і складанымі механізмамі аптымізацыі.

Звязаныя сферы[правіць | правіць зыходнік]

Штучны інтэлект[правіць | правіць зыходнік]

Вобласць штучнага інтэлекту займаецца аўтаномным планаваннем або абдумваннем для рабатызаваных сістэм з мэтай навігацыі па навакольным асяроддзі. Дэталёвае разуменне навакольных умоў патрабуецца, каб перамяшчацца па іх. Інфармацыя аб навакольным асяроддзі можа быць забяспечана з дапамогай сістэмы камп’ютарнага зроку, дзеючай у якасці датчыка бачання і прадастаўлення робату інфармацыі высокага ўзроўню аб навакольным асяроддзі.

Штучны інтэлект і камп’ютарны зрок падзяляюць і іншыя тэмы, такія як распазнаванне ўзораў і метады навучання. Такім чынам, камп’ютарны зрок часам разглядаецца як вобласць штучнага інтэлекту або інфарматыкі ў цэлым.

Фізіка цвёрдага цела[правіць | правіць зыходнік]

Фізіка цвёрдага цела яшчэ адна сфера, якая цесна звязана з камп’ютарным зрокам. Большасць сістэм камп’ютарнага зроку грунтуецца на светачулых матрыцах, якія выяўляюць электрамагнітнае выпраменьванне, як правіла, у форме альбо бачнага або інфрачырвонага святла. Матрыцы распрацаваны з выкарыстаннем квантавай фізікі. Працэс, пры якім святло ўзаемадзейнічае з паверхняй тлумачыцца выкарыстаннем фізікі. Фізіка тлумачыць паводзіны оптыкі, якія з’яўляюцца асноўнай часткай большасці сістэм візуалізацыі. Складаныя светачулыя матрыцы нават патрабуюць квантавай механікі, каб забяспечыць поўнае разуменне працэсу фармавання малюнка. Акрамя таго, розныя праблемы вымярэння ў фізіцы могуць быць вырашаны з дапамогай камп’ютарнага зроку, напрыклад, рух у вадкасцях.

Нейрабіялогія[правіць | правіць зыходнік]

Трэцяя сфера, якая адыгрывае важную ролю гэта нейрабіялогія, у прыватнасці, вывучэнне біялагічнай сістэмы гледжання. За апошняе стагоддзе, былі праедзены глыбокія даследаванні вачэй, нейронаў і структур мозгу, якія адказваюць за апрацоўку візуальных раздражняльнікаў у чалавека і розных жывёл. Гэта прывяло да грубага і складанага, апісанне таго, як працуе «рэальная» зрокавая сістэма, каб вырашаць пэўныя задачы, звязаныя з ёю. Гэта прывяло да стварэння галіны камп’ютарнага зроку, дзе штучныя сістэмы створаны для імітацыі апрацоўкі і паводзін біялагічных сістэм на розных узроўнях складанасці. Акрамя таго, некаторыя з навучальных метадаў, заснаваных на распрацаваных у рамках камп’ютарнага зроку (напрыклад, нейронавай сеткі і выявы і мастацкага аналізу на аснове глыбокага вывучэння і класіфікацыі) грунтуюцца на біялогіі.

Некаторыя галіны даследавання камп’ютарнага зроку цесна звязаны з вывучэннем біялагічнага бачання — на самай справе, гэтак жа, як многія галіны даследаванняў ШІ цесна звязаны з даследаваннем чалавечага свядомасці і выкарыстаннем назапашаных ведаў, каб інтэрпрэтаваць, інтэграваць і выкарыстоўваць візуальную інфармацыю. Сфера біялагічнага зроку даследуе і мадэлюе фізіялагічныя працэсы, якія стаяць за ўспрыманнем у людзей і іншых жывёл. Камп’ютарны зрок, з іншага боку, даследуе і апісвае працэсы, рэалізаваныя ў праграмных і апаратных сродках, якія стаяць за штучнымі сістэмамі бачання. Міждысцыплінарная абмен паміж біялагічным і камп’ютарным зрокам, апынуўся плённым для абодвух дысцыплін.

Апрацоўка сігналаў[правіць | правіць зыходнік]

Яшчэ адной вобласцю, звязанай з камп’ютарным зрокам з’яўляецца апрацоўкай сігналаў. Многія метады апрацоўкі сігналаў адной зменнай, звычайна часовых сігналаў, могуць быць пашыраныя натуральным чынам да апрацоўкі сігналаў двух або некалькі зменных у галіне камп’ютарнага зроку. Тым не менш, з-за спецыфікі малюнкаў існуе мноства метадаў, распрацаваных у рамках камп’ютарнага зроку, якія не маюць аналагаў у апрацоўцы сігналаў адной зменнай. Разам з шматмернасцю сігналу, гэта вызначае падмноства апрацоўкі сігналу як частку камп’ютарнага зроку.

Іншыя сферы[правіць | правіць зыходнік]

Акрамя згаданых вышэй поглядаў на камп’ютарны зрок, многія звязаныя навукова-даследчыя тэмы могуць быць вывучаныя з чыста матэматычнага пункту гледжання. Напрыклад, многія метады камп’ютарнага зроку заснаваныя на статыстыцы, аптымізацыі або геаметрыі. Нарэшце, значная частка галіны прысвечана аспекту рэалізацыі камп’ютарнага зроку: як існуючыя метады могуць быць рэалізаваны ў розных камбінацыях праграмных і апаратных сродкаў, або, як гэтыя метады могуць быць зменены для таго, каб атрымаць хуткасць апрацоўкі, не губляючы занадта шмат працы?

Адметныя асаблівасці[правіць | правіць зыходнік]

Сферамі, найбольш цесна звязаныя з камп’ютарным зрокам з’яўляюцца апрацоўка малюнкаў, аналіз малюнкаў і машынны зрок. Існуе значнае супадзенне ў дыяпазоне метадаў і прыкладанняў, якія яны ахопліваюць. Гэта азначае, што асноўныя метады, якія выкарыстоўваюцца і распрацаваныя ў гэтых абласцях падобныя. Можна ўспрымаць як адна сфера з рознымі імёнамі. З іншага боку, так атрымалася, што даследчым групам, навуковым часопісам, канферэнцыям і кампаніям неабходна прадстаўляць ці пазіцыяваць сябе на рынке менавіта да адной з гэтых сфер. Такім чынам былі прадстаўлены розныя характарыстыкі, якія адрозніваюцца для кожнай сферы.

Камп’ютарная графіка стварае малюнак па 3D-мадэлі, камп’ютарны зрок часта вырабляе 3D-мадэлі па дадзеных малюнка. Існуе таксама тэндэнцыя да спалучэння двух дысцыплін, напрыклад, у выглядзе даследавана ў пашыранай рэальнасці.

Наступныя характарыстыкі, рэлевантныя, але не павінны быць прыняты ў якасці агульнапрызнаных:

  • Апрацоўка малюнкаў і аналіз малюнкаў, як правіла, сканцэнтравана на 2D-малюнках: як пераўтварыць адзін малюнак ў іншы, напрыклад, з дапамогай папіксельных аперацый, такіх як павышэнне кантраснасці, лакальных аперацый, такіх як экстракцыя межаў або выдалення шуму, або геаметрычных пераўтварэнняў, такіх як паварот малюнка. Гэтая характарыстыка азначае, што апрацоўка малюнкаў / аналіз не патрабуе ні здагадак, ні інтэрпрэтацый зместу малюнка.
  • Камп’ютарны зрок уключае ў сябе 3D-аналіз 2D-малюнкаў. Ён аналізуе 3D сцэны, якія былі зпраектаваны на аднаго або некалькі малюнкаў. Напрыклад, як аднавіць структуру ці іншую інфармацыю аб 3D сцэне з аднаго або некалькіх малюнкаў. Камп’ютарны зрок часта абапіраецца на больш ці менш складаных здагадкі аб сцэне, намаляванай на малюнку.
  • Машынны зрок ўяўляе сабой працэс прымянення шэрагу тэхналогій і метадаў для прадастаўлення аўтаматычнага кантролю, кіравання вытворчым працэсам і кіраўніцтва робатамі ў прамысловых прыкладанні на аснове выяў. Машынны зрок мае тэндэнцыю факусавацца на прымяненні, галоўным чынам, у вытворчасці, напрыклад, робаты на аснове бачання і сістэмы візульнага нагляду, вымярэння, або падбору (напрыклад, падбор кантэйнера). Такім чынам тэхналогіі светачулых датчыкаў і тэорыя кіравання часта інтэграваныя з апрацоўкай візуальных дадзеных для кіравання робатам. Апрацоўка ў рэальным часе паляпшаецца з дапамогай эфектыўных рэалізацый апаратных сродкаў і праграмнага забеспячэння. Гэта таксама азначае, што знешнія ўмовы, такія як асвятленне, можа быць і часта больш кантралюецца ў сістэмах машыннага зроку, чым у камп’ютарным зроку увогуле, што можа дазволіць выкарыстоўваць розныя алгарытмы.
  • Існуе таксама сфера, званая візуалізацыяй, якая ў першую чаргу засяродзіцца на працэсе вытворчасці малюнкаў, але часам таксама займаецца апрацоўкай і аналізам малюнкаў. Напрыклад, медыцынская візуалізацыя ўключае ў сябе значную працу па аналізе дадзеных выявы ў медыцынскіх мэтах.
  • Нарэшце, распазнаванне ўзораў з’яўляецца сферай, якая выкарыстоўвае розныя метады для здабывання інфармацыі з сігналаў ў цэлым, у асноўным, з дапамогай статыстычных падыходаў і штучных нейронных сетак. Значная частка ў гэтай сферы прысвечана прымяненню гэтых метадаў да дадзеных выявы.

Фотаграметрыя таксама перасякаецца з камп’ютарным зрокам, напрыклад, стэрыафотаграмметрыя супраць распазнавання стэрыаобразаў.

Ужыванне[правіць | правіць зыходнік]

Ужыванне вар’іруюцца згодна задачам, ад прамысловых сістэм машыннага зроку, якія, скажам, інспектуюць бутэлькі праходзячыя па вытворчай лініі, да даследванняў у вобласці штучнага інтэлекту і камп’ютараў або робатаў, якія могуць асэнсоўваць свет вакол іх. Сферы камп’ютарнага і машыннага зроку значна супадаюць. Камп’ютарны зрок ахоплівае асноўныя тэхналогіі аўтаматызаванага аналізу малюнкаў, які выкарыстоўваецца ў многіх галінах. Машынны зрок, як правіла, адносіцца да працэсу аб’яднання аўтаматызаванага аналізу малюнкаў з іншымі метадамі і тэхналогіямі, каб забяспечыць аўтаматызаваны кантроль і кіраўніцтва робатаў у прамысловым прыкладанні. У шматлікіх прыкладаннях камп’ютарнага зроку камп’ютары папярэдне запраграмаваны для вырашэння канкрэтнай задачы, але метады, заснаваныя на навучанні ў бягучым часе становіцца ўсё больш распаўсюджанай з’явай. Прыклады прымянення камп’ютарнага зроку уключаюць у сябе сістэмы для:

  • Аўтаматычнага кантролю, напрыклад, у вытворчасці;
  • аказання дапамогі людзям у задачах ідэнтыфікацыі, напрыклад, сістэмы ідэнтыфікацыі відаў;
  • Кіравання працэсамі, напрыклад, прамысловы робат;
  • Выяўлення падзей, напрыклад, для візуальнага назірання або падліку наведвальнікаў;
  • узаемадзеяння, напрыклад, у якасці ўваходнага сігналу да прылады камп’ютар-чалавечага ўзаемадзеяння;
  • Мадэлявання аб’ектаў або асяроддзя, напрыклад, медыцынскі аналіз выяў або тапаграфічнае мадэляванне;
  • навігацыі, напрыклад, з дапамогай аўтаномнага транспартнага сродку або мабільнага робата; і
  • Арганізацыі інфармацыі, напрыклад, для індэксавання баз дадзеных малюнкаў і паслядоўнасцяў малюнкаў.

Адной з самых вядомых абласцей прымянення з’яўляецца медыцынскі камп’ютарны зрок або апрацоўка медыцынскіх выяў, якая характарызуецца здабываннем інфармацыі з дадзеных выявы для дыягностыкі пацыента. Прыкладам гэтага з’яўляецца выяўленне пухлін, атэрасклерозу ці іншых злаякасных змен; вымярэння памераў органаў, крывацёку і г.д. з’яўляюцца яшчэ адным прыкладам. Ён таксама падтрымлівае медыцынскія даследаванні, падаючы новую інфармацыю: напрыклад, пра структуру мозгу, або аб якасці медыцынскіх працэдур. Прымяненне камп’ютарнага зроку ў медыцынскай галіне, таксама ўключае ў сябе паляпшэнне якасці малюнкаў, якія аналізуюцца чалавекам -ультрагукавых малюнкаў або рэнтгенаўскіх малюнкаў, напрыклад — шляхам памяншэння ўплыву шуму.

Другая вобласць гэта прымянення камп’ютарнага зроку ў галіне прамысловасці, што часам называюць машынным зрокам, дзе інфармацыя здабываецца з мэтай падтрымкі вытворчага працэсу. Адным з прыкладаў з’яўляецца кантроль якасці, дзе дэталі або канчатковыя прадукты аўтаматычна правяраюцца, каб знайсці дэфекты. Іншым прыкладам з’яўляецца вымярэнне палажэння і арыентацыі дэталяў для падабору рабатызаванай рукой. Машынны зрок таксама шырока выкарыстоўваецца ў сельскагаспадарчым працэсе, каб выдаліць непажаданы матэрыял з харчовага сыпкага матэрыялу, гэты працэс называецца аптычным сартаваннем.

Ваеннае прыкладанне, верагодна, адна з самых вялікіх абласцей для камп’ютарнага зроку. Відавочнымі прыкладамі з’яўляюцца выяўленне варожых салдат і транспартных сродкаў і навядзенне ракет. Больш прасунутыя сістэмы навядзення ракет адпраўляюць ракету у раён, а не па канкрэтнай мішэні, а калі ракета дасягае раёну, мішэнь выбіраецца на аснове візуальных дадзеных, атрыманых на месцы. Сучасныя ваенныя канцэпцыі, такія як «разуменне полю бою», прадугляджваюць, што розныя датчыкі, уключаючы аптычныя сэнсары, прадастаўляюць багаты набор інфармацыі аб баявой сцэне, якая можа быць выкарыстана для падтрымкі стратэгічных рашэнняў. У гэтым выпадку аўтаматычная апрацоўка дадзеных выкарыстоўваецца, каб паменшыць складанасць і аб’ядноўвае інфармацыю з некалькіх датчыкаў для павышэння надзейнасці.

Адной з новых абласцей прымянення з’яўляюцца аўтаномныя транспартныя сродкамі, якія ўключаюць у сябе падводныя, наземныя транспартныя сродкі (маленькія робат з коламі, легкавымі аўтамабілямі і грузавікамі), лятальныя апараты і беспілотныя лятальныя апараты (БПЛА). Узровень аўтаноміі вар’іруецца ад цалкам аўтаномных (беспілотных) транспартных сродкаў, да транспартных сродкаў, дзе сістэмы на аснове камп’ютэрнага зроку падтрымліваюць кіроўца ці пілота ў розных сітуацыях. Цалкам аўтаномныя транспартныя сродкі, як правіла, выкарыстоўваюць камп’ютэрны зрок для навігацыі, гэта значыць, для асэнсоўвання свайго знаходжання, ці для стварэння карты свайго атачэння (SLAM) і для выяўлення перашкод. Ён таксама можа быць выкарыстаны для выяўлення пэўных падзей, напрыклад, БПЛА, які шукае лясныя пажары. Прыкладамі дапаможных сістэм з’яўляюцца сістэмы папярэджання пра перашкоды ў аўтамабілях, і сістэмы для аўтаномнай пасадкі самалётаў. Некаторыя вытворцы аўтамабіляў прадэманстравалі сістэмы для аўтаномнага кіравання аўтамабіля, але гэтая тэхналогія яшчэ не дасягнула такога ўзроўню, калі яе можна выпусціць на рынак. Ёсць дастаткова прыкладаў ваенных аўтаномных транспартных сродкаў, пачынаючы ад перадавых ракет, да БПЛА для разведвальных місій і навядзення ракет. Даследванне космасу ўжо вядзецца аўтаномнымі транспартнымі сродкамі з выкарыстаннем камп’ютарнага зроку, напрыклад, НАСА Mars Exploration Rover і ЕКА ExoMars Rover.

Іншыя вобласці прымянення ўключаюць у сябе:

  • Падтрымка стварэння візуальных эфектаў для кіно і радыёвяшчання, напрыклад, камеры сачэння (адсочвання руху).
  • назіранне.
  • Адсочванне і падлік арганізмаў у біялагічных навуках

Тыповыя задачы[правіць | правіць зыходнік]

Кожная з апісаных вышэй абласцей прымянення выкарыстоўвае дыяпазон задач камп’ютарнага зроку: больш ці менш пэўныя праблемы вымярэння ці праблемы апрацоўкі, якія могуць быць вырашаны з выкарыстаннем розных метадаў. Некаторыя прыклады тыповых задач камп’ютарнага зроку прыведзены ніжэй.

Задачы камп’ютарнага гледжання ўключаюць у сябе спосабы атрымання, апрацоўкі, аналізу і разумення лічбавых малюнкаў, а таксама здабывання шматмерных дадзеных з рэальнага свету, каб выпрацаваць колькасную або знакавую інфармацыю, напрыклад, у форме прыняцця рашэнняў. Разуменне ў гэтым кантэксце азначае трансфармацыю візуальных вобразаў (уваходныя сятчаткі) у апісанне навакаольнага свету, якое можа ўзаемадзейнічаць з іншымі мысліцельнымі працэсамі і выклікаць адпаведныя дзеянні. Такое разуменне выяў можа разглядаць як вылучэнне сімвальнай інфармацыі з дадзеных выявы з выкарыстаннем мадэляў, пабудаваных з дапамогай геаметрыі, фізікі, статыстыкі і тэорыі навучання.

Распазнаванне[правіць | правіць зыходнік]

Класічная праблема ў галіне камп’ютарнага зроку, апрацоўкі малюнкаў і машыннага зроку складаецца ў вызначэнні таго, ці ўтрымоўвае дадзеныя выявы нейкі канкрэтны аб’ект, функцыю або актыўнасць. У літаратуры апісаны розныя разнавіднасці задачы распазнавання:

  • Распазнаванне аб’ектаў (таксама званае класіфікацыяй аб’екаў) — адзін або некалькі папярэдне зададзеных або вылучаных аб’ектаў або класаў аб’ектаў могуць быць распазнаныя, як правіла, па 2D-размяшчэнню на малюнку або 3D-пазицыі ў сцэне. Blippar, Google Goggles і LikeThat — аўтаномныя праграмы, якія ілюструюць гэтую функцыянальнасць.
  • Ідэнтыфікацыя — распазнаецца асобны экземпляр аб’екта. Прыклады ўключаюць у сябе ідэнтыфікацыю асобы або адбіткаў пальцаў канкрэтнага чалавека, ідэнтыфікацыю рукапісных лічбаў або ідэнтыфікацыю канкрэтнага транспартнага сродку.
  • Выяўленне — дадзеныя выявы скануюцца на адпавяданне заданым умовам. Сярод прыкладаў выяўленне магчымых анамальных клетак або тканін у медыцынскіх малюнках ці выяўленні аўтамабіля ў аўтаматычнай сістэме дарожных збораў. Выяўленне на аснове адносна простых і хуткіх вылічэнняў часам выкарыстоўваецца для пошуку больш дробных абласцей малюнка, цікавых для далейшага дадаткова аналізу з дапамогай больш патрабавальных вылічальных метадаў і атрымання правільнай інтэрпрэтацыі.

Зараз лепшыя алгарытмы для выканання такіх задач заснаваны на скруткавых нейронных сетках. ImageNet Large Scale, з мільёнамі малюнкаў і сотнямі класаў аб’ектаў, ілюструе магчымасці падыхода і дае магчымасць для параўнання метадаў класіфікацыі і выяўлення аб’ектаў. Прадукцыйнасць скруткавых нейронных сетак, на тэстах ImageNet, цяпер блізкая да людзей. Лепшыя алгарытмы ўсё яшчэ змагаюцца з аб’ектамі, якія з’яўляюцца малымі або тонкімі, такія як маленькі мурашка на сцяблі кветкі або асоба з пяром ў руках. У іх таксама ёсць праблемы з выявамі, якія былі скажоныя фільтрамі (усе больш распаўсюджаная з’ява з сучаснымі лічбавымі камерамі). Наадварот, гэтыя віды малюнкаў рэдка з’яуляюцца праблемай для чалавека. Людзі, аднак, як правіла, маюць праблемы з іншымі пытаннямі. Напрыклад, яны не добрыя ў класіфікацыі аб’ектаў на дробныя класы, такія як канкрэтная парода сабакі або відаў птушак, у той час як скруткавыя нейронныя сеткі з лёгкасцю даюць гэтаму рады.

Існуе некалькі спецыялізаваных задач заснаваных на распазнанні, такія як:

  • Пошук малюнкаў па змесце — знайсці ўсе выявы ў вялікім наборы малюнкаў, якія маюць канкрэтны змест. Змест можа быць вызначаны па-рознаму, напрыклад, з пункту гледжання падабенства адносна мэтавай выявы (даць мне ўсе выявы, падобныя да малюнка X) або высокаўзроўневага тэкставага ўводу (даць мне ўсе выявы, якія змяшчаюць шмат дамоў, зроблены цягам зімы і не змяшчаюць машын).
  • Ацэнка размяшчэння — ацэнка становішча або арыентацыі канкрэтнага аб’екта адносна камеры. Прыкладам прымяненне гэтай тэхнікі будзе аказанне дапамогі руцэ робата пры выманні аб’ектаў з канвеернай стужкі на лініі зборкі.
  • Аптычнае распазнаванне сімвалаў (OCR) — вызначэнне знакаў на выявах друкаванага або рукапіснага тэксту, як правіла, з мэтай кадавання тэксту ў фармаце больш падыходячым для рэдагавання або індэксацыі (напрыклад, ASCII).
  • Чытанне 2D-кодаў — счытванне 2D-кодаў, такіх як DataMatrix і QR-кодаў.
  • Распазнанне асобы
  • Тэхналогія распазнання формы (SRT) лічыльнікі людзей адрозніваюць людзей (форму галавы і плеч) ад навакольных аб’ектаў.

Аналіз руху[правіць | правіць зыходнік]

Некаторыя задачы датычацца вызначэння руху. Паслядоўнасць выяў апрацоўваецца, каб зрабіць ацэнку хуткасці альбо на кожнай кропцы малюнку, альбо ў 3D сцэне, ці нават хуткасць руху камеры, якая вырабляе выявы. Прыкладамі такіх задач з’яўляюцца:

  • Самарух — вызначэнне трывалага 3D-руху (паварот і зрух) камеры на паслядоўнасці малюнкаў, атрыманай з дапамогай камеры.
  • Адсочванне — прытрымліванне руху (звычайна) меншага набору пунктаў або аб’ектаў (напрыклад, транспартныя сродкі, людзей або іншых арганізмаў) у паслядоўнасці выяў.
  • Аптычны паток — вызначэнне для кожнай кропкі ў малюнку, як гэтая кропка рухаецца адносна плоскасці малюнка, г. зн. яго бачны рух. Гэты рух з’яўляецца вынікам адначасова і таго як адпаведная 3D-кропка рухаецца ў сцэне, і як камера рухаецца ў адносінах да сцэны.

Рэканструкцыя сцэны[правіць | правіць зыходнік]

З улікам аднаго або (звычайна) больш малюнкаў сцэны, або відэа, рэканструкцыя сцэны накіравана на вылічэнне 3D мадэлі сцэны. У найпростым выпадку мадэль можа быць мноствам 3D-кропак. Больш складаныя метады даюць поўную 3D мадэль паверхні. З’яўленне 3D-малюнкаў, якое не патрабуе руху або сканавання, а таксама звязаных з гэтым алгарытмаў апрацоўкі, абумоўлівае хуткі прагрэс у гэтай галіне. 3D візуалізаця на аснове сеткі можа быць выкарыстана для атрымання 3D-малюнкаў з некалькіх пунктаў гледжання. Зараз даступны алгарытмы для аб’яднання некалькіх 3D выяў разам у воблака кропак і 3D-мадэлі.

Аднаўленне малюнкаў[правіць | правіць зыходнік]

Мэтай аднаўлення малюнкаў з’яўляецца выдаленне шуму (шум датчыка, размытасць і г.д.) з малюнкаў. Найпростымі з магчымых падыходаў для выдалення шуму з’яўляюцца розныя тыпы фільтраў, такіх як нізкачашчынныя фільтры або медыянныя фільтры. Больш складаныя метады ўлічваюць мадэль таго, як выглядаюць структуры малюнка, мадэль, якая адрознівае іх ад шуму. Калі па-першае аналізаваць дадзеныя выявы з пунктам гледжання лакальных структур, такіх як лініі або краі, а затым кантраляваць фільтрацыю на аснове лакальнай інфармацыі, атрыманый на стадыі аналізу, звычайна атрымліваецца больш высокі ўзровень выдалення шуму ў параўнанні з прасцейшымі падыходамі.

Прыклад у гэтай галіне — рэтушаванне.

Апаратныя сродкі[правіць | правіць зыходнік]

Ёсць шмат відаў сістэм камп’ютарнага зроку, тым не менш, усе яны ўтрымліваюць наступныя асноўныя элементы: крыніца дадзеных, па меншай меры, адна прылада захопу выявы (камера, ПЗС, і г.д.), працэсар, а таксама кабелі кіравання і сувязі або нейкі бесправадны механізм міжзлучэнняў. Акрамя таго, на практыцы такая сістэма ўтрымлівае праграмнае забеспячэнне, а таксама дысплей для кантролю. Сістэмы тэхнічнага зроку для ўнутраных прастор, як большасць прамысловых, ўтрымліваюць сістэму асвятлення і могуць быць размешчаны ў кантралюемым асяроддзі. Акрамя таго, завершаная сістэма ўключае ў сябе мноства аксэсуараў, такія як трымальнікі камеры, кабелі і раз’ёмы.

Большасць сістэм камп’ютарнага зроку выкарыстоўвае камеры бачнага святла, пасіўна аглядаючы прастору на частаце не больш за 60 кадраў у секунду (як правіла, значна павольней).

Нешматлікія сістэм камп’ютарнага зроку выкарыстоўваюць актыўнае асвятленнее ці нешта іншае, чым бачнае святло ці абодва падыходы. Напрыклад, 3D-сканэр структураванага святла, цеплавізар, пабудова гіперспектральнага малюнка, радыёлакацыйныя выявы, лідар, магнітна-рэзанансныя выявы, эхалот, санар сінтэтычнай апертуры і т.п. Такія апаратныя сродкі захопліваюць «выявы», якія затым апрацоўваюцца часта выкарыстоўваючы тыя ж алгарытмы камп’ютарнага зроку, якія выкарыстоўваюцца для апрацоўкі выяў бачнага святла.

У той час як традыцыйныя вяшчальныя і спажывецкія відэасістэмы працуюць з хуткасцю 30 кадраў у секунду, дасягненні ў галіне лічбавай апрацоўкі сігналаў і спажывецкіх графічных апаратных сродкаў зрабілі магчымым для сістэм рэальнага часу рабіць высакахуткаснае атрыманне малюнка, апрацоўку і адлюстраванне на частаце парадку сотняў і тысяч кадраў у секунду. Для прымянення ў робататэхніцы хуткія відэасістэмы рэальнага часу з’яўляюцца крытычна важнымі, і часта могуць спрасціць апрацоўку, неабходную для некаторых алгарытмаў. У спалучэнні з высакахуткасным праектарам, хуткаснае атрыманне выявы дазваляе рэалізаваць 3D-вымярэнне і адсочванне дэталяў.

Па стане на 2018 год, працэсары камп’ютарнага зроку пастаўляюцца ў дадатак да ЦП і графічнага працэсара.