拍照就能識(shí)別萬(wàn)物,AI是怎么看“懂”圖片的?
歡迎來(lái)到科普中國(guó)特別推出的寒假精品欄目“給孩子的高新科技課”!
人工智能作為當(dāng)今最前沿的科技之一,正在以令人驚嘆的速度改變著我們的生活。從智能語(yǔ)音助手到無(wú)人駕駛汽車,從 AI 繪畫到機(jī)器學(xué)習(xí),它為我們打開了一個(gè)充滿無(wú)限可能的未來(lái)。本欄目將以通俗易懂的方式,用視頻和文字給孩子講述人工智能的原理、應(yīng)用及其對(duì)社會(huì)的深遠(yuǎn)影響。
快跟我們一起開啟這場(chǎng) AI 之旅吧!
以下為文字版本:
生活中,AI 圖像識(shí)別無(wú)處不在。
看到不認(rèn)識(shí)的植物?拍張照片,分分鐘就能找到答案。自動(dòng)駕駛汽車也好像長(zhǎng)了眼睛一樣,能輕輕松松判斷出,哪里是道路,哪里是樹木。人臉識(shí)別技術(shù),也讓我們實(shí)現(xiàn)了刷臉支付。
而這一切,都離不開一項(xiàng)技術(shù)——卷積神經(jīng)網(wǎng)絡(luò)。這項(xiàng)技術(shù),就像 AI 的眼睛。
想了解 AI 的眼睛是怎么工作的,我們先要看一看動(dòng)物的眼睛是怎么工作的。
從貓眼到 AI 眼:視覺神經(jīng)元的啟示
20 世紀(jì) 50 到 60 年代,大衛(wèi)·休伯爾和托斯坦·威澤爾對(duì)貓的視覺進(jìn)行了研究,他們發(fā)現(xiàn),在一幅畫面進(jìn)入貓的視野之后,貓大腦中負(fù)責(zé)視覺的神經(jīng)元,被不同的東西激活了。
為了方便理解,我們看個(gè)例子。比如這樣一幅畫面,有的神經(jīng)元對(duì)畫面中物體的邊緣線條非常感興趣,會(huì)著重處理這些信息,有的神經(jīng)元對(duì)大塊的顏色比較敏感,更擅長(zhǎng)處理這些信息。這些神經(jīng)細(xì)胞一起工作,幫助生物識(shí)別各種復(fù)雜的圖像。
埃德加·德加 《去外省的賽馬場(chǎng)》(At the Races in the Countryside)1869
這項(xiàng)研究,讓大衛(wèi)和托斯坦獲得了 1981 年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng),也啟發(fā)了人工智能領(lǐng)域一個(gè)非常重要的算法,卷積神經(jīng)網(wǎng)絡(luò)。
在 1980 年代,日本科學(xué)家福島邦彥設(shè)計(jì)了一個(gè)叫做 Neocognitron 的模型,用來(lái)識(shí)別日文手寫字符,Neocognitron 中有不同的“層”,用來(lái)提取對(duì)不同的信息,最后綜合這些信息對(duì)識(shí)別到的字符進(jìn)行判斷。
這啟發(fā)了一位叫做揚(yáng)·樂昆的法國(guó)科學(xué)家,揚(yáng)·樂昆設(shè)計(jì)出了最早的卷積神經(jīng)網(wǎng)絡(luò),并且基于卷積神經(jīng)網(wǎng)絡(luò),建立了 LeNet 模型。這個(gè)模型在當(dāng)時(shí)被很多銀行用來(lái)識(shí)別手寫字符。我們通過(guò)一個(gè)簡(jiǎn)單的例子,來(lái)看看卷積神經(jīng)網(wǎng)絡(luò)是如何工作的。
卷積神經(jīng)網(wǎng)絡(luò):圖像識(shí)別的幕后英雄
和神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別圖片的時(shí)候,多了兩個(gè)過(guò)程:卷積和匯聚。
卷積,這個(gè)過(guò)程,是由一個(gè)叫卷積核的東西完成的。
一張圖片,在計(jì)算機(jī)的眼里,其實(shí)是一個(gè)個(gè)像素點(diǎn)組成的矩陣,卷積核不是單獨(dú)去考慮每一個(gè)像素點(diǎn)上的信息,而是同時(shí)對(duì)某個(gè)區(qū)域,比如 3×3,5×5 的像素點(diǎn)信息進(jìn)行處理。這樣可以綜合考慮相鄰像素點(diǎn)的信息,更好地提取出更高級(jí)特征。
你可以想象一下,卷積核就像是一個(gè)觀測(cè)員拿著有特定視野的望遠(yuǎn)鏡去看一幅圖片,把看到的信息處理記錄下來(lái)。
而且我們可以設(shè)置有不同側(cè)重點(diǎn)的觀測(cè)員,以提取圖片中的不同維度信息。比如,有的觀測(cè)員著重提取顏色信息,有的著重提取物體邊緣輪廓信息,有的專門提取某個(gè)特定形狀的信息。最后綜合這些信息,幫助神經(jīng)網(wǎng)絡(luò)做出更好的判斷。
此外,卷積神經(jīng)網(wǎng)絡(luò)還有一個(gè)重要的步驟——匯聚(又稱池化)。
圖片往往是一個(gè)非常大的矩陣,匯聚能夠把一塊區(qū)域里的信息壓縮成一個(gè)信息。假如,對(duì)一個(gè) 16×16 的矩陣,可以通過(guò)匯聚的方法,提取 2×2 格子里顏色最深一格的信息,就能把它變成這樣的 8×8 的矩陣。如果再進(jìn)行一次相同的匯聚,就可以把 8×8 的矩陣,變成 4×4 的矩陣。雖然圖像匯聚后會(huì)有一些變化,但是依然保留了整個(gè)圖像中的基本特征。
卷積和匯聚,讓卷積神經(jīng)網(wǎng)絡(luò)能夠非常好地對(duì)圖片信息進(jìn)行提取,對(duì)于圖像的學(xué)習(xí)處理效率上有了非常大的提升。
當(dāng)然,卷積神經(jīng)網(wǎng)絡(luò)也會(huì)使用跟神經(jīng)網(wǎng)絡(luò)一樣的反向傳播算法,不斷根據(jù)已知結(jié)果逆向調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù),以做出越來(lái)越準(zhǔn)確的判斷。
那么,AI如何改變一些行業(yè)的生態(tài)?接下來(lái)的幾集中,我們將一同探究。
策劃制作
本文為科普中國(guó)-創(chuàng)作培育計(jì)劃作品
出品|中國(guó)科協(xié)科普部
監(jiān)制|中國(guó)科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司
作者丨北京云御紀(jì)文化傳播有限公司
審核丨秦曾昌 北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院 副教授
策劃丨符思佳
責(zé)編丨符思佳
本文封面圖片及文內(nèi)圖片來(lái)自版權(quán)圖庫(kù)
轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛
上一篇:春天花會(huì)開…等等,這些春花為什么冬季盛開?
下一篇:返回列表
【免責(zé)聲明】本文轉(zhuǎn)載自網(wǎng)絡(luò),與科技網(wǎng)無(wú)關(guān)。科技網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。