进阶图灵测试暴露人工智能短板：机器理解人类还有多远？

進階圖靈測試暴露人工智能短板：機器理解人類還有多遠？

2024-07-28

　　【導讀】在被稱為(wei)“進階版的(de)(de)(de)圖靈(ling)測試” 的(de)(de)(de) Winograd Schema 挑戰賽上，來源于中國科技大學的(de)(de)(de)參賽者獲冠軍，可(ke)是卻沒能拿到(dao)2萬5千美圓的(de)(de)(de)大獎。為(wei)何？本(ben)來，該(gai)挑戰賽劃定，要想(xiang)取得25，000美圓的(de)(de)(de)獎金，正確率最(zui)少(shao)要到(dao)達90%，可(ke)是，顯露最(zui)好的(de)(de)(de)兩位(wei)選手的(de)(de)(de)正確率還(huan)唯一(yi)48%。這還(huan)闡(chan)明，讓(rang)機械明白知識，現在還(huan)并不是一(yi)件簡單的(de)(de)(de)事。

　　首先來看那樣(yang)一段人類取蘋果假造(zao)助手Siri的對話：

　　User: Siri, call me anambulance.

　　Siri: Okay, from nowon I’ll call you “an ambulance.”

　　用戶對蘋果(guo)的假造助手Siri說(shuo)，幫我叫輛救護車。Siri的答復是，好的，從(cong)現(xian)在開始，我會叫你“救護車”。

　　這真是一(yi)段讓人犯難堪癥的對(dui)話。

　　雖然2013年(nian) Siri 初次宣(xuan)布后(hou)不久(jiu)，蘋果公司就修改(gai)了這個毛(mao)病(bing)。可(ke)是，一個新(xin)挑戰賽后(hou)果表現，今朝，計算(suan)機仍舊貧乏知(zhi)識來幸免呈現這種難堪。

　　本周，正在紐約的一場學術會(hui)議(yi)上，研究(jiu)者展現了 Winograd Schema 挑戰(zhan)賽(sai)的成果，而且提出若干衡量標準(zhun)，計議(yi)要讓計算(suan)機變得真正的智能的話終究(jiu)另有幾許事情要做。

　　中國選手(shou)顯露(lu)最好，卻沒能拿(na)下(xia)獎金

　　Winograd Schema挑(tiao)釁(xin)賽(sai)請(qing)求計算機明(ming)白一些(xie)(xie)有歧義(yi)的句子，這一些(xie)(xie)句子關于(yu)人(ren)類來講很(hen)輕易明(ming)白。沒(mei)(mei)(mei)有過(guo)，要(yao)正確明(ming)白WinogradSchema挑(tiao)釁(xin)給予(yu)的有歧義(yi)的句子，必(bi)必(bi)要(yao)具有必(bi)定的知識。比方(fang)這句話“市政廳議員沒(mei)(mei)(mei)有答應(ying)示威者的許可(ke)(ke)證，由于(yu)他(ta)們懼(ju)怕暴力”，“他(ta)們”指代誰正在邏輯上(shang)是(shi)沒(mei)(mei)(mei)有清楚(chu)的，可(ke)(ke)是(shi)人(ren)類可(ke)(ke)以正在語境下明(ming)白。

　　比起(qi)隨(sui)機(ji)的(de)挑(tiao)(tiao)選(xuan)，介入(ru)挑(tiao)(tiao)釁(xin)的(de)法式正在挑(tiao)(tiao)選(xuan)句子的(de)精(jing)確寄義(yi)上，準確度要(yao)(yao)高一(yi)點。然則，顯示最(zui)好的(de)兩位選(xuan)手的(de)精(jing)確率(lv)還僅到達(da)48%。假(jia)如只是隨(sui)機(ji)挑(tiao)(tiao)選(xuan)謎底，精(jing)確率(lv)是45%。該挑(tiao)(tiao)釁(xin)賽劃定，要(yao)(yao)想(xiang)得到25，000美圓(yuan)的(de)獎(jiang)金，精(jing)確率(lv)最(zui)少要(yao)(yao)到達(da)90%。

　　本(ben)次挑戰賽中(zhong)，顯露最好的(de)兩位選手分別是來(lai)源于中(zhong)國科學(xue)技術大學(xue)的(de)劉泉（音譯）和(he)來(lai)源于Open University of Cypress 的(de) Nicos Issak。

　　“機械的(de)(de)準確度才比(bi)隨機幾率高一點(dian)點(dian)，這并不讓(rang)人不測，”紐約大學(xue)的(de)(de)研討心理(li)學(xue)家、此次比(bi)賽的(de)(de)參(can)謀Gary Marcus 說(shuo)。這是由(you)于要給予計(ji)算機常(chang)識(shi)性的(de)(de)常(chang)識(shi)極度難題。手(shou)動(dong)將這一些常(chang)識(shi)編碼極度地耗時，并且(qie)，要讓(rang)計(ji)算機根據對文本開展統計(ji)分析(xi)來明(ming)白實在的(de)(de)天下還不論是件(jian)簡單的(de)(de)事。Winograd Schema 挑釁的(de)(de)絕多數參(can)與者皆實驗(yan)把語法分析(xi)手(shou)工編碼和常(chang)識(shi)庫(ku)結(jie)合起來運用。

　　世界水平終究怎(zen)樣？

　　Marcus 仍是(shi)一(yi)家(jia)新(xin)AI始創公(gong)司 Geometric Intelligence 的結合創始人。他說，雖然(ran)(ran)此前谷歌和 Facebook 的研究員說它們正(zheng)在自(zi)然(ran)(ran)語言明白層面取得了(le)重大(da)進展，然(ran)(ran)則這兩家(jia)公(gong)司沒有到場此次比賽。“正(zheng)本應該(gai)是(shi)這一(yi)些人高調地走進來(lai)然(ran)(ran)后得100%的正(zheng)確率，如果(guo)那樣的話就(jiu)震動到我了(le)。”

　　媒體曾(ceng)正在6月9日的(de)頭條文章中報導(dao)：加拿大人工智能公司(si)Maluuba宣布了(le)(le)(le)一款基(ji)于機械進(jin)修的(de)自(zi)然語言了(le)(le)(le)解步伐EpiReader，能了(le)(le)(le)解并(bing)處置懲罰未(wei)經組織(zhi)的(de)自(zi)然語言正在機械了(le)(le)(le)解文本，并(bing)正在常用的(de)CNN和CBT數據集測(ce)試中取得(de)了(le)(le)(le)目前為(wei)止的(de)最好結果(guo)，超出行業(ye)領(ling)導(dao)者IBM Waston、Facebook和谷歌(ge) DeepMind。作(zuo)為(wei)該公司(si)垂(chui)問(wen)(wen)，Yoshua Bengio把EpiReader稱為(wei)一個有意思的(de)提高，并(bing)以(yi)為(wei)該技能將(jiang)會推進(jin)Siri、Cortana、Alex等(deng)智能助理的(de)問(wen)(wen)答(da)本領(ling)。

　　Maluuba對EpiReader的(de)(de)測(ce)試是正在(zai)兩(liang)個超大型的(de)(de)文本(ben)會合舉行的(de)(de)：一(yi)個由(you)谷歌Deepmind正在(zai)客歲炎天宣布，基于CNN和Daily Mail新聞報道，包(bao)含了30萬篇文章（Maluuba只使用(yong)了CNN的(de)(de)部門）。另一(yi)個是Facebook于本(ben)年(nian)2月份推出的(de)(de)The Children's Book Test（CBT），由(you)ProjectGutenberg的(de)(de)98本(ben)典范兒童讀物構成。

　　EpiReader正在(zai)這(zhe)里(li)兩個數據集(ji)的(de)瀏覽了解(jie)中正確率(lv)別(bie)離到(dao)(dao)達(da)74%和(he)67.4%。專家同等以為，正在(zai)和(he)兩個數據集(ji)的(de)瀏覽了解(jie)中，這(zhe)是(shi)今朝見(jian)到(dao)(dao)的(de)最好成(cheng)果，具有里(li)程碑的(de)意義。要知(zhi)道，人類的(de)準確度還達(da)不到(dao)(dao)100%，反而是(shi)正在(zai)80%擺(bai)布。

　　正在CNN消息語料庫中，DeepMind的準(zhun)確(que)(que)度(du)(du)為63.8%，Facebook為66.8%，IBM Waston為69.5%。而正在CBT語料庫的測試中，Facebook準(zhun)確(que)(que)度(du)(du)為63%，IBM Waston準(zhun)確(que)(que)度(du)(du)為63.4%。(見(jian)下(xia)圖(tu))

　　Winograd Schema 比賽不僅僅是AI的(de)提高的(de)一個衡量(liang)標準，還說明晰(xi)要制作直(zhi)覺(jue)更強、加倍良好的(de)談天機(ji)器人(ren)和練習計算(suan)機(ji)由文本中(zhong)提取(qu)更多的(de)信息(xi)有(you)多災。

　　谷歌、Facebook、亞(ya)馬遜(xun)和微軟的(de)研究員正(zheng)(zheng)正(zheng)(zheng)在(zai)將他們(men)的(de)注意力轉移(yi)到(dao)言語上。他們(men)運用(yong)最新的(de)機械(xie)進修技能(neng)，尤其(qi)是“深度進修”神(shen)經網絡來開(kai)辟加倍智(zhi)能(neng)、更有直(zhi)覺(jue)的(de)談天機械(xie)人(ren)和小我私家助理。跟著談天機械(xie)人(ren)和語音(yin)助理愈(yu)來愈(yu)普遍和正(zheng)(zheng)在(zai)圖像辨認和語音(yin)辨認獲得重大進展，您也許認為機械(xie)正(zheng)(zheng)在(zai)理解言語上正(zheng)(zheng)干的(de)愈(yu)來愈(yu)好(hao)。

　　正(zheng)在表示(shi)最好的兩名參賽者中，個(ge)中一(yi)位最好選手運(yun)用了(le)最新(xin)的機械進(jin)修方(fang)法。劉泉(quan)的團隊（個(ge)中包(bao)羅來源于多倫多約(yue)克大學(xue)和(he)加拿大國(guo)度研討委員會的研討員）運(yun)用深度進(jin)修來練習計(ji)算(suan)機由數千份文本中了(le)解不一(yi)樣事情之間的干(gan)系，比方(fang)“打(da)籃球”和(he)“贏(ying)了(le)”或(huo)“受(shou)傷”之間的干(gan)系。

　　“我很樂意看到深度(du)進修的利(li)用，”Leidos公司的高(gao)等研(yan)究員Leora Morgenstern說到。Leios是一家科技咨詢公司，是此次大賽(sai)的組(zu)織方之(zhi)一。

　　劉泉的(de)團隊稱，他(ta)(ta)們的(de)體系正(zheng)在明白大賽出(chu)的(de)題目時有(you)一個(ge)缺點(dian)，等他(ta)(ta)們改正(zheng)這(zhe)個(ge)缺點(dian)后，正(zheng)確率可達(da)60%。然(ran)而Morgenstern提示(shi)說，縱然(ran)他(ta)(ta)們真(zhen)的(de)能保證，機(ji)械的(de)正(zheng)確率照舊(jiu)遠遠低于(yu)人類。

　　把(ba) Winograd Schema 的句子(zi)作為一種權衡機械理解力的方式，最開(kai)端是由多倫多大(da)學(xue)的一名(ming)AI研(yan)究員HectorLevesque提(ti)出(chu)的。憑據AI界(jie)的先驅Terry Winograd 的名(ming)字定(ding)名(ming)。Terry Winograd是斯坦福大(da)學(xue)的傳授，發明白第一個對話(hua)的計(ji)算機步伐。

　　Winograd Schema挑釁(xin)開(kai)始(shi)于2014年(nian)，是(shi)一(yi)(yi)種升級版的圖靈測(ce)試。艾倫·圖靈是(shi)計算機(ji)和(he)人工智能之父(fu)，20世(shi)紀50年(nian)代，他(ta)正在想機(ji)械(xie)是(shi)不是(shi)有(you)一(yi)(yi)天(tian)會像人類(lei)一(yi)(yi)樣思索，然后提(ti)出了一(yi)(yi)個簡樸的測(ce)試機(ji)械(xie)智能的要(yao)領。他(ta)的要(yao)領便(bian)是(shi)讓一(yi)(yi)臺機(ji)械(xie)騙過一(yi)(yi)小(xiao)我(wo)，讓這小(xiao)我(wo)認為他(ta)是(shi)正在和(he)另一(yi)(yi)小(xiao)我(wo)正在開(kai)展文字對話。

　　圖(tu)靈測試的問(wen)題在(zai)于，計(ji)算機(ji)只要(yao)利用簡樸的魔(mo)術(shu)和(he)回避就可(ke)以(yi)輕松騙過人類。然則，計(ji)算機(ji)如果(guo)沒有知(zhi)識就不能(neng)了解Winograd Schema或是其他帶歧義的句子。

　　此次比賽意義(yi)龐(pang)大。“當(dang)你起(qi)頭和(he)機械開展對(dui)話，這類(lei)情形(xing)就會(hui)產(chan)生，”Nuance的高(gao)等首席研(yan)究(jiu)員Charlie Ortiz說(shuo)。Nuance是一家干語音辨(bian)認和(he)語音交互軟件的公(gong)司，是Winograd Schema挑戰(zhan)賽的資助(zhu)方。Ortiz說(shuo)，即使(shi)是取計算機簡(jian)樸的對(dui)話還會(hui)需求(qiu)明白知識。“正在購物時，假如我(wo)(wo)說(shuo)‘我(wo)(wo)想給我(wo)(wo)的吉(ji)他(ta)買一個盒(he)子，它應當(dang)很牢靠的。’那末(mo)，‘它’是指盒(he)子仍(reng)是吉(ji)他(ta)呢？”

　　Marcus 填補說(shuo)，伴隨著智能(neng)設備和可穿著設備的(de)(de)(de)遍及，了(le)解(jie)知識將變(bian)得越(yue)來越(yue)重要。“當您(nin)(nin)向(xiang)您(nin)(nin)的(de)(de)(de)腕(wan)表提(ti)出一(yi)個題目(mu)(mu)時(shi)，您(nin)(nin)不消再正在50個備選謎(mi)底(di)中(zhong)開(kai)展(zhan)挑選，”他說(shuo)。“當您(nin)(nin)和您(nin)(nin)的(de)(de)(de)汽(qi)車或是腕(wan)表說(shuo)話(hua)時(shi)，您(nin)(nin)擺脫了(le)打(da)字的(de)(de)(de)費事(shi)，可是卻盼望能(neng)對前后的(de)(de)(de)對話(hua)，還便是上下文連結高度(du)相關性。正在說(shuo)話(hua)時(shi)，人們會很自然的(de)(de)(de)運(yun)用代詞指稱此前提(ti)到的(de)(de)(de)器械。而這一(yi)些就(jiu)要求辦理此刻的(de)(de)(de)題目(mu)(mu)，讓計算機能(neng)夠保證那樣”。

上一篇：轉業軍人五年研發第三代焊接機器人登上央視

下一篇：機器人力/力矩反饋控制，海伯森六維力傳感器實現多場景落地

四川少扫搡BBw搡BBBB,国产黄色视频在线免费观看,国产羞羞无码视频在线观看免,欧美亚洲日韩二区中文字幕的,亚洲91无码精品一区在线播放

江蘇昊目智能