AI圖片語音描述功能(néng),助力視障者“看”
2018-02-12
劉彪正在使用qq空間。(信息無障礙研究會(huì)供圖)
好(hǎo)機友
劉彪打開(kāi)手機QQ空間,觸摸到(dào)好(hǎo)友發(fā)的圖片。
以前,他耳邊響起(qǐ)的是讀屏提示音“圖片”。現在,他聽到(dào)了更多内容——“圖片:一個長(cháng)發(fā)女孩在夕陽下的照片。”
這(zhè)是新的安卓版QQ空間客戶端基于人工智能(néng)技術推出的“圖片語音即時(shí)描述”功能(néng)。
“這(zhè)個感覺很不一般。”劉彪是視障者,也是公益組織信息無障礙研究會(huì)的技術主管。雖然語音隻是描述出了圖片的主要信息,但對(duì)劉彪而言,體驗從此大不相同。“以前好(hǎo)友發(fā)圖,就(jiù)隻能(néng)‘繞道(dào)’。現在知道(dào)他大概發(fā)了什麼(me),還(hái)能(néng)在評論區互動一下。”在人工智能(néng)的幫助下,視障者成(chéng)功地在圖片動态下刷了把存在感。
讓科技在社交場所落地
很早之前,信息無障礙研究會(huì)就(jiù)和QQ空間建立了合作,協助他們進(jìn)行軟件的無障礙優化。
所謂信息無障礙,簡單來講,就(jiù)是讓包括視障者、聽障者、讀寫障礙者在内的所有用戶,都(dōu)能(néng)夠順暢使用互聯網。它是互聯網世界裡(lǐ)的無障礙設施,就(jiù)好(hǎo)像馬路上的盲道(dào)、地鐵站裡(lǐ)的無障礙電梯。
視障者,同樣(yàng)也是互聯網産品的用戶。他們靠語音輔助程序或讀屏軟件,讀新聞、點外賣、購物、打車……
以及社交。
劉彪說(shuō),現在越來越多的人喜歡曬圖和發(fā)小視頻,但他們看不見,就(jiù)隻能(néng)去問一句——你發(fā)了什麼(me)?“我們就(jiù)跟QQ空間的工程師反饋了這(zhè)個痛點——如果圖片能(néng)識别出來,那多酷。”
QQ空間産品開(kāi)發(fā)技術人員告訴科技日報記者,目前QQ空間用戶發(fā)表的動态中,60%以上包含圖片。如果無法讀圖,對(duì)視障人群來講,确實是相當大的信息缺失。雙方都(dōu)覺得這(zhè)個功能(néng)挺酷,于是說(shuō)幹就(jiù)幹,著(zhe)手優化。QQ空間也和騰訊人工智能(néng)團隊溝通,尋找科技解決方案。這(zhè)次的圖片語音即時(shí)描述功能(néng),就(jiù)用到(dào)騰訊AI Lab的技術。
“騰訊AI Lab圖片描述生成(chéng)技術一般都(dōu)是基于編碼器—解碼器框架。這(zhè)一技術的難點在于設計出能(néng)夠充分理解圖像内容的模型,進(jìn)而將(jiāng)相應編碼的圖像内容再‘翻譯’成(chéng)自然語句。”騰訊AI Lab技術人員解釋,這(zhè)樣(yàng)的模型不僅需要深度理解圖像,也需要理解自然語言,更重要的是學(xué)習圖像與自然語言之間的多模态交互關系。
要真正落地,技術還(hái)要應對(duì)一大難題,那就(jiù)是用戶上傳的圖片具有高度多樣(yàng)性。他們發(fā)星辰大海,也發(fā)生活中的細枝末節。由于圖片題材廣泛,騰訊AI Lab技術人員坦言,有時(shí)圖像的自然語句描述不會(huì)特别精确。“這(zhè)需不斷積累數據,不斷提升算法的性能(néng),兩(liǎng)者互相促進(jìn),提升算法精确度。”
為無障礙錦上添花
其實就(jiù)在幾年前,對(duì)國(guó)内互聯網公司來說(shuō),“信息無障礙”還(hái)是個有些陌生的概念。
當時(shí),科技日報記者曾采訪現在的信息無障礙産品聯盟秘書長(cháng)梁振宇。他表示,對(duì)互聯網産品團隊來說(shuō),每個問題都(dōu)有優先級。“無障礙優化”這(zhè)一看起(qǐ)來有些小衆的需求,有時(shí)就(jiù)被(bèi)放在了一旁。
“這(zhè)兩(liǎng)年,社會(huì)各界對(duì)信息無障礙的關注都(dōu)在提升。”劉彪介紹,信息無障礙研究會(huì)和百度、騰訊以及阿裡(lǐ)旗下的多款産品都(dōu)建立了合作關系。至少,現在主流的互聯網公司都(dōu)知道(dào)何為無障礙,有條件的,也願意為此努力。
QQ空間産品團隊就(jiù)表示,在信息無障礙技術方面(miàn),手機QQ空間從2014年開(kāi)始,持續在好(hǎo)友動态、消息、個人主頁等核心場景優化體驗,并把信息無障礙作為每一個功能(néng)發(fā)布的必備特性,堅持每個版本解決一些問題,并從内測階段即邀請視障用戶參與産品測評,再根據反饋的建議和意見,持續進(jìn)行版本優化。“讓QQ空間更好(hǎo)地服務障礙用戶,為障礙者提供舒适的社交體驗。”
要做到(dào)信息無障礙,其實并不需要前沿什麼(me)技術。劉彪介紹,開(kāi)發(fā)者了解用戶需求并按照一定規範進(jìn)行APP的設計開(kāi)發(fā),産品就(jiù)能(néng)實現“信息無障礙”,從而造福廣大視障用戶。而人工智能(néng),則可以錦上添花。
“語音輸入讓我們的輸入效率變得更高,OCR文字識别讓我們能(néng)夠‘認’出藥瓶上的字。那些改變你們生活的應用,也提高了我們的生活質量。”劉彪也在用智能(néng)音箱等智能(néng)家居産品。“我們以前用空調、洗衣機等家電時(shí),是靠記憶來按按鈕,有了人工智能(néng)技術,可以進(jìn)行語音控制,也省去了這(zhè)些麻煩。”他提醒道(dào),“有些智能(néng)家居有手機APP操控功能(néng),這(zhè)些APP也要注意進(jìn)行無障礙優化。”
來源:科技日報