欧美极品高清xxxxhd,国产日产欧美最新,无码AV国产东京热AV无码,国产精品人与动性XXX,国产传媒亚洲综合一区二区,四库影院永久国产精品,毛片免费免费高清视频,福利所导航夜趣136

標(biāo)題: 聆思CSK6大模型+AI交互多模態(tài)開源SDK介紹 [打印本頁]

作者: ListenAI    時(shí)間: 2024-6-20 16:15
標(biāo)題: 聆思CSK6大模型+AI交互多模態(tài)開源SDK介紹
視覺語音大模型 AI 開發(fā)套件( CSK6-MIX,如圖1)是圍繞 CSK6011A 芯片設(shè)計(jì)的具備豐富語音圖像功能與硬件外設(shè)的開發(fā)板,采用具備豐富組件生態(tài)的 Zephyr RTOS作為操作系統(tǒng),官方提供了十幾種開源SDK,包含大模型語音交互、大模型拍照識圖、文生圖、人臉識別、頭肩追蹤、手勢識別、坐姿提醒等。
聆思科技還提供了模型訓(xùn)練推理工具將自己的算法模型部署至芯片上,也可以配合這個(gè)工具構(gòu)建自己的 AI 應(yīng)用。
語音交互與識圖功能介紹
SDK主要包含以下功能:
●語音交互:支持按鍵錄音或喚醒后通過語音與大模型進(jìn)行對話
●拍照識圖:支持通過攝像頭拍攝圖像并上傳給大模型進(jìn)行識別,支持依據(jù)識圖內(nèi)容進(jìn)行提問
●圖片生成:支持通過語音交互描述畫面內(nèi)容,令大模型生成圖片并顯示至套件屏幕上
語音交互模式支持的語音交互模式
多模態(tài)SDK支持三種交互方式,其特點(diǎn)如下:
模式
喚醒方式
交互方式
按鍵交互
按下屏幕麥克風(fēng)圖標(biāo)或開發(fā)板K3按鍵
按住按鍵說話,松開提交
語音喚醒(單輪)
喚醒詞 “小美小美”
聽到提示音 “在呢” 后進(jìn)行提問,每次提問均需要喚醒
語音喚醒(多輪)
喚醒詞 “小美小美”
聽到提示音 “在呢” 后進(jìn)行提問,可持續(xù)對話,當(dāng)超過20秒無語音輸入時(shí)自動(dòng)結(jié)束本次交互
語音喚醒模式
當(dāng)設(shè)置為語音喚醒(單輪)或語音喚醒(多輪),可通過喚醒詞 —— “小美小美” 對設(shè)備進(jìn)行喚醒,當(dāng)聽到 “在呢” 的提示音后,即可正常進(jìn)行語音輸入。
拍照識圖
在待機(jī)頁,點(diǎn)擊拍照按鈕即可進(jìn)入取景頁面,對準(zhǔn)要拍照的物體,點(diǎn)擊右側(cè)中間的拍照鍵完成抓拍,確認(rèn)畫面抓拍正常后(無晃動(dòng)模糊的情況),點(diǎn)擊右側(cè)的 √ 進(jìn)行提交識別。
文生圖
在設(shè)備進(jìn)入語音交互狀態(tài)后,可以通過帶有繪畫意圖的提示詞讓大模型進(jìn)行作畫,比如:
● “畫一個(gè)人正在使用電腦”
● 結(jié)果如圖2所示
圖片生成與設(shè)備控制功能介紹
本示例主要包含以下功能:
● 可通過“小聆小聆”對設(shè)備進(jìn)行喚醒
● 可通過語音交互與大模型進(jìn)行對話
● 可通過語音交互使用大模型繪制圖片并顯示在屏幕上
● 可通過語音交互通過大模型控制屏幕顯示的顏色
● 支持通過LSPlatfrom接入自己的大模型應(yīng)用
大模型語音對話功能
● 我們可以通過 “小聆小聆” 喚醒詞對開發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語 —— "在呢"
● 此時(shí)我們可以接著對開發(fā)套件說出我們的問題,比如:“什么是大模型?”
● 稍等片刻后,開發(fā)套件將播放返回的答案
大模型作畫
● 我們可以通過 “小聆小聆” 喚醒詞對開發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語 —— "在呢"
● 此時(shí)我們可以接著對開發(fā)套件以 “畫xx” 的句式說出我們希望它繪制的圖像,比如:“畫一只大熊貓”(結(jié)果如圖3所示)
● 稍等片刻后,開發(fā)套件將在顯示屏上顯示大模型根據(jù)我們需求生成的圖片
大模型控制設(shè)備
● 我們可以通過 “小聆小聆” 喚醒詞對開發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語 —— "在呢"
● 此時(shí)我們可以接著對開發(fā)套件件以 “把屏幕設(shè)置成xx” 的句式說出希望屏幕顯示的顏色,比如:“把屏幕設(shè)置成大海一樣的顏色”
● 稍等片刻后,開發(fā)套件將把屏幕設(shè)置成理解了我們描述后的顏色
● 結(jié)果如圖4所示
智能問答與坐姿檢測功能介紹
本示例功能包含:
● 坐姿檢測:通過攝像頭檢測人員坐姿,并在出現(xiàn)不良坐姿時(shí)進(jìn)行提醒(紅燈閃爍)
● 語音識別:支持離線識別指定喚醒詞并進(jìn)行錄音
● 網(wǎng)絡(luò):通過 WIFI 芯片接入網(wǎng)絡(luò),對接聆思大模型平臺(tái),支持與大模型進(jìn)行對話
● 屏顯:通過顯示屏展示應(yīng)用相關(guān)動(dòng)畫界面
體驗(yàn)大模型語音對話功能
● 我們可以通過 “小聆小聆” 喚醒詞對開發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語 —— "在呢"
● 此時(shí)我們可以接著對開發(fā)套件說出我們的問題,比如:“什么是大模型?”
● 稍等片刻后,開發(fā)套件將播放返回的答案
體驗(yàn)坐姿檢測
本示例工程中默認(rèn)啟用了坐姿檢測功能,當(dāng)攝像頭識別到不良坐姿時(shí),開發(fā)板上也將閃爍紅色 LED 進(jìn)行提醒,同時(shí),我們也可通過 PC 工具查看實(shí)時(shí)拍攝的圖像與坐姿檢測結(jié)果。
本示例運(yùn)行時(shí),攝像頭將持續(xù)拍攝圖像并并送入坐姿檢測算法進(jìn)行處理,當(dāng)檢測到畫面中出現(xiàn)不良坐姿(如趴桌、手托臉等)時(shí),將閃爍紅色 LED 進(jìn)行提醒。
借助串口連接即可看到預(yù)覽圖和識別結(jié)果,如圖5所示。
相關(guān)資料

大模型多模態(tài)應(yīng)用開發(fā)培訓(xùn)視頻:https://b23.tv/0Fk5PyC








歡迎光臨 (http://m.raoushi.com/bbs/) Powered by Discuz! X3.1