讓 AV 內容盈利,優化媒體工作流程

根據麥肯錫的一項調查,39% 的機構已在其業務中實施某種形式的機器學習 (ML)。雖然這一采用還處於初期階段,但更高效率、客戶行為預測以及具有洞察力的商業智能性具有光明的前景,因此這將成為專業 AV 及廣播市場的一項極具誘惑力的技術。

媒體係統可利用 Xilinx 平台上的 ML 功能執行 AI 邊緣處理。無需網絡連接,直接在邊緣處理,不僅在低時延性能方麵具有巨大的優勢,甚至還可能幫助攻克大量有關隱私以及在雲端存儲識別指標的難題。將這些 ML 功能與音視頻處理流水線整合在 Xilinx 靈活應變的平台中,意味著企業可以將分析貨幣化,提高工作流程效率並增強易用性。最終,這些集成的 ML 功能將幫助器件加速實現創新與差異化。

讓 AV 內容盈利,優化媒體工作流程
機器學習解決方案 廣播使用案例 專業音視頻使用案例
視頻目標檢測
鎖定一個對象並創建一個邊界框,輸出原始視頻的裁剪部分 平移、傾斜和變焦攝影機控製,針對講演者進行聚焦;質量比裁剪與變焦更好
檢測特定目標,如人員、動物或汽車。識別出的目標周圍的區域以一個方框為界,將方框坐標輸入編碼器進行 ROI 編碼。
體育賽事實況轉播自動化
自然語言處理
隱藏字幕語音至文本的轉換 自動會議記錄
腳本翻譯或電影區域化 在自動服務終端交互過程中檢測語音壓力
性別或年齡檢測
根據性別或年齡提供標識廣告
視頻質量分析
檢測複雜序列並優化編碼參數
情緒分析
在現場製作過程中,檢測演員的情緒,以確定其動作是否符合導演的要求。
在視頻剪輯中尋找帶特定情緒的演員。
在後期製作中,按照創作/藝術意圖,使用 ML 微調演員的麵部表情
使用數字自助服務終端檢測一個人的情緒
手勢檢測
用手勢比劃,以免觸摸交互式零售屏幕或自助服務終端屏幕
協同控製攝像頭工作

目標區域編碼

利用 ML 優化視頻編碼帶寬,以節省成本

大型視頻文件及超高清內容的傳輸與存儲成本很容易累積。目標區域 (ROI) 編碼有助於緩解這個問題,其不僅可降低內容的整體比特率,然後將最佳視頻質量 (VQ) 應用到自然能吸引眼球的區域,特別是人臉和人員,同時還可降低不太重要區域(如背景)的視頻質量。

ROI 還可用來在控製室應用的最重要區域保存詳細資料。例如,如果出事並可在大型視頻牆上監測,那在後續調查中準確了解細節就很重要,其可用於培訓,以便從錯誤中吸取教訓並改進行動計劃。這就意味著不僅可在使用靜態坐標進行 ROI 編碼的文本覆蓋區域(例如時鍾)保持高視頻質量,而且還可在使用 ML 動態坐標的人臉或人員身上保持高視頻質量。

Woman speaking on microphone

自然語言處理

可應用於各種 AV 使用案例的語音識別

使用自然語言處理 (NLP) 的語音識別技術現已出現在家庭中,Alexa、穀歌以及其它智能設備可響應命令、呈現信息和媒體內容,也可控製房屋的各個方麵。使用構建在器件中的 NLP,相同的功能可應用於專業媒體,使設備安裝更快、更簡單,無需雲連接,也無需任何相關訂閱服務,便可執行相同的任務。有了邊緣 AI,現在可使用語音至文本的算法和摘要模型自動轉錄會議記錄。此外,還可使用任何語言的實時字幕執行區域翻譯,這同樣可以應用於視頻會議應用,或更傳統的廣播及電影隱藏字幕係統。

speaking sound waves

智能標識

呈現有針對性的廣告並讓觀眾分析盈利

有針對性的廣告對於營銷者而言極為難得。使用各種 ML 模型來分析數字標識前的受眾,可以根據年齡和性別等指標,提供相關性更高、更有針對性的廣告。這可幫助標識供應商吸引更多願意為更好的廣告展示支付更多費用的廣告商。此外,這還可為廣告商產生寶貴的數據,如觀眾的興趣(可提高服務的使用率),並可為他們所代表的製造商提供有銷售價值的反饋。觀眾還會看到更個性化的相關廣告,這可改善他們的整體購物體驗。備選 ML 模型可用於交互式自助服務終端,用更衛生的手勢控製取代觸摸屏,轉向下一個廣告,特別是在下單時。

Man standing in front of a screen

動態裁剪與窗口創建

從一台高分辨率攝影機創建多個窗口輸出

想象一下這種情況:直播一場有關一所本地大學一位藝術家的作品的小組討論。該活動預算很低,受眾是小群體,因此製作成本會很低。通常會使用單個攝影機,通過偶爾的縮放和平移來捕捉整個小組的信息。使用 ML 麵部跟蹤,可能有一台靜態 4K 攝影機捕捉整個小組信息,但可以圍繞每場小組辯論創建超低分辨率的高清窗口輸出,並通過對話對其進行跟蹤。因此,從一台 4K 攝影機,可以有四種不同的輸出鏡頭在現場直播期間、在廣角與三個特寫鏡頭之間切換。這可創造更多的視覺效果,無需架設任何額外的攝影機設備 — 攝影師可以成為視頻混合操作員,隻選擇要傳輸的幀。

這種方法可以與各種 ML 跟蹤模型一起應用於專業廣播應用,如體育報道或可以自動跟蹤多個視頻會議與會者的協作環境等。

Makarena Labs MuseBox

麵向實時 AV 廣播應用的機器學習係統

MuseBox 由 Xilinx 合作夥伴 MakarenaLabs 提供,是一款專門為專業 AV 及廣播應用設計的實時機器學習係統。它可用於現場直播,滿足交互式或實時應用需求,當您有大量文件要處理並且這些文件因法律原因不能在本地網絡之外訪問時,也可用於本地文件。基於使用多媒體和 ML 堆棧的 Zynq UltraScale+ MPSoC,或基於支持內部細化的 Xilinx Alveo 加速卡。MuseBox 支持麵部及人員分析、對象檢測以及音頻分析等!

MakarenaLabs 具有豐富的機器學習經驗,可為各種 AV 使用案例提供大量的庫和现金网博e百 。Mooseka 係統不僅可用於音頻分析、識別與特性提取,而且還可用於其 Mradio 流媒體分析器,從而可為版權執行與保護、無線電推廣與市場營銷分析自動識別音樂內容。

Makarena Labs MuseBox

AV 資源 ML

xilinx-ml-av-demos

Xilinx 音視頻演示 ML

立即觀看>

Aaware

Aaware 遠場語音開發平台

立即觀看>

makarena

Makarena Labs MuseBox 演示

立即觀看>

mipisology

Mipsology AI 超高分辨率

立即觀看>