Dataset Catalog
面向真實場景的成品語音數據集
依託語音採集及識別技術專利,以及多樣化的用戶樣本分佈,我們提供可用於模型訓練、測試及評估的高質素語音數據集。
Voice Intelligence Console
speech_data.pipeline
input_signal.wavLIVE
數據集目錄
如需特定語種、說話人群或垂直場景數據,可與我們的數據專家進一步確認。
數據集代碼樣本特徵狀態
普通話語音數據集
ZH-CMN
ZH-CMN
普通話 / 通用場景
可查詢
粵語語音數據集
ZH-YUE
ZH-YUE
粵語 / 香港及華南場景
可查詢
兒童普通話語音數據集
ZH-CMN-KIDS
ZH-CMN-KIDS
兒童 / 普通話
可查詢
長者普通話語音數據集
ZH-CMN-SENIOR
ZH-CMN-SENIOR
長者 / 普通話
可查詢
英語語音數據集
EN
EN
英語 / 通用場景
可查詢
美國英語語音數據集
EN-US
EN-US
美國英語 / 通用場景
可查詢
俄語語音數據集
RU
RU
俄語 / 通用場景
可查詢
阿拉伯語語音數據集
AR
AR
阿拉伯語 / 通用場景
可查詢
西班牙語語音數據集
ES
ES
西班牙語 / 通用場景
可查詢
面向 AI 訓練的數據維度
語種與口音
根據語種、方言、口音及地域需求篩選合適數據。
樣本特徵
按年齡、語音特徵及使用情境匹配模型訓練需要。
授權使用
在約定授權範圍內提供數據使用權限及後續支援。
更新支援
可按合作方式提供數據更新及相關技術支援。
獲取流程
01
數據需求
根據項目需求,從場景、語言、樣本特徵等方面確認所需數據集。
02
購買權限
服務專家協助確認數據集及授權方式,並為團隊配置使用權限。
03
獲取數據
在授權範圍內使用購買數據集,並按合作條款獲取更新支援。
需要確認數據集是否匹配您的模型?
與我們的數據專家溝通語種、樣本及格式要求,獲取更準確的數據建議。