音频
学习如何将音频转换成文字。 相关指南:语音转文字。
创建转录
将音频转录成输入语言。
请求体
file 字符串 必填项 要转录的音频文件,格式为:mp3、mp4、mpeg、mpga、m4a、wav或webm。
model 字符串 必填项 要使用的模型ID。目前只有whisper-1可用。
prompt 字符串 可选项 可选的文本,用于指导模型的风格或继续前一个音频片段。提示应与音频语言匹配。
response_format 字符串 可选项 默认为json 转录输出的格式,可选择以下选项之一:json、text、srt、verbose_json或vtt。
temperature 数字 可选项 默认为0 采样温度,介于0和1之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使其更具有针对性和确定性。如果设置为0,模型将使用对数概率自动增加温度,直到达到一定的阈值。
language 字符串 可选项 输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。
请求示例
创建翻译
将音频翻译成英语。
请求体
file 字符串 必填 需要翻译的音频文件,格式可以是以下之一:mp3,mp4,mpeg,mpga,m4a,wav或webm。
model 字符串 必填 要使用的模型的ID。目前只有whisper-1可用。
prompt 字符串 可选 可用于指导模型的风格或继续前一个音频片段的可选文本。提示应该是英文。
response_format 字符串 可选 默认为json 转录输出的格式,可以是以下选项之一:json,text,srt,verbose_json或vtt。
temperature 数字 可选 默认为0 采样温度,介于0和1之间。较高的值(如0.8)将使输出更加随机,而较低的值(如0.2)将使其更加集中和确定性。如果设置为0,模型将使用对数概率自动增加温度,直到达到某些阈值。
最后更新于