音频

学习如何将音频转换成文字。 相关指南:语音转文字。

创建转录

POST https://api.openai.com/v1/audio/transcriptions

将音频转录成输入语言。

请求体

  • file 字符串 必填项 要转录的音频文件,格式为:mp3、mp4、mpeg、mpga、m4a、wav或webm。

  • model 字符串 必填项 要使用的模型ID。目前只有whisper-1可用。

  • prompt 字符串 可选项 可选的文本,用于指导模型的风格或继续前一个音频片段。提示应与音频语言匹配。

  • response_format 字符串 可选项 默认为json 转录输出的格式,可选择以下选项之一:json、text、srt、verbose_json或vtt。

  • temperature 数字 可选项 默认为0 采样温度,介于0和1之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使其更具有针对性和确定性。如果设置为0,模型将使用对数概率自动增加温度,直到达到一定的阈值。

  • language 字符串 可选项 输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。

请求示例

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"
请求参数
{
  "file": "audio.mp3",
  "model": "whisper-1"
}
返回值
{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}

创建翻译

POST https://api.openai.com/v1/audio/translations

将音频翻译成英语。

请求体

  • file 字符串 必填 需要翻译的音频文件,格式可以是以下之一:mp3,mp4,mpeg,mpga,m4a,wav或webm。

  • model 字符串 必填 要使用的模型的ID。目前只有whisper-1可用。

  • prompt 字符串 可选 可用于指导模型的风格或继续前一个音频片段的可选文本。提示应该是英文。

  • response_format 字符串 可选 默认为json 转录输出的格式,可以是以下选项之一:json,text,srt,verbose_json或vtt。

  • temperature 数字 可选 默认为0 采样温度,介于0和1之间。较高的值(如0.8)将使输出更加随机,而较低的值(如0.2)将使其更加集中和确定性。如果设置为0,模型将使用对数概率自动增加温度,直到达到某些阈值。

最后更新于