Table of contents
來源:https://beta.openai.com/docs/introduction/key-concepts
因為最近公司希望旗下工程師研究一下 ChatGPT,
但當前 (15/12/22) OpenAI 沒有釋出 ChatGPT 的官方 API 或是 Paper。
(雖然有非官方版的 API,不過暫時不考慮)
基於好奇其背後開發的公司 OpenAI, 我開始進行他們的 API 文件翻譯。
概述
OpenAI API 可以應用於幾乎任何涉及理解或生成自然語言或代碼的任務。
我們提供了一系列適合不同任務且不同功能級別的模型, 以及微調自定義模型的能力。
這些模型可用於從內容生成到語義搜索和分類的所有用途。
關鍵概念
我們建議完成我們的快速入門教程, 以通過實踐和交互式示例熟悉關鍵概念。
https://beta.openai.com/docs/quickstart
提示 (Prompts) 跟 補全 (Completions)
補全系統是我們 API 的核心。
它提供了一個簡單的接口可以對接我們的模型,非常靈活且强大。
你只要輸入一些文本作為提示, 模型就會生成一個文本補全,
並試圖匹配你給的任何情境跟模式。
例如, 如果你給 API 提示「寫一個冰淇淋店的標語」,
它就會回應一個補全,如「我們每一勺都送上微笑!」
設計你給出的提示是你編程模型的基礎, 通常是通過提供一些指令或一些示例。
不同於大多數其他 NLP 服務是為單一任務設計的,
例如 sentiment classification 或 named entity recognition。
相反,補全系統可用於幾乎任何任務,
包括內容或代碼生成,摘要,擴展,對話,創意寫作,風格轉移等。
分詞 (Token)
我們的模型通過將文本拆解成 Token 來理解和處理文本。
Token 可以是單詞或只是字符塊。
例如,單詞 “hamburger” 被分解為標記 “ham”、“bur” 和 “ger”,
而像 “pear” 這樣的短而常見的單詞是一個 Token。
許多 Token 以空格開頭,例如 “ hello” 和 “ bye”。
在給定的 API 請求中能處理的 Token 數量 取決於你的輸入和輸出的長度。
作為一個粗略的規則, 1 個 Token 大約是 4 個字符或 0.75 個單詞的英文文本。 需要特別注意的一個限制是, 你的文本提示和生成的完成內容總和不能超過模型的最大上下文長度 (對於大多數模型,這是 2048 個 Token,大約是 1500 個單詞)。 請查看我們的分詞工具,了解有關文本如何轉換為 Token 的更多信息。
模型 (Models)
我們的 API 是由一系列具有不同能力和價位的模型在背後支持著。 我們的基本 GPT-3 模型被稱做 「達文西 (Davinci)」,「居里 (Curie)」,「巴貝奇 (Babbage)」和「愛達 (Ada)」。 我們的「魔鬼聖經 (Codex)」系列是 GPT-3 的後代, 它既被訓練於自然語言,又被訓練於代碼。 要了解更多信息,請訪問我們的模型文檔。
註解
註1
情感分類(sentiment classification)是自然語言處理(NLP)中的一種技術, 用於對文本進行情感分析,以確定作者的情感偏好。 它的目的是通過自動分析文本中的情感指標來檢測作者的情感傾向, 並將它們歸類為正面,負面或中立。 情感分類通常被用於社交媒體分析,市場研究,客戶關係管理(CRM)等領域。
註2
命名實體識別(named entity recognition,NER)是一種自然語言處理(NLP)技術, 用於識別文本中的特定實體,如人名,地點,組織,時間等。 它的目的是通過自動分析文本中的關鍵字和上下文信息來檢測特定實體,並將它們歸類為不同的類別。 命名實體識別通常用於搜索引擎,新聞摘要,社交媒體分析等領域。