我們擅長商業(yè)策略與用戶體驗的完美結合。
歡迎瀏覽我們的案例。
微軟研究院最近開源了 Visual ChatGPT,一個聊天機器人系統(tǒng),可以根據(jù)人類的文本提示生成和處理圖像。該系統(tǒng)將 OpenAI 的 ChatGPT 與 22 種不同的視覺基礎模型(VFM)相結合,可以支持多模態(tài)交互。
arXiv 上的一篇論文對該系統(tǒng)進行了描述。用戶可以通過輸入文本或上傳圖片與聊天機器人互動。機器人還可以根據(jù)文本提示生成圖像,或者通過處理聊天歷史記錄中的圖像來生成圖像。該聊天機器人的一個關鍵模塊是提示詞管理器(Prompt Manager),它將用戶輸入的原始文本組織成一個“思維鏈”提示詞,幫助 ChatGPT 確定是否需要調用 VFM 工具來執(zhí)行圖像任務。據(jù)微軟團隊稱,Visual ChatGPT 是:
一個包含各種 VFM 的開放系統(tǒng),使用戶能夠超越語言格式與 ChatGPT 進行交互。為了構建這樣一個系統(tǒng),我們精心設計了一系列提示詞,將視覺信息注入到 ChatGPT 中,從而逐步解決復雜的視覺問題。
ChatGPT 和其他大語言模型(LLM)已經顯示出了強大的自然語言處理能力,但它們被訓練成只處理一種輸入模式:文本。微軟并沒有訓練另一個新的模型來處理多模態(tài)輸入,而是設計了一個 Prompt Manager 來生成輸入給 ChatGPT 的文本,進而生成可以調用 VFM(如 CLIP 或 Stable Diffusion)來執(zhí)行計算機視覺任務的輸出。
提示詞管理器基于 LangChain 代理,而 VFM 被定義為 LangChain 代理工具。為了確定是否需要調用工具,代理會結合用戶提示詞和對話歷史記錄(其中包含了圖像文件名),然后應用提示詞的前綴和后綴。前綴包括以下文本:
Visual ChatGPT 不能直接讀取圖像,但它有一些工具可用來完成不同的視覺任務。每一張圖像都有一個文件名,格式為“image/xxx.png”,Visual ChatGPT 可以調用不同的工具來間接理解圖像。
前綴中的附加文本會引導 ChatGPT 問自己“是否需要使用工具”,如果需要使用工具,它應該輸出工具的名稱以及所需的輸入,例如要生成的圖像文件名或圖像的文本描述。代理將迭代地調用 VFM 工具,將生成的圖像發(fā)送到聊天會話中,直到不再需要使用工具。此時,最后生成的文本輸出將被發(fā)送到聊天會話中。
在 Hacker News 的一個帖子中,一位用戶指出 VFM 使用的內存比語言模型少得多,他想知道為什么。另一位用戶回復說:
圖像模型可以很差,但仍然可以生成令人滿意的結果。試想一下,我們可以將圖像的像素隨機變化 10%,我們只會看到圖像質量降低了一些,但其他方面仍然是完美的。而語言模型就不是這樣了,因為它們試圖解決的問題要“尖銳”得多,即使它們只是偏離了一點點,都會導致結果出現(xiàn)嚴重偏差。所以我們需要一個更大的模型來獲得足夠的文本“清晰度”。
?。?a href="http://m.jinteng090.cn">碼上科技)