自 2022 年 OpenAI 發布 ChatGPT 以來,幾乎所有行業的大多數人都至少嘗試過一次生成式 AI 工具。生成式 AI 的市場規模預計復合年增長率為 24.40%,從而產生 到 2030 年市場規模將達到 2070 億美元。該技術可以通過多種方式發揮作用。其中之一是使用 OpenAI 從文檔中提取數據。
閱讀這篇文章,了解基于 ChatGPT 的 AI 從文檔中提取數據的應用程序和用例、該技術的挑戰和局限性及其前景。
OpenAI GPT 如何幫助從文檔中提取數據?

OpenAI 的 ChatGPT 是一種大型語言模型 (LLM),旨在根據獲得的輸入理解并生成類似人類的文本。該技術利用大規模機器學習和自然語言處理 (NLP),使其能夠根據特定查詢提供數據提取問題的答案。
在頂級大型語言模型中,ChatGPT 因其在文檔數據提取方面的先進功能而脫穎而出。我們先來回顧一下OpenAI GPT在該領域的應用。使用該技術的可能方法列表包括但不限于:
- 上下文理解:掌握單詞或短語的使用上下文。此功能對于情感分析、機器翻譯和對話系統等任務至關重要。
- 自動響應:從電子郵件或基于文本的支持渠道中提取和解釋客戶查詢,以提供自動但準確的響應。它在知識管理中也很有用,可以生成或更新自動常見問題解答。
- 文本摘要:生成長文檔、報告或文章的簡明摘要,有助于快速決策和信息傳播。
- 命名實體識別 (NER):對命名實體進行識別和分類,例如人名、組織、位置、時間表達、數量等。這對于信息檢索、數據挖掘和客戶服務機器人非常重要。
- 問答:接收問題,然后提供準確、簡潔的答案。這可以應用于客戶服務或學術研究等領域。
- 發票處理:從發票中提取相關財務數據,以便自動輸入會計系統。
- 醫療記錄管理:從健康記錄中提取和總結關鍵信息,以便醫療保健專業人員更輕松地訪問和解釋。
- 市場研究:分析新聞文章、報告和其他文檔并提取市場趨勢、客戶偏好或競爭情報等數據點。
- 簡歷篩選:篩選簡歷,提取教育背景、技能、經驗和其他相關信息,以進行自動初步篩選。
使用人工智能從文檔中提取數據可以在很多方面提供幫助,具體取決于各個行業企業的特定需求。
在數據提取任務中成功使用 OpenAI GPT 的示例
盡管生成式人工智能技術不久前才公開,但它已經得到了廣泛的應用。以下是一些現實世界中基于開放式人工智能的文檔數據提取示例以及其他生成式人工智能使用示例,展示了該技術在商業領域的日益普及:
可行的生成分析平臺

Viable 平臺使公司能夠更好地處理客戶支持請求并檢索可行的見解通過客戶互動來提高他們的凈推薦值 (NPS)。
他們開始利用經過微調的 OpenAI 法學碩士的功能以超出傳統技術的規模分析定性數據。通過這種方式,他們能夠幫助客戶理解他們通過與客戶溝通生成的大量數據。 The Viable 的客戶聲稱生成分析功能每年為他們節省了近 1,000 個小時。
Yabble反饋分析平臺
Yabble 平臺允許公司從客戶反饋中提取數據,為他們的業務提供信息策略并節省手動處理數據的時間。
Yabble Count,一款由 OpenAI ChatGPT 提供支持的人工智能工具,可以分析數千條評論和其他非結構化數據集,按情緒對它們進行分類,并將數據組織成主題和子主題。 Yabble 產品主管 Ben Roe 表示:“用戶很喜歡最終理解海量數據和反饋表格并以易于理解的方式呈現這些信息是多么容易。”
B2B求職平臺開發

挑戰在于確保高質量的職位描述解析并將候選人資料與職位要求相匹配。這將幫助客戶簡化平臺上的候選人采購。作為附加要求,解決方案應符合多元化、公平和包容 (DEI) 原則。
該解決方案是由 Intelliarts 團隊創建的 NLP 技術驅動的 ML 模型。它可以將求職委員會或 LinkedIn 等社交媒體網站上的候選人資料與公司打算填補的職位進行比較。它是通過分析文本描述并提取和匹配關鍵短語來完成的。該解決方案包括一個語義搜索引擎,支持多種搜索過濾器,例如年齡、性別、種族出身等,性別和種族檢測準確率超過 90%。
值得注意的是,生成式人工智能并不是唯一能夠執行數據提取任務的技術。您還可以使用文檔提取、旨在從文檔中提取特定信息的非生成式人工智能或基于規則的文檔提取軟件。
詳細的用例只是使用 ChatGPT 進行數據提取的眾多示例中的幾個,因為公司往往不會披露有關此類問題的信息。廣泛使用 ChatGPT 數據提取的行業和企業范圍如下圖所示。

![ChatGPT 代碼氣味 [漫畫] ChatGPT 代碼氣味 [漫畫]](http://www.gentpower.com.cn/wp-content/uploads/2024/03/17571910-1710780098409.png)