微軟推出新的 Python 工具,用於將 Office 文件和文件轉換為 Markdown

微軟推出新的 Python 工具,用於將 Office 文件和文件轉換為 Markdown

了解 Markdown 和 Microsoft 的 MarkItDown 工具

Markdown 作為一種用戶友好的標記語言而受到關注,因其輕量級設計和簡單的語法而受到好評。這種簡單性不僅使人類能夠輕鬆地讀寫它,而且使其成為人工智慧應用程式的理想選擇,使演算法能夠有效地解析文字結構。此外,它與 GitHub 和 Jupyter Notebook 等領先平台的兼容性也有助於其廣泛採用。

Microsoft 推出 MarkItDown

最近,微軟在開發者社群中邁出了重要一步,在 GitHub 上推出了名為MarkItDown的開源實用程式。這個 Python 函式庫提供將各種文件格式(包括 Office 文件)轉換為 Markdown 的功能。此功能有助於索引和文字分析等任務,擴展文件在不同平台上的可用性。該庫目前支援多種文件類型,包括:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • 字 (.docx)
  • Excel (.xlsx)
  • 具有 EXIF 元資料和 OCR 功能的影像
  • 包含 EXIF 元資料和語音轉錄的音訊文件
  • HTML,特別注意維基百科等格式
  • 其他基於文字的格式,例如 CSV、JSON 和 XML

透過 AI 整合增強 Markdown

MarkItDown 函式庫的一項突出功能是它能夠利用大型語言模型 (LLM) 進行影像描述。開發人員可以利用MarkItDown 物件中的參數mlm_client和輕鬆配置此功能。mlm_model下面是一個說明性範例:

從 markitdown 導入 MarkItDown

從 openai 導入 OpenAI

客戶端 = OpenAI()

md = MarkItDown(mlm_client=client, mlm_model=”gpt-4o”)

結果 = md.convert(“example.jpg”)

列印(結果.文字內容)

開源可用性和安裝

由於 MarkItDown 是根據 MIT 開源許可證獲得許可的,因此開發人員可以自由使用、修改和分發該工具,並規定在其分發中包含原始許可證和版權資訊。

對於那些對使用 MarkItDown Python 庫感興趣的人,可以在 GitHub 上下載該。可以使用命令列pip install markitdown或從原始程式碼輕鬆完成安裝pip install -e

社群回饋與使用者體驗

新:微軟剛剛放棄了一個用於將 Office 文件轉換為 Markdown 的庫。
它超級快且易於使用。
我建立了一個應用程式供您嘗試。這裡它正在轉換一個樣板 pptx。pic.twitter.com/NrG6C5DCaq

– 馬特·帕爾默 (@mattppal) 2024 年 12 月 13 日

針對非開發人員的 Web 應用程式

如果編碼不是您的專業領域,您仍然可以探索 MarkItDown 庫的功能。此處提供了 Web 應用程式版本供您測試和使用。

如需進一步了解,請考慮存取原始程式碼

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *