Outbyte PC Repair

微软推出新 Python 工具,用于将 Office 文档和文件转换为 Markdown

微软推出新 Python 工具,用于将 Office 文档和文件转换为 Markdown

了解 Markdown 和 Microsoft 的 MarkItDown 工具

Markdown 是一种用户友好的标记语言,因其轻量级设计和简单易懂的语法而广受好评。这种简单性不仅使人类能够轻松阅读和编写,而且使其成为人工智能应用程序的理想选择,使算法能够有效地解析文本结构。此外,它与 GitHub 和 Jupyter 笔记本等领先平台的兼容性有助于其广泛采用。

微软推出 MarkItDown

最近,微软在 GitHub 上发布了一款名为MarkItDown的开源实用程序,这是开发者社区迈出的重要一步。这个 Python 库提供了将各种文件格式(包括办公文档)转换为 Markdown 的功能。此功能有助于完成索引和文本分析等任务,从而扩展了文档在不同平台上的可用性。该库目前支持多种文件类型,包括:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • 具有 EXIF 元数据和 OCR 功能的图像
  • 包含 EXIF 元数据和语音转录的音频文件
  • HTML,特别关注像 Wikipedia 这样的格式
  • 其他基于文本的格式,如 CSV、JSON 和 XML

通过 AI 集成增强 Markdown

MarkItDown 库的一个突出特点是它能够利用大型语言模型 (LLM) 进行图像描述。开发人员可以利用MarkItDown 对象中的参数mlm_client和轻松配置此功能。下面是一个说明性示例:mlm_model

来自 markitdown 导入 MarkItDown

从 openai 导入 OpenAI

客户端=OpenAI()

md = MarkItDown(mlm_client =客户端,mlm_model =“gpt-4o”)

结果 = md.convert(“example.jpg”)

打印(结果.文本内容)

开源可用性和安装

由于 MarkItDown 是在 MIT 开源许可证下授权的,开发人员可以自由使用、修改和分发此工具,但必须在分发中包含原始许可证和版权信息。

对于那些有兴趣使用 MarkItDown Python 库的人来说,可以从 GitHub 上下载可以通过命令行使用pip install markitdown或从源代码轻松完成安装pip install -e

社区反馈和用户体验

新功能:微软刚刚发布了一个将 Office 文件转换为 Markdown 的库。
它超级快,而且易于使用。
我为你开发了一个应用程序来试用它。这里它正在转换一个样板pptx。pic.twitter.com/NrG6C5DCaq

– 马特·帕尔默(@mattppal)2024 年 12 月 13 日

面向非开发人员的 Web 应用程序

如果编码不是你的专长,你仍然可以探索 MarkItDown 库的功能。这里有一个 Web 应用程序版本供你测试和使用。

如需进一步了解,请考虑访问来源

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注