Outbyte PC Repair

Office ドキュメントとファイルを Markdown に変換する Microsoft の新しい Python ツール

Office ドキュメントとファイルを Markdown に変換する Microsoft の新しい Python ツール

Markdown と Microsoft の MarkItDown ツールを理解する

Markdown は、軽量な設計とわかりやすい構文が高く評価され、ユーザーフレンドリーなマークアップ言語として人気を博しています。このシンプルさにより、人間が簡単に読み書きできるだけでなく、人工知能アプリケーションにも最適で、アルゴリズムがテキスト構造を効率的に解析できるようになります。さらに、GitHub や Jupyter ノートブックなどの主要なプラットフォームとの互換性も、Markdown の幅広い採用につながっています。

Microsoft による MarkItDown のご紹介

最近、Microsoft は GitHub でMarkItDownというオープンソース ユーティリティを公開し、開発者コミュニティに大きな一歩を踏み出しました。この Python ライブラリは、オフィス ドキュメントを含むさまざまなファイル形式を Markdown に変換する機能を提供します。この機能により、インデックス作成やテキスト分析などのタスクが容易になり、さまざまなプラットフォーム間でのドキュメントの使いやすさが向上します。このライブラリは現在、次のようなさまざまなファイル タイプをサポートしています。

  • PDF (.pdf)
  • パワーポイント (.pptx)
  • ワード(.docx)
  • エクセル(.xlsx)
  • EXIFメタデータとOCR機能を備えた画像
  • EXIFメタデータと音声の書き起こしを含むオーディオファイル
  • HTML、特にWikipediaのような形式に注意
  • CSV、JSON、XMLなどの他のテキストベースの形式

AI統合によるマークダウンの強化

MarkItDown ライブラリの際立った機能の 1 つは、画像の説明に大規模言語モデル (LLM) を活用できることです。開発者は、MarkItDown オブジェクト内のパラメータmlm_clientとを使用することで、この機能を簡単に構成できますmlm_model。以下に例を示します。

MarkitdownからMarkItDownをインポート

openaiインポートからOpenAI

クライアント = OpenAI()

md = MarkItDown(mlm_client=クライアント、mlm_model=”gpt-4o”)

結果 = md.convert(“example.jpg”)

結果のテキスト内容を印刷します

オープンソースの可用性とインストール

MarkItDown は MIT オープンソース ライセンスに基づいてライセンスされているため、開発者は配布物に元のライセンスと著作権情報を含めるという条件で、このツールを自由に利用、変更、配布することができます。

MarkItDown Python ライブラリの使用に関心がある方は、こちらのGitHub からダウンロードできます。インストールは、 を使用してコマンドラインから、pip install markitdownまたは を使用してソースから簡単に行うことができますpip install -e

コミュニティのフィードバックとユーザーエクスペリエンス

新着: Microsoft が Office ファイルをマークダウンに変換するライブラリを公開しました。
超高速で使いやすいです。
試していただけるようアプリを作成しました。こちらは定型的な pptx を変換するものです。pic.twitter.com/ NrG6C5DCaq

— マット・パーマー (@mattppal) 2024年12月13日

非開発者向けWebアプリケーション

コーディングが専門分野でない場合でも、MarkItDown ライブラリの機能を調べることができます。Web アプリケーション バージョンは、こちらからテストして試すことができます。

さらに詳しい情報については、ソースにアクセスすることを検討してください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です