Outbyte PC Repair

Nowe narzędzie Python firmy Microsoft do konwersji dokumentów i plików Office do formatu Markdown

Nowe narzędzie Python firmy Microsoft do konwersji dokumentów i plików Office do formatu Markdown

Zrozumienie języka Markdown i narzędzia MarkItDown firmy Microsoft

Markdown zyskał popularność jako przyjazny dla użytkownika język znaczników, chwalony za lekką konstrukcję i prostą składnię. Ta prostota nie tylko pozwala ludziom łatwo go czytać i pisać, ale także czyni go idealnym wyborem dla aplikacji sztucznej inteligencji, umożliwiając algorytmom wydajne analizowanie struktur tekstowych. Ponadto jego zgodność z wiodącymi platformami, takimi jak GitHub i notatniki Jupyter, przyczynia się do jego powszechnego przyjęcia.

Przedstawiamy MarkItDown firmy Microsoft

Niedawno Microsoft wykonał znaczący krok w społeczności programistów, uruchamiając narzędzie open-source o nazwie MarkItDown na GitHub. Ta biblioteka Pythona oferuje funkcjonalność umożliwiającą konwersję różnych formatów plików, w tym dokumentów biurowych, do formatu Markdown. Ta możliwość ułatwia zadania takie jak indeksowanie i analiza tekstu, zwiększając użyteczność dokumentów na różnych platformach. Biblioteka obsługuje obecnie wiele typów plików, w tym:

  • PDF (.pdf)
  • Prezentacja w programie PowerPoint (.pptx)
  • Słowo (.docx)
  • Excel (.xlsx)
  • Obrazy z metadanymi EXIF ​​i możliwością OCR
  • Pliki audio zawierające metadane EXIF ​​i transkrypcję mowy
  • HTML, ze szczególnym uwzględnieniem formatów takich jak Wikipedia
  • Inne formaty tekstowe, takie jak CSV, JSON i XML

Ulepszanie Markdown dzięki integracji AI

Jedną z wyróżniających się cech biblioteki MarkItDown jest jej zdolność do wykorzystywania Large Language Models (LLM) do opisu obrazu. Programiści mogą łatwo skonfigurować tę funkcjonalność, wykorzystując parametry mlm_clienti mlm_modelw obiekcie MarkItDown. Poniżej znajduje się przykładowy przykład:

z importu MarkItDown MarkItDown

z Openai importuje OpenAI

klient = OpenAI()

md = MarkItDown(mlm_client=klient, mlm_model=”gpt-4o”)

wynik = md.convert(“example.jpg”)

drukuj(result.text_content)

Dostępność i instalacja oprogramowania Open Source

Ponieważ MarkItDown jest licencjonowany na podstawie licencji open source MIT, programiści mają swobodę wykorzystywania, modyfikowania i rozpowszechniania tego narzędzia, pod warunkiem dołączenia do dystrybucji informacji o oryginalnej licencji i prawach autorskich.

Dla zainteresowanych użyciem biblioteki MarkItDown Python, jest ona dostępna do pobrania na GitHub tutaj . Instalacja może być wykonana bez wysiłku za pomocą wiersza poleceń pip install markitdownlub ze źródła za pomocą pip install -e.

Opinie społeczności i doświadczenia użytkowników

NOWOŚĆ: Microsoft właśnie wypuścił bibliotekę do konwersji plików Office do formatu Markdown.
Jest super szybka i łatwa w użyciu.
Stworzyłem aplikację, abyś mógł ją wypróbować. Oto ona konwertująca szablonowy plik pptx. pic.twitter.com/NrG6C5DCaq

— matt palmer (@mattppal) 13 grudnia 2024 r.

Aplikacja internetowa dla osób niebędących programistami

Jeśli kodowanie nie jest Twoją specjalnością, możesz nadal eksplorować funkcjonalności biblioteki MarkItDown. Wersja aplikacji internetowej jest dostępna do testowania i zabawy tutaj .

Aby uzyskać więcej informacji, rozważ odwiedzenie źródła .

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *