Zrozumienie języka Markdown i narzędzia MarkItDown firmy Microsoft
Markdown zyskał popularność jako przyjazny dla użytkownika język znaczników, chwalony za lekką konstrukcję i prostą składnię. Ta prostota nie tylko pozwala ludziom łatwo go czytać i pisać, ale także czyni go idealnym wyborem dla aplikacji sztucznej inteligencji, umożliwiając algorytmom wydajne analizowanie struktur tekstowych. Ponadto jego zgodność z wiodącymi platformami, takimi jak GitHub i notatniki Jupyter, przyczynia się do jego powszechnego przyjęcia.
Przedstawiamy MarkItDown firmy Microsoft
Niedawno Microsoft wykonał znaczący krok w społeczności programistów, uruchamiając narzędzie open-source o nazwie MarkItDown na GitHub. Ta biblioteka Pythona oferuje funkcjonalność umożliwiającą konwersję różnych formatów plików, w tym dokumentów biurowych, do formatu Markdown. Ta możliwość ułatwia zadania takie jak indeksowanie i analiza tekstu, zwiększając użyteczność dokumentów na różnych platformach. Biblioteka obsługuje obecnie wiele typów plików, w tym:
- PDF (.pdf)
- Prezentacja w programie PowerPoint (.pptx)
- Słowo (.docx)
- Excel (.xlsx)
- Obrazy z metadanymi EXIF i możliwością OCR
- Pliki audio zawierające metadane EXIF i transkrypcję mowy
- HTML, ze szczególnym uwzględnieniem formatów takich jak Wikipedia
- Inne formaty tekstowe, takie jak CSV, JSON i XML
Ulepszanie Markdown dzięki integracji AI
Jedną z wyróżniających się cech biblioteki MarkItDown jest jej zdolność do wykorzystywania Large Language Models (LLM) do opisu obrazu. Programiści mogą łatwo skonfigurować tę funkcjonalność, wykorzystując parametry mlm_client
i mlm_model
w obiekcie MarkItDown. Poniżej znajduje się przykładowy przykład:
z importu MarkItDown MarkItDown
z Openai importuje OpenAI
klient = OpenAI()
md = MarkItDown(mlm_client=klient, mlm_model=”gpt-4o”)
wynik = md.convert(“example.jpg”)
drukuj(result.text_content)
Dostępność i instalacja oprogramowania Open Source
Ponieważ MarkItDown jest licencjonowany na podstawie licencji open source MIT, programiści mają swobodę wykorzystywania, modyfikowania i rozpowszechniania tego narzędzia, pod warunkiem dołączenia do dystrybucji informacji o oryginalnej licencji i prawach autorskich.
Dla zainteresowanych użyciem biblioteki MarkItDown Python, jest ona dostępna do pobrania na GitHub tutaj . Instalacja może być wykonana bez wysiłku za pomocą wiersza poleceń pip install markitdown
lub ze źródła za pomocą pip install -e
.
Opinie społeczności i doświadczenia użytkowników
NOWOŚĆ: Microsoft właśnie wypuścił bibliotekę do konwersji plików Office do formatu Markdown.
Jest super szybka i łatwa w użyciu.
Stworzyłem aplikację, abyś mógł ją wypróbować. Oto ona konwertująca szablonowy plik pptx. pic.twitter.com/NrG6C5DCaq— matt palmer (@mattppal) 13 grudnia 2024 r.
Aplikacja internetowa dla osób niebędących programistami
Jeśli kodowanie nie jest Twoją specjalnością, możesz nadal eksplorować funkcjonalności biblioteki MarkItDown. Wersja aplikacji internetowej jest dostępna do testowania i zabawy tutaj .
Aby uzyskać więcej informacji, rozważ odwiedzenie źródła .
Dodaj komentarz