ページ(HTML,etc.)をLLM用にMarkdown化、Jina Reader API


LLMを使う上で、検索エンジンを活用した RAG (Retrieval-Augmented Generation) が便利だが、現在のRAGでは生のHTMLを理解させようとしている。

しかしタグ記述やclass名など、コンテンツ情報としては不要なものも多々あるので、公開されているページをMarkdown化するJina Reader APIが公開されている。月1,000件であれば無料で使える。

Reader API | Jina AI
https://jina.ai/reader

画像も理解してaltを追加してくれる。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です