pdf-vision-reader▌
childbamboo/claude-code-marketplace-sample · updated Apr 8, 2026
MDX-style export adds YAML metadata + attribution linking explainx.ai and this canonical listing URL.
図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。
PDF Vision Reader
図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。
クイックスタート
基本的な使い方
# 1. PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"
# 2. 各画像を Read ツールで読み込んで解析
# 3. Markdown 形式でまとめる
前提条件
必要なパッケージ:
# Python パッケージ
wsl pip3 install pdf2image Pillow
# システムパッケージ (poppler)
wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils
ワークフロー
ステップ1: PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"
これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます:
page_001.pngpage_002.pngpage_003.png- ...
ステップ2: 各画像を解析
Read ツールで各画像を順番に読み込み、内容を解析します。
解析時の指示例:
この画像の内容を詳しく説明してください:
- タイトルや見出し
- 本文テキスト
- 図表の説明
- グラフやチャートのデータ
- 重要なポイント
ステップ3: Markdown に統合
各ページの解析結果を統合して、一つの Markdown ファイルを作成します。
使用例
例1: プレゼンテーション資料を Markdown 化
User: "presentation.pdf を vision で解析して Markdown 化して"
Assistant:
1. scripts/pdf_to_images.py で PDF を画像に変換
2. 各画像を Read ツールで読み込み
3. 各ページの内容を解析(タイトル、図表、テキスト)
4. 全ページの解析結果を統合
5. Write ツールで Markdown ファイルに保存
例2: 特定のページのみ解析
User: "document.pdf の 5-10 ページだけ解析して"
Assistant:
1. PDF を画像に変換(全ページ)
2. page_005.png から page_010.png のみ Read で読み込み
3. 該当ページの内容を Markdown 化
解析の観点
自動的に抽出する情報
各ページの画像から以下を抽出:
-
テキスト情報
- タイトル・見出し
- 本文テキスト
- 箇条書きリスト
- 注釈・キャプション
-
図表
- 図の種類(フローチャート、組織図、etc.)
- 図の説明・要約
- 主要な要素と関係性
-
グラフ・チャート
- グラフの種類(棒グラフ、円グラフ、etc.)
- 軸ラベル
- 主要なデータポイント
- トレンドや傾向
-
テーブル
- テーブルの構造
- ヘッダー行
- データの内容
- Markdown テーブル形式に変換
-
レイアウト・構造
- ページ全体のレイアウト
- セクション分け
- 強調されている情報
Markdown 出力フォーマット
# [PDFタイトル]
**解析日時:** YYYY-MM-DD
**総ページ数:** N
---
## Page 1: [ページタイトル]
### 概要
[ページの概要説明]
### 主要な内容
- [ポイント1]
- [ポイント2]
### 図表
**図1: [図のタイトル]**
[図の説明]
### テキスト内容
[ページ内のテキスト]
---
## Page 2: [ページタイトル]
...
スクリプト詳細
pdf_to_images.py
機能:
- PDF の各ページを PNG 画像に変換
- 解像度指定可能(デフォルト: 200 DPI)
- 出力ディレクトリの自動作成
使い方:
python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]
# 例
python scripts/pdf_to_images.py document.pdf ./images 300
出力:
[pdf_name]_pages/page_001.png[pdf_name]_pages/page_002.png- ...
対応可能なコンテンツ
- ✅ テキスト(日本語・英語)
- ✅ 図表・ダイアグラム
- ✅ グラフ・チャート
- ✅ テーブル
- ✅ スクリーンショット
- ✅ インフォグラフィック
- ✅ 複雑なレイアウト
- ⚠️ 手書きメモ(精度は状況による)
- ⚠️ 低解像度画像(精度低下の可能性)
テキスト抽出との違い
pdf-reader (テキスト抽出)
- ✅ テキストのみの PDF で高速
- ✅ 純粋なテキスト抽出
- ❌ 図表は抽出不可
- ❌ レイアウトは簡略化
pdf-vision-reader (画像解析)
- ✅ 図表・グラフを理解
- ✅ 複雑なレイアウトを保持
- ✅ ビジュアル要素の説明
- ⚠️ 処理時間が長い
- ⚠️ API コスト(画像解析)
推奨される使い分け
| PDF の種類 | 推奨スキル |
|---|---|
| テキスト中心の文書 | pdf-reader |
| プレゼンテーション資料 | pdf-vision-reader |
| 図表・グラフが多い資料 | pdf-vision-reader |
| 技術図面・設計書 | pdf-vision-reader |
| 論文(図表含む) | pdf-vision-reader |
| 単純なテキストPDF | pdf-reader |
トラブルシューティング
pdf2image が見つからない
wsl pip3 install pdf2image
poppler-utils が見つからない
wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils
画像変換が失敗する
- PDF が破損していないか確認
- ディスク容量を確認
- メモリ不足の可能性(大きな PDF は分割処理)
解析精度が低い
- DPI を上げる(300 推奨)
python scripts/pdf_to_images.py document.pdf ./images 300 - 元の PDF の画質を確認
パフォーマンス
処理時間の目安
| ページ数 | 画像変換 | 解析(Claude vision) | 合計 |
|---|---|---|---|
| 10ページ | 5秒 | 30-60秒 | ~1分 |
| 30ページ | 15秒 | 90-180秒 | ~3分 |
| 100ページ | 50秒 | 300-600秒 | ~10分 |
最適化のヒント
-
必要なページのみ処理
- 全ページ変換後、重要なページのみ解析
-
DPI の調整
- 図表が多い: 300 DPI
- テキスト中心: 150-200 DPI
-
バッチ処理
- 複数 PDF を並行処理しない(順次処理)
パス変換
Windows パスから WSL パスへの変換:
C:\Users\...→/mnt/c/Users/...D:\Projects\...→/mnt/d/Projects/...
関連ツール
- pdf-reader: テキスト中心の PDF 用
- docx-reader: Word 文書用
- OCR ツール: pytesseract(テキスト特化)
バージョン履歴
- v1.0.0 (2026-01-06): 初期リリース
- PDF → 画像変換機能
- Vision ベースの解析ワークフロー
- 図表・グラフの理解対応
- Markdown 出力フォーマット
How to use pdf-vision-reader on Cursor
AI-first code editor with Composer
Prerequisites
Before installing skills in Cursor, ensure your development environment meets these requirements:
- ›Cursor installed and configured on your development machine
- ›Node.js version 16.0+ with npm package manager (verify with
node --version) - ›Active project directory or workspace where you want to add pdf-vision-reader
Execute installation command
Execute the skills CLI command in your project's root directory to begin installation:
The skills CLI fetches pdf-vision-reader from GitHub repository childbamboo/claude-code-marketplace-sample and configures it for Cursor.
Select Cursor when prompted
The CLI will show a list of available agents. Use arrow keys to navigate and space to select Cursor:
Verify installation
Confirm successful installation by checking the skill directory location:
Reload or restart Cursor to activate pdf-vision-reader. Access the skill through slash commands (e.g., /pdf-vision-reader) or your agent's skill management interface.
Security & Verification Notice
We perform automated surface-level scans (Gen AI Scanner, Socket, Snyk) during installation. These checks detect common vulnerabilities but do not guarantee complete security. Always review skill source code and verify the publisher's reputation before production use.
Skills execute code in your development environment. Always verify the publisher's identity, review recent commits, and test in isolated environments before production deployment.
List & Monetize Your Skill
Submit your Claude Code skill and start earning
Use Cases▌
Task Automation & Efficiency
Automate repetitive workflows and reduce manual effort
Example
Generate reports, summarize documents, draft communications
Save 3-5 hours per week on routine tasks
Knowledge Enhancement
Learn new skills, understand complex topics, get expert guidance
Example
Explain concepts, provide examples, suggest learning resources
Accelerate learning and skill development by 2x
Quality Improvement
Enhance output quality through reviews, suggestions, and refinements
Example
Review drafts, suggest improvements, catch errors
Improve work quality by 30-40% with less effort
Implementation Guide▌
Prerequisites
- ›Claude Desktop or compatible AI client with skill support
- ›Clear understanding of task or problem to solve
- ›Willingness to iterate and refine outputs
Time Estimate
15-45 minutes depending on use case complexity
Installation Steps
- 1.Install skill using provided installation command
- 2.Test with simple use case relevant to your work
- 3.Evaluate output quality and relevance
- 4.Iterate on prompts to improve results
- 5.Integrate into regular workflow if valuable
Common Pitfalls
- ⚠Expecting perfect results without iteration
- ⚠Not providing enough context in prompts
- ⚠Using skill for tasks outside its intended scope
- ⚠Accepting outputs without review and validation
Best Practices▌
✓ Do
- +Start with clear, specific prompts
- +Provide relevant context and constraints
- +Review and refine all outputs before using
- +Iterate to improve output quality
- +Document successful prompt patterns
✗ Don't
- −Don't use without understanding skill limitations
- −Don't skip validation of outputs
- −Don't share sensitive information in prompts
- −Don't expect skill to replace human judgment
💡 Pro Tips
- ★Be specific about desired format and style
- ★Ask for multiple options to choose from
- ★Request explanations to understand reasoning
- ★Combine AI efficiency with human expertise
When to Use This▌
✓ Use When
Use when skill capabilities match your task, clear ROI on time saved, and you can validate outputs. Best for repetitive tasks, learning, and quality improvement.
✗ Avoid When
Avoid when task requires deep expertise you can't validate, involves sensitive decisions, or when learning process is more valuable than speed of completion.
Learning Path▌
- 1Familiarize yourself with skill capabilities and limitations
- 2Start with low-risk, non-critical tasks
- 3Progress to more complex and valuable use cases
- 4Build expertise through regular use and experimentation
Discussion
Product Hunt–style comments (not star reviews)- No comments yet — start the thread.
Ratings
4.6★★★★★40 reviews- ★★★★★Ganesh Mohane· Dec 4, 2024
Registry listing for pdf-vision-reader matched our evaluation — installs cleanly and behaves as described in the markdown.
- ★★★★★Amelia Brown· Dec 4, 2024
Solid pick for teams standardizing on skills: pdf-vision-reader is focused, and the summary matches what you get after install.
- ★★★★★Hana Torres· Dec 4, 2024
Keeps context tight: pdf-vision-reader is the kind of skill you can hand to a new teammate without a long onboarding doc.
- ★★★★★Noah Martinez· Nov 27, 2024
pdf-vision-reader has been reliable in day-to-day use. Documentation quality is above average for community skills.
- ★★★★★Rahul Santra· Nov 23, 2024
Solid pick for teams standardizing on skills: pdf-vision-reader is focused, and the summary matches what you get after install.
- ★★★★★Valentina Kim· Nov 23, 2024
Registry listing for pdf-vision-reader matched our evaluation — installs cleanly and behaves as described in the markdown.
- ★★★★★Soo Jain· Nov 23, 2024
pdf-vision-reader is among the better-maintained entries we tried; worth keeping pinned for repeat workflows.
- ★★★★★Hana Ghosh· Oct 18, 2024
pdf-vision-reader fits our agent workflows well — practical, well scoped, and easy to wire into existing repos.
- ★★★★★Pratham Ware· Oct 14, 2024
I recommend pdf-vision-reader for anyone iterating fast on agent tooling; clear intent and a small, reviewable surface area.
- ★★★★★Sakura Diallo· Oct 14, 2024
Useful defaults in pdf-vision-reader — fewer surprises than typical one-off scripts, and it plays nicely with `npx skills` flows.
showing 1-10 of 40