API PDF.chat

Envíe un PDF e chat con el desde o seu propio programa — faga preguntas e obteña respostas citadas na páxina, en máis de 100 linguas. Medido por páxina, sen sorpresas.

Resumo

A API PDF.chat é unha pequena interface REST. Primeiro POST un documento para o inxerir e obter unha tarefa co texto do documento e unha descomposición por páxina (texto, caixas delimitadoras, confianza). Entón POST Pregunta preguntas contra esa tarefa e obtén respostas baseadas no documento, cada unha citando a páxina da que procede. As tarefas de 5 páxinas ou menos devolven inline; as tarefas maiores devolven inmediatamente cunha pending estado que vostede consulta ata done.

  • URL base: https://pdf.chat
  • Documentos en: PDF, máis Word, PowerPoint, texto e imaxes (PNG, JPG, WEBP, GIF, BMP, TIFF)
  • Chat saídas: respostas con citas de páxinas; transcricións a través do punto final do historial
  • Texto procesado de saída: txt, md, docx, pdf, csv, json
  • Motores de lectura: cpu (documentos rápidos e impresos) e vlm (IA premium, escritura a man, disposición complexa, matemáticas)

Autenticación

Autenticar co seu Token da API (encóntrase no teu páxina da conta) como cabeceira de portador:

Authorization: Bearer YOUR_API_TOKEN

Tamén podes pasar ?api_token=… como parámetro de consulta. O uso mídese contra o saldo de páxinas da conta.

Enviar un documento

POST /api/v1/ocr/, Enviar o formulario multipart.

curl -X POST https://pdf.chat/api/v1/ocr/ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -F "file=@invoice.pdf" \
  -F "tier=vlm" \
  -F "language=auto"

Devolve a tarefa. Para ficheiros de ≤ 5 páxinas xa está done co texto; os ficheiros maiores regresan pending/processing, consultar o punto final de estado.

{
  "uuid": "9f2c1b7e4a...",
  "status": "done",
  "tier": "vlm",
  "language": "auto",
  "page_count": 1,
  "mean_confidence": 0.98,
  "text": "INVOICE\nAcme Corp\nTotal: 215.00 USD",
  "markdown": "# INVOICE\n\n**Acme Corp** ...",
  "pages": [ { "index": 0, "text": "...", "blocks": [ { "text": "...", "bbox": [x0,y0,x1,y1], "confidence": 0.98 } ] } ]
}

Obter un resultado

GET /api/v1/ocr/<uuid>/, preguntar ata status é done ou failed.

curl https://pdf.chat/api/v1/ocr/9f2c1b7e4a.../ \
  -H "Authorization: Bearer YOUR_API_TOKEN"

Obter un formato

GET /api/v1/ocr/<uuid>/download/?format=md, exportar o resultado. format é un de txt, md, docx, pdf, csv, json.

curl -L "https://pdf.chat/api/v1/ocr/9f2c1b7e4a.../download/?format=docx" \
  -H "Authorization: Bearer YOUR_API_TOKEN" -o result.docx

Chat con un documento

Faga preguntas acerca dunha tarefa rematada. As respostas baséanse só no texto extraído e citan a páxina de orixe. Require un token de conta, a funcionalidade chat está limitada pola conta.

POST /api/v1/chat/<uuid>/, Corpo de JSON {"message": "your question"}.

curl -X POST https://pdf.chat/api/v1/chat/9f2c1b7e4a.../ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"message": "What is the invoice total and due date?"}'

Devolve a mensaxe do asistente coa súa resposta e unha lista de páxinas citadas:

{"conversation": "a1b2…", "message": {
   "role": "assistant",
   "content": "The total is $42, due on March 3 (p. 1).",
   "citations": [{"page": 1, "cited_text": "The invoice total is $42…", "document_id": "9f2c1b7e4a…"}]
}}

GET /api/v1/chat/<uuid>/history/, obter a transcrición completa da conversa para unha tarefa.

Exemplos de código

import requests, time

BASE = "https://pdf.chat/api/v1"
H = {"Authorization": "Bearer YOUR_API_TOKEN"}

# 1. Upload a PDF
with open("contract.pdf", "rb") as f:
    job = requests.post(BASE + "/ocr/", headers=H, files={"file": f}).json()

# 2. Wait until it's ready to chat
while job["status"] in ("pending", "processing"):
    time.sleep(2)
    job = requests.get(f"{BASE}/ocr/{job['uuid']}/", headers=H).json()

# 3. Ask questions — every answer is cited to the page
ans = requests.post(f"{BASE}/chat/{job['uuid']}/", headers=H,
    json={"message": "What is the termination notice period?"}).json()
print(ans["message"]["content"])
print(ans["message"]["citations"])
import fs from "fs";

const BASE = "https://pdf.chat/api/v1";
const H = { Authorization: "Bearer YOUR_API_TOKEN" };

// 1. Upload a PDF
const form = new FormData();
form.append("file", new Blob([fs.readFileSync("contract.pdf")]), "contract.pdf");
let job = await (await fetch(`${BASE}/ocr/`, { method: "POST", headers: H, body: form })).json();

// 2. Wait until it's ready to chat
while (["pending", "processing"].includes(job.status)) {
  await new Promise(r => setTimeout(r, 2000));
  job = await (await fetch(`${BASE}/ocr/${job.uuid}/`, { headers: H })).json();
}

// 3. Ask questions — every answer is cited to the page
const ans = await (await fetch(`${BASE}/chat/${job.uuid}/`, {
  method: "POST", headers: { ...H, "Content-Type": "application/json" },
  body: JSON.stringify({ message: "What is the termination notice period?" })
})).json();
console.log(ans.message.content, ans.message.citations);
# 1. Upload a PDF
curl -X POST https://pdf.chat/api/v1/ocr/ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -F "file=@contract.pdf"

# 2. Ask questions (use the uuid from step 1) — answers cited to the page
curl -X POST https://pdf.chat/api/v1/chat/UUID/ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"message": "What is the termination notice period?"}'

Parámetros

CampoTipo de ficheiroDescrición
filefileRequirido. A imaxe ou PDF a procesar.
tierstringcpu (predeterminado, rápido/ impreso) ou vlm (IA premium: escritura a man, disposición, matemáticas).
languagestringauto (predeterminado) ou un código de lingua (en, ch, ja, ar, …).
toolstringUnha barra de ferramentas opcional (p. ex. summarize-pdf, ask-pdf) para pre-enmarcar o chat para esa tarefa.

Erros e límites

CódigoSignificado
400Non hai ficheiro, o tipo non está soportado ou o ficheiro é demasiado grande.
401Falta un token API ou non é válido.
402Sen páxinas, acadause o límite diario/ mensual ou non hai créditos. O corpo inclúe used/cap.
404Non se atopou o UUID da tarefa.
409Solicitouse a obtención antes de que rematase a tarefa.

Cada páxina procesada custa créditos (1/ páxina no nivel rápido, máis no premium). Os plans de pago aumentan os límites de páxinas por ficheiro e engaden prioridade. Consulte prezo.

Preguntas frecuentes

Crea unha conta gratuíta e abre a túa conta páxina da conta, o seu token móstrase alí cun botón de copiar.

Si, os ficheiros de 5 páxinas ou menos devolven o resultado completo na resposta POST, polo que non é preciso consultar para a maioría das imaxes e PDFs curtos.

Máis de 100, incluíndo os alfabetos latino, CJK, árabe, cirílico e indio. Use language=auto para detectar ou pasar un código específico.

Os envíos só se procesan para responder ás súas preguntas e bórranse automaticamente. Nunca vendemos, compartimos ou adestramos cos seus documentos.

O uso mídese por páxina contra o saldo da conta: as chamadas anónimas reciben unha asignación diaria por IP, as contas gratuítas un cubo mensual e os plans pagos usan créditos comprados con límites e prioridades maiores por páxina por ficheiro. Cando se esgote recibe un 402 con usado e límite no corpo.

Pode enviar PNG, JPG, WEBP, GIF, BMP, TIFF e PDF de varias páxinas. Os resultados transfírense como txt, md, docx, pdf (posíbel procurar), csv ou json mediante o parámetro de formato do punto final de transferencia.

400 é un ficheiro que falta, un tipo non soportado ou un ficheiro demasiado grande; 401 é un token que falta ou non é válido; 402 é fora de páxinas; 404 é un UUID descoñecido da tarefa; e 409 é unha solicitudescarga antes de que remate a tarefa. Os corpos dos erros inclúen unha mensaxe curta.

Un obxecto de traballo con estado, nivel, linguaxe, contaxe_ de_ páxinas e confianza_ media, máis o texto completo e o markdown. O array de páxinas divide cada páxina en bloques co seu texto, caixa delimitadora (bbox) e confianza por bloque.

Empregar a CPU (por omisión) para un recoñecemento rápido e barato de documentos limpos impresos. Empregar vlm, o motor de IA premium, para escrita a man, disposicións complexas ou de varias columnas, matemáticas e tradución, onde é moito máis preciso.

Pass tool cunha slug (por exemplo summarize- pdf ou ask- pdf) para pre- enmarcar o chat para esa tarefa, de xeito que o asistente estea sintonizado para resumir ou responder preguntas acerca do documento.

Os ficheiros de 5 páxinas ou menos devolvense inline na resposta POST. Os ficheiros maiores regresan inmediatamente como pendentes ou en proceso, e vostede consulta GET / api/ v1/ ocr /<uuid>/ ata que o estado sexa feito ou fallado. Os plans de pago elevan o límite de páxinas por ficheiro.

A API é REST simple sobre HTTPS, polo que funciona desde calquera linguaxe cun cliente HTTP, vexa os exemplos de Python, Node. js e cURL enriba. Non hai SDK para instalar; só precisa unhas cantas liñas de código HTTP estándar.