PDF.chat API

Wyślij PDF i chat z tego z własnej aplikacji — zadaj pytania i otrzymaj odpowiedzi na stronę, w 100+ językach. Pomiar na stronę, żadnych niespodzianek.

Przegląd

PDF.chat API jest małym interfejsem REST. Najpierw ty POST dokument do pobrania i odzyskania pracy z tekstem dokumentu i podział na stronę (tekst, skrzynki graniczne, pewność siebie). Potem ty POST pytania przeciwko tej pracy i uzyskanie odpowiedzi na podstawie dokumentu, każdy cytując stronę, z której pochodzi. Prace o 5 stronach lub mniej powrotu w linii; większe miejsca pracy wracają natychmiast pending status, który rozpoczyna się do czasu done.

  • Podstawowy URL: https://pdf.chat
  • Dokumenty w: PDF, plus Word, PowerPoint, tekst i obrazy (PNG, JPG, WEBP, GIF, BMP, TIFF)
  • Chat z: odpowiedzi z cytatami strony; transkrypty za pomocą punktu końcowego historii
  • Przetwarzany tekst: txt, md, docx, pdf, csv, json
  • Silniki odczytu: cpu (szybkie, drukowane dowody) oraz vlm (premium AI, pismo, złożony układ, matematyka)

Uwierzytelnienie

Uwierzytelniaj się z Twoim Token API (Najdź to na swoim Strona konta) jako nagłówk Nośnika:

Authorization: Bearer YOUR_API_TOKEN

Możesz również przejść ?api_token=… jako parametr zapytania. Użycie jest mierzone w zależności od salda strony konta.

Prześlij dokument

POST /api/v1/ocr/, wieloczęściowy formularz wysyłania.

curl -X POST https://pdf.chat/api/v1/ocr/ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -F "file=@invoice.pdf" \
  -F "tier=vlm" \
  -F "language=auto"

Zwraca zadanie. Dla plików ≤5-stroniowych to już jest done z tekstem; większe pliki odzyskują pending/processing, zbadać stan punktu końcowego.

{
  "uuid": "9f2c1b7e4a...",
  "status": "done",
  "tier": "vlm",
  "language": "auto",
  "page_count": 1,
  "mean_confidence": 0.98,
  "text": "INVOICE\nAcme Corp\nTotal: 215.00 USD",
  "markdown": "# INVOICE\n\n**Acme Corp** ...",
  "pages": [ { "index": 0, "text": "...", "blocks": [ { "text": "...", "bbox": [x0,y0,x1,y1], "confidence": 0.98 } ] } ]
}

Pobierz wyniki

GET /api/v1/ocr/<uuid>/, test do status jest done lub failed.

curl https://pdf.chat/api/v1/ocr/9f2c1b7e4a.../ \
  -H "Authorization: Bearer YOUR_API_TOKEN"

Pobierz format

GET /api/v1/ocr/<uuid>/download/?format=md, eksportować wynik. format jest jednym z txt, md, docx, pdf, csv, json.

curl -L "https://pdf.chat/api/v1/ocr/9f2c1b7e4a.../download/?format=docx" \
  -H "Authorization: Bearer YOUR_API_TOKEN" -o result.docx

Chat z dokumentem

Zadaj pytania o zakończoną pracę. Odpowiedzi są umieszczone tylko w wydobytym tekstie i zacytować stronę źródłową. Wymaga tokenu konta, funkcja chat jest montowana na rachunku.

POST /api/v1/chat/<uuid>/, Ciało JSON {"message": "your question"}.

curl -X POST https://pdf.chat/api/v1/chat/9f2c1b7e4a.../ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"message": "What is the invoice total and due date?"}'

Zwraca wiadomość asystenta z odpowiedzią i listą powyższych stron:

{"conversation": "a1b2…", "message": {
   "role": "assistant",
   "content": "The total is $42, due on March 3 (p. 1).",
   "citations": [{"page": 1, "cited_text": "The invoice total is $42…", "document_id": "9f2c1b7e4a…"}]
}}

GET /api/v1/chat/<uuid>/history/, Przynieś pełną transkrypcję rozmowy do pracy.

Przykłady kodu

import requests, time

BASE = "https://pdf.chat/api/v1"
H = {"Authorization": "Bearer YOUR_API_TOKEN"}

# 1. Upload a PDF
with open("contract.pdf", "rb") as f:
    job = requests.post(BASE + "/ocr/", headers=H, files={"file": f}).json()

# 2. Wait until it's ready to chat
while job["status"] in ("pending", "processing"):
    time.sleep(2)
    job = requests.get(f"{BASE}/ocr/{job['uuid']}/", headers=H).json()

# 3. Ask questions — every answer is cited to the page
ans = requests.post(f"{BASE}/chat/{job['uuid']}/", headers=H,
    json={"message": "What is the termination notice period?"}).json()
print(ans["message"]["content"])
print(ans["message"]["citations"])
import fs from "fs";

const BASE = "https://pdf.chat/api/v1";
const H = { Authorization: "Bearer YOUR_API_TOKEN" };

// 1. Upload a PDF
const form = new FormData();
form.append("file", new Blob([fs.readFileSync("contract.pdf")]), "contract.pdf");
let job = await (await fetch(`${BASE}/ocr/`, { method: "POST", headers: H, body: form })).json();

// 2. Wait until it's ready to chat
while (["pending", "processing"].includes(job.status)) {
  await new Promise(r => setTimeout(r, 2000));
  job = await (await fetch(`${BASE}/ocr/${job.uuid}/`, { headers: H })).json();
}

// 3. Ask questions — every answer is cited to the page
const ans = await (await fetch(`${BASE}/chat/${job.uuid}/`, {
  method: "POST", headers: { ...H, "Content-Type": "application/json" },
  body: JSON.stringify({ message: "What is the termination notice period?" })
})).json();
console.log(ans.message.content, ans.message.citations);
# 1. Upload a PDF
curl -X POST https://pdf.chat/api/v1/ocr/ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -F "file=@contract.pdf"

# 2. Ask questions (use the uuid from step 1) — answers cited to the page
curl -X POST https://pdf.chat/api/v1/chat/UUID/ \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"message": "What is the termination notice period?"}'

Parametry

PoleTypOpis
filefileWymagany. Obraz lub PDF do przetwarzania.
tierstringcpu (domyślne, szybkie/drukowane) lub vlm (premium AL: pismo, układ, matematyka).
languagestringauto (domyślne) lub kod języka (en, ch, ja, ar,...).
toolstringOpcjonalne łużki narzędziowe (np. summarize-pdf, ask-pdf) wstępnie wprowadzić chat do tego zadania.

Błądy i ograniczenia

KodZnaczenie
400Brak pliku, niepodtrzymywany typ lub plik za duży.
401Brak lub nieprawidłowy token API.
402Z stron, codziennie/miesięcznie bezpłatny limit, lub brak kredytów. used/cap.
404Zadanie UUID nie znaleziono.
409Pobieranie wymagane przed zakończeniem zadania.

Każda strona przetwarzane kredyty kosztów (1/strona na szybkim poziomie, więcej na premii). Wypłacane plany podnoszą na stronę pliku i dodają priorytet. Zob. ceny.

Często zadawane pytania

Stwórz bezpłatne konto i otwórz swoje Strona konta, żeton jest pokazany tutaj z przyciskiem kopii.

Tak, pliki z 5 stron lub mniej zwracają pełną linię wyników w odpowiedzi POST, więc nie jest potrzebne ankietowanie dla większości obrazów i krótkich PDF.

Ponad 100, w tym skrypty łacińskie, CJK, arabskie, cyrylicowe i indyckie. language=auto wykrywanie lub przekazanie określonego kodu.

Przesyłki są przetwarzane tylko aby odpowiedzieć na Twoje pytania i usunąć automatycznie. Nigdy nie sprzedajemy, nie dzielimy się, ani nie trenujemy w swoich dokumentach.

Wykorzystanie jest mierzone na stronę w stosunku do salda konta: anonimowe połączenia otrzymują do dnia dawkę na IP, bezpłatne konta miesięczne wiadro i zapłacone plany korzystania zakupione kredyty z wyższymi na stronie i priorytet. Po upływie czasu otrzymasz 402 z wykorzystanym i cap w organizmie.

Możesz wysłać PNG, JPG, WEBP, GIF, BMP, TIFF i wielostranicowy PDF. Wyniki pobierania jako txt, md, docx, pdf (doszukiwanie), csv lub json za pomocą parametru końcowego pobierania.

400 to brak pliku, nieuprądowany typ lub plik za duży; 401 brakujący lub nieprawidłowy token; 402 z stron; 404 nieznane zadanie UUID; oraz 409 pobieranie wymagane przed zakończeniem zadania. Błędowe organy zawierają krótkie wiadomości.

Obiekt pracy ze statusem, poziomem, językiem, stroną_pojemność i średnią pewnością, plus pełny tekst i markdown. Materiały stron rozkładają każdą stronę na bloki z ich tekstem, ramką granicową (bbox) i zaufaniem w bloku.

Użyj cpu (domyślnie) do szybkiego, nisko kosztowego rozpoznawania czystych dokumentów drukowanych. Użyj wlm, prymium silnika AI, do pisania, złożonych lub wielokolumnowych układów, matematyki i tłumaczenia, gdzie jest to znacznie dokładniejsze.

Narzędzie przenoszenia z śliwką (na przykład podsumowanie pdf lub ask-pdf) w celu wstępnego wkładu chat do tego zadania, więc asystent jest nastawiony na podsumowanie lub odpowiedź na pytania dotyczące dokumentu.

Pliki z 5 stron lub mniej zwrotu w odpowiedzi POST. Większe pliki są wracane natychmiast w oczekiwaniu lub przetwarzaniu, a ty ankietujesz GET /api/v1/okr /<uuid>/ do czasu zakończenia lub zakończenia statusu. Płacione plany podnoszą na stronę na plik.

API jest zwykłym REST w HTTPS, więc działa z dowolnego języka z klientem HTTP, zobacz powyższe przykłady Python, Node.js i cURL. Nie ma SDK do instalowania; kilka wierszów standardowego kodu HTTP to wszystko, czego potrzebujesz.