วิธีทำให้ PDF สแกนค้นหาได้ด้วย OCR
คุณสแกนเอกสารสัญญาจำนวนมาก เปิดไฟล์หนึ่งในโปรแกรมดู PDF แล้วกด Ctrl+F เพื่อค้นหาข้อความ — แต่ไม่พบอะไรเลย แถบค้นหาแสดง "ไม่พบผลลัพธ์" แม้ว่าคุณจะเห็นตัวอักษรอยู่บนหน้าชัดเจน เหตุผลคือสแกนเนอร์ถ่ายรูปแต่ละหน้า ไม่ได้จับข้อความจริง OCR แก้ปัญหานี้โดยอ่านรูปภาพแล้วสร้างเลเยอร์ข้อความที่ค้นหาได้
เครื่องมือ OCR PDF ของ PDFGem ทำการแปลงนี้ทั้งหมดในเบราว์เซอร์ของคุณ ไม่ต้องอัปโหลดไฟล์ ไม่ต้องสร้างบัญชี ไม่มีข้อจำกัดรายวัน
ทำไม PDF สแกนจึงค้นหาไม่ได้
สแกนเนอร์ (หรือแอปกล้องเช่น CamScanner) ถ่ายรูปแต่ละหน้า PDF ที่ได้จะมีรูปถ่ายเหล่านี้เรียงตามลำดับ — ดูเหมือนกระดาษต้นฉบับทุกประการ แต่ต่างจาก PDF ที่สร้างใน Word หรือ Google Docs อย่างสิ้นเชิง
ตามคู่มือประเภท PDF ของ ABBYY มี PDF สามประเภท: ต้นฉบับ (สร้างแบบดิจิทัลพร้อมข้อความฝัง), รูปภาพอย่างเดียว (หน้าสแกนไม่มีข้อมูลข้อความ) และค้นหาได้ (หน้าสแกนที่เพิ่มเลเยอร์ข้อความ OCR แล้ว)
OCR ทำให้ PDF ค้นหาได้อย่างไร
OCR (การรู้จำอักขระด้วยแสง) วิเคราะห์รูปภาพแต่ละหน้า จำแนกตัวอักษรและคำ แล้วสร้างเลเยอร์ข้อความที่มองไม่เห็นหลังรูปภาพต้นฉบับ รูปลักษณ์ภายนอกยังเหมือนเดิมทุกประการ — ลายเซ็น ตราประทับ โลโก้ และบันทึกลายมือทั้งหมดยังอยู่ แต่ตอนนี้เมื่อกด Ctrl+F จะค้นหาคำในเอกสารได้จริง
ขั้นตอน: ทำให้ PDF สแกนค้นหาได้
- เปิดเครื่องมือ OCR PDF บน PDFGem — ใช้งานได้กับทุกอุปกรณ์ที่มีเบราว์เซอร์สมัยใหม่
- อัปโหลด PDF สแกนของคุณ โดยลากวางหรือเรียกดูไฟล์
- เลือกภาษาของเอกสาร — เอนจินรู้จำใช้โมเดลเฉพาะภาษา การเลือกภาษาถูกต้องจะเพิ่มความแม่นยำในการรู้จำภาษาไทยอย่างมาก
- ประมวลผลเอกสาร — เอนจินจะวิเคราะห์แต่ละหน้าและสร้างเลเยอร์ที่ค้นหาได้
- ดาวน์โหลดหรือใช้ผลลัพธ์ — ตอนนี้คุณมีข้อความที่ค้นหา เลือก และคัดลอกได้แล้ว
ทุกอย่างเกิดขึ้นในเครื่องของคุณ สัญญาสแกน เวชระเบียน และงบการเงินไม่เคยถูกส่งไปยังเซิร์ฟเวอร์ภายนอก
กรณีใช้งานจริง
ตรวจสอบเอกสารกฎหมาย
สำนักงานกฎหมายได้รับเอกสารแก้ไขสัญญาสแกน 500 หน้าระหว่าง due diligence หากไม่มี OCR ผู้ช่วยต้องอ่านทุกหน้าด้วยตนเอง ด้วย PDF ที่ค้นหาได้ สามารถค้นหา "ค่าชดเชย" หรือ "ข้อห้ามการแข่งขัน" ในชุดเอกสารทั้งหมดได้ภายในไม่กี่วินาที
วิจัยทางวิชาการ
ห้องสมุดมหาวิทยาลัยเก็บบทความวารสารสแกนนับพันจากยุคก่อนดิจิทัล OCR แปลงคอลเลกชันภาพนิ่งเหล่านี้เป็นฐานความรู้ที่ค้นหาได้
จัดเก็บเอกสารราชการและการปฏิบัติตามกฎระเบียบ
กรมสรรพากร เทศบาล และสถานพยาบาลรักษาคลังแบบฟอร์มสแกน เมื่อการตรวจสอบต้องการค้นหาเอกสารทุกฉบับที่มีเลขประจำตัวผู้เสียภาษีเฉพาะ PDF ที่ค้นหาได้จะลดเวลาค้นหาจากหลายชั่วโมงเหลือไม่กี่วินาที
ประมวลผลแบบกลุ่ม: เอกสารสแกนหลายไฟล์
- ใช้ รวม PDF เพื่อรวมหน้าสแกนทั้งหมดเป็น PDF เดียว
- เรียกใช้ OCR บนไฟล์ที่รวมแล้วเพื่อทำให้เอกสารทั้งหมดค้นหาได้ในครั้งเดียว
- เลือกได้ว่าจะใช้ PDF เป็นข้อความ เพื่อดึงข้อความ หรือ PDF เป็น Word เพื่อรับเอกสารที่แก้ไขได้
คุณภาพการสแกนสำคัญ: เคล็ดลับสำหรับผลลัพธ์ OCR ที่ดีขึ้น
- อย่างน้อย 300 DPI — มาตรฐานสำหรับการรู้จำตัวอักษรที่เชื่อถือได้
- จัดให้ตรง — หน้าที่เอียงบังคับให้เอนจินแก้ไขการหมุน ซึ่งอาจทำให้เกิดข้อผิดพลาด
- คอนทราสต์สูง — ข้อความสีเข้มบนพื้นหลังสีขาวสะอาดให้ผลลัพธ์ดีที่สุด
- หลีกเลี่ยงเงาและรอยพับ — สันหนังสือสร้างข้อความโค้งและเงา
- เลือกภาษาให้ถูกต้อง — โมเดลภาษาอังกฤษไม่สามารถจำแนกตัวอักษรภาษาไทยได้ถูกต้อง
หลัง OCR: ขั้นตอนต่อไป
- PDF เป็นข้อความ — ดึงเนื้อหาที่รู้จำได้เป็นไฟล์ข้อความ
- PDF เป็น Word — แปลง PDF เป็นเอกสาร .docx ที่แก้ไขได้
- รวม PDF — รวม PDF ที่ค้นหาได้จากหลายแหล่งเป็นไฟล์เดียว
สำหรับรายละเอียดทางเทคนิคของ OCR โปรดดูคู่มือที่เกี่ยวข้อง: OCR PDF — ดึงข้อความจากเอกสารสแกน
ความเป็นส่วนตัว: เอกสารอยู่บนอุปกรณ์ของคุณ
บริการ OCR ออนไลน์ส่วนใหญ่ต้องอัปโหลด PDF ไปยังเซิร์ฟเวอร์ OCR ของ PDFGem ประมวลผลทุกอย่างในเบราว์เซอร์ของคุณ เอนจินรู้จำโหลดครั้งเดียวแล้วทำงานบนอุปกรณ์ ไม่มีการอัปโหลด ไม่มีคลาวด์ ไม่มีการเข้าถึงของบุคคลที่สาม
ต้องการทำให้ PDF สแกนค้นหาได้? เปิดเครื่องมือ OCR PDF — ฟรี เป็นส่วนตัว ไม่ต้องลงทะเบียน