ข้ามไปยังเนื้อหา
PDFGem
ทำไมฟรี?

OCR PDF ฟรี — ดึงข้อความจากเอกสารที่สแกน

PDFGem

คุณมีสัญญาที่สแกน ใบเสร็จที่ถ่ายรูป หรือ PDF เก่าที่ดูเหมือนมีข้อความแต่ไม่สามารถเลือกได้แม้แต่คำเดียว PDF นั้นเป็นแบบรูปภาพ — ข้อความที่คุณเห็นจริงๆ แล้วเป็นรูปภาพ OCR (การรู้จำอักขระด้วยแสง) แก้ปัญหานี้โดยอ่านภาพและแปลงเป็นข้อความจริงที่เลือกและค้นหาได้

เครื่องมือ OCR PDF ของ PDFGem ทำกระบวนการทั้งหมดนี้ในเบราว์เซอร์ของคุณ ไม่มีไฟล์ถูกอัปโหลดไปยังเซิร์ฟเวอร์ใด ไม่ต้องมีบัญชี และไม่มีข้อจำกัดรายวัน

OCR ทำอะไรจริงๆ

OCR เป็นเทคโนโลยีที่วิเคราะห์ภาพ — ไม่ว่าจะเป็นการสแกน ภาพถ่าย หรือภาพหน้าจอ — และระบุรูปร่างของตัวอักษร ตัวเลข และสัญลักษณ์ภายในนั้น ตามข้อมูลจาก IBM OCR แปลงภาพข้อความเป็นรูปแบบที่เครื่องอ่านได้โดยการทำความสะอาดภาพก่อน (แก้ไขการจัดตำแหน่ง ลบสัญญาณรบกวน) จากนั้นจับคู่รูปร่างอักขระกับรูปแบบที่รู้จัก

ผลลัพธ์: สิ่งที่ก่อนหน้านี้เป็นภาพแบนกลายเป็นข้อความจริงที่คุณสามารถเลือก คัดลอก วาง ค้นหา และแก้ไขได้

วิธีตรวจสอบว่า PDF ของคุณต้องการ OCR หรือไม่

ไม่ใช่ทุก PDF ที่เป็นภาพที่สแกน PDF หลายตัวเป็น "เนทีฟ" — ถูกสร้างในรูปแบบดิจิทัลจาก Word, Google Docs หรือเครื่องมือออกแบบ และข้อความถูกฝังอยู่แล้ว ต่อไปนี้คือการทดสอบอย่างรวดเร็ว:

  1. เปิด PDF ในโปรแกรมดูใดก็ได้ (เบราว์เซอร์ของคุณก็ใช้ได้)
  2. ลองเลือกข้อความ โดยคลิกแล้วลากเหนือคำ
  3. ถ้าสามารถไฮไลท์คำเดี่ยวๆ และคัดลอกได้ PDF มีข้อความอยู่แล้ว — ไม่ต้องใช้ OCR
  4. ถ้าไม่มีอะไรถูกไฮไลท์ หรือคุณสามารถวาดสี่เหลี่ยมรอบพื้นที่ได้เท่านั้น PDF เป็นแบบรูปภาพและต้องการ OCR

คำแนะนำอีกอย่าง: ซูมเข้าที่ 400% ขึ้นไป หากข้อความเบลอและเป็นพิกเซล แสดงว่าเป็นภาพที่สแกน PDF เนทีฟจะรักษาข้อความคมชัดที่ทุกระดับการซูมเพราะข้อความเป็นแบบเวกเตอร์

ขั้นตอน: ดึงข้อความด้วย PDFGem OCR

  1. เปิดเครื่องมือ OCR PDF — ไม่ต้องติดตั้ง ไม่ต้องสมัคร
  2. อัปโหลด PDF โดยลากไปยังพื้นที่อัปโหลดหรือคลิกเพื่อเรียกดูอุปกรณ์
  3. เลือกภาษาเอกสาร — บอกเครื่องยนต์การรู้จำว่าจะใช้ชุดอักขระใด สำหรับเอกสารภาษาไทย ให้เลือก "Thai" เพื่อให้ OCR รู้จักอักขระไทยได้ถูกต้อง PDFGem รองรับ 16 ภาษา
  4. คลิกปุ่ม OCR — การประมวลผลเริ่มทันทีในเบราว์เซอร์ แถบความคืบหน้าแสดงหน้าที่กำลังวิเคราะห์
  5. ตรวจสอบข้อความที่ดึงออกมา — แสดงบนหน้าจอ คัดลอกไปยังคลิปบอร์ดหรือดาวน์โหลดเป็นไฟล์ข้อความ

กระบวนการทั้งหมดเกิดขึ้นในเครื่องบนอุปกรณ์ของคุณ PDF ของคุณไม่เคยถูกส่งไปยังเซิร์ฟเวอร์ภายนอกใด — ข้อได้เปรียบสำคัญเมื่อจัดการกับเอกสารที่ละเอียดอ่อนเช่นสัญญา แบบฟอร์มภาษี หรือเวชระเบียน

เมื่อไหร่ที่ต้องการ OCR: สถานการณ์จริง

OCR ไม่ใช่แค่ความอยากรู้ทางเทคนิค ต่อไปนี้คือสถานการณ์จริงที่ช่วยประหยัดเวลาการพิมพ์ด้วยมือหลายชั่วโมง:

แปลงเอกสารกระดาษเก่าเป็นดิจิทัล

ธุรกิจขนาดเล็กเก็บใบแจ้งหนี้จากปี 2010-2018 ไว้ในตู้เก็บเอกสาร หลังจากสแกนเป็น PDF (สแกนเนอร์สำนักงานและแอปโทรศัพท์ส่วนใหญ่ทำสิ่งนี้ได้) PDF เป็นแค่ภาพ การรัน OCR ทำให้ค้นหาได้: ค้นหา "ใบแจ้งหนี้ #4872" ใช้เวลาไม่กี่วินาทีแทนที่จะต้องพลิกหาในโฟลเดอร์

ทำให้สัญญาที่สแกนค้นหาได้

คุณได้รับสัญญา 30 หน้าที่เซ็นแล้วเป็น PDF สแกน คุณต้องหาข้อกำหนดการยกเลิก โดยไม่มี OCR คุณต้องเลื่อนดูทุกหน้าด้วยตนเอง ด้วย OCR คุณ Ctrl+F แล้วค้นหา "ยกเลิก" — ทันที

ดึงข้อมูลจากใบเสร็จ

ฟรีแลนซ์และนักบัญชีมักได้รับใบเสร็จค่าใช้จ่ายเป็น PDF ที่ถ่ายรูป OCR ดึงชื่อผู้ขาย วันที่ และจำนวนเงิน ทำให้สามารถวางข้อมูลลงในสเปรดชีตได้แทนที่จะต้องพิมพ์ทุกอย่างด้วยมือ สำหรับนักบัญชีที่จัดการค่าใช้จ่ายหลายร้อยรายการต่อเดือน OCR ช่วยประหยัดเวลาอย่างมาก

เก็บถาวรหน้าที่ถ่ายรูปไว้

นักศึกษาและนักวิจัยถ่ายรูปหน้าหนังสือหรือไวท์บอร์ด ภาพเหล่านี้ไม่มีประโยชน์สำหรับการค้นหาข้อความ การแปลงเป็น PDF และรัน OCR สร้างเอกสารอ้างอิงที่ค้นหาได้

ประมวลผลเอกสารราชการภาษาไทย

เอกสารราชการไทยจำนวนมากถูกแสกนและแจกจ่ายเป็น PDF ภาพ ไม่ว่าจะเป็นแบบฟอร์มภาษีสรรพากร เอกสารทะเบียนราษฎร์ หรือเอกสารประกันสังคม OCR รองรับภาษาไทยโดยเฉพาะ ทำให้ค้นหาและดึงข้อมูลจากเอกสารเหล่านั้นได้

เคล็ดลับสำหรับผลลัพธ์ OCR ที่ดีที่สุด

ความแม่นยำของ OCR ขึ้นอยู่กับคุณภาพของภาพที่ป้อนเข้ามาเป็นอย่างมาก ต่อไปนี้คือคำแนะนำ:

  • สแกนที่ 300 DPI ขึ้นไป — นี่คือคำแนะนำมาตรฐานสำหรับการรู้จำอักขระที่เชื่อถือได้ สำหรับข้อความขนาดเล็ก (ต่ำกว่า 10pt) ใช้ 400-600 DPI
  • วางหน้าให้ตรง — การสแกนเอียงบังคับให้เครื่องยนต์แก้ไขการจัดตำแหน่งก่อนอ่าน ซึ่งอาจทำให้เกิดข้อผิดพลาด ซอฟต์แวร์สแกนเนอร์ส่วนใหญ่มีตัวเลือก "deskew"
  • ใช้โหมดสีเทาหรือขาวดำ — การสแกนสีสร้างไฟล์ที่ใหญ่ขึ้นโดยไม่ปรับปรุงการรู้จำข้อความ โหมดสีเทาให้ความสมดุลที่ดีที่สุดระหว่างความแม่นยำและขนาดไฟล์
  • ให้แน่ใจว่ามีความคมชัดที่ดี — ข้อความเข้มบนพื้นหลังขาวเหมาะที่สุด เอกสารที่ซีดจาง กระดาษเหลือง หรือพื้นหลังสีลดความแม่นยำ
  • หลีกเลี่ยงการบีบอัดมาก — JPEG artifacts ที่การตั้งค่าคุณภาพต่ำอาจทำให้ขอบอักขระเบลอ ใช้ PNG สำหรับการสแกนหากเป็นไปได้ หรือ JPEG ที่คุณภาพ 90+
  • เลือกภาษาที่ถูกต้อง — นี่สำคัญมาก เครื่องยนต์การรู้จำโหลดโมเดลเฉพาะภาษา การใช้ "English" กับเอกสารภาษาไทยจะอ่านอักขระไทยผิด เลือก "Thai" สำหรับเอกสารภาษาไทย

สิ่งที่ทำได้หลังจาก OCR

เมื่อดึงข้อความจาก PDF ที่สแกนแล้ว มีหลายขั้นตอนถัดไปขึ้นอยู่กับสิ่งที่ต้องการ:

  • PDF เป็นข้อความ — หาก PDF ของคุณมีข้อความแล้ว (หลัง OCR หรือเนทีฟ) เครื่องมือนี้ดึงออกมาอย่างสะอาดเป็นไฟล์ข้อความธรรมดา
  • PDF เป็น Word — แปลง PDF เป็นเอกสาร Word ที่แก้ไขได้ รักษาโครงสร้างเลย์เอาต์ มีประโยชน์เมื่อต้องการแก้ไขเนื้อหา ไม่ใช่แค่อ่าน
  • บีบอัด PDF — PDF ที่สแกนมักมีขนาดใหญ่ (การสแกนสี 10 หน้าอาจเกิน 20 MB ได้ง่าย) การบีบอัดลดขนาดไฟล์ขณะรักษาเนื้อหาให้อ่านได้
  • ทำให้แบนราบ — หาก PDF มีฟิลด์ฟอร์มที่กรอกได้ การทำให้แบนราบหลัง OCR จะล็อกเนื้อหาทั้งหมดเป็นข้อความคงที่

OCR ในเบราว์เซอร์: ทำไมความเป็นส่วนตัวถึงสำคัญ

เครื่องมือ OCR ออนไลน์ส่วนใหญ่ — รวมถึงเครื่องมือจากคู่แข่งที่รู้จักกันดี — ต้องอัปโหลด PDF ไปยังเซิร์ฟเวอร์ สัญญาที่สแกน เอกสารภาษี และเวชระเบียนของคุณผ่านโครงสร้างพื้นฐานของคนอื่น แม้แต่กับคำสัญญา "เราลบหลังประมวลผล" ไฟล์ก็เดินทางผ่านอินเทอร์เน็ตและอยู่บนเครื่องระยะไกลชั่วคราว

PDFGem ใช้แนวทางที่แตกต่าง เครื่องยนต์ OCR ขั้นสูงทำงานทั้งหมดในเบราว์เซอร์ของคุณ โมเดลการรู้จำโหลดครั้งเดียวและประมวลผลทุกอย่างในเครื่อง PDF ของคุณอยู่บนอุปกรณ์ตั้งแต่ต้นจนจบ นี่ไม่ใช่คำกล่าวอ้างทางการตลาด — แต่เป็นการตัดสินใจทางสถาปัตยกรรม ไม่มีส่วนประกอบฝั่งเซิร์ฟเวอร์สำหรับเครื่องมือ OCR

สำหรับบุคคลที่จัดการเอกสารส่วนตัวและธุรกิจที่จัดการกับสัญญาที่เป็นความลับ ความแตกต่างนี้มีความสำคัญ ไม่มีเซิร์ฟเวอร์หมายความว่าไม่มีความเสี่ยงการละเมิดข้อมูล ไม่มีการเข้าถึงของบุคคลที่สาม และไม่มีข้อกังวลเรื่องการปฏิบัติตามข้อกำหนดเกี่ยวกับตำแหน่งที่ประมวลผลไฟล์

พร้อมดึงข้อความจาก PDF ที่สแกน? เปิดเครื่องมือ OCR PDF — ฟรี เป็นส่วนตัว และทำงานทั้งหมดในเบราว์เซอร์