Flytja inn gögn úr PDF í Excel með Power Query

Verkefnið að flytja gögn úr töflureikni í PDF skjal yfir í Microsoft Excel blað er alltaf „skemmtilegt“. Sérstaklega ef þú ert ekki með dýran auðkenningarhugbúnað eins og FineReader eða eitthvað slíkt. Bein afritun leiðir venjulega ekki til neins góðs, því. eftir að hafa límt afrituðu gögnin á blaðið munu þau líklegast „líma saman“ í einn dálk. Þannig að þá verður að aðskilja þau vandlega með því að nota verkfæri Texti eftir dálkum af flipanum Gögn (Gögn — texti í dálka).

Og auðvitað er afritun aðeins möguleg fyrir þær PDF-skrár þar sem textalag er, þ.e. með skjal sem hefur verið skannað úr pappír yfir í PDF, virkar þetta í grundvallaratriðum ekki.

En það er ekki svo sorglegt, í alvörunni 🙂

Ef þú ert með Office 2013 eða 2016, þá er á nokkrum mínútum, án viðbótarforrita, alveg mögulegt að flytja gögn frá PDF til Microsoft Excel. Og Word og Power Query mun hjálpa okkur í þessu.

Tökum til dæmis þessa PDF skýrslu með fullt af texta, formúlum og töflum af vefsíðu Efnahagsnefndarinnar fyrir Evrópu:

Flytja inn gögn úr PDF í Excel með Power Query

… og reyndu að draga út úr því í Excel, segðu fyrstu töfluna:

Flytja inn gögn úr PDF í Excel með Power Query

Förum!

Skref 1. Opnaðu PDF í Word

Einhverra hluta vegna vita fáir, en síðan 2013 hefur Microsoft Word lært að opna og þekkja PDF skjöl (jafnvel skannaðar, þ.e. án textalags!). Þetta er gert á algjörlega staðlaðan hátt: opnaðu Word, smelltu Skrá - Opna (Skrá - Opið) og tilgreindu PDF sniðið í fellilistanum neðst í hægra horninu í glugganum.

Veldu síðan PDF skjalið sem við þurfum og smelltu Opna (Opið). Word segir okkur að það muni keyra OCR á þessu skjali til að texta:

Flytja inn gögn úr PDF í Excel með Power Query

Við erum sammála og eftir nokkrar sekúndur munum við sjá PDF okkar opna til breytinga þegar í Word:

Flytja inn gögn úr PDF í Excel með Power Query

Auðvitað mun hönnunin, stíll, leturgerðir, hausar og fótar osfrv. fljúga að hluta af skjalinu, en þetta er ekki mikilvægt fyrir okkur - við þurfum aðeins gögn úr töflum. Í grundvallaratriðum, á þessu stigi, er það nú þegar freistandi að einfaldlega afrita töfluna úr viðurkenndu skjalinu í Word og einfaldlega líma hana inn í Excel. Stundum virkar það, en oftar leiðir það til alls kyns gagnabrenglunar - til dæmis geta tölur breyst í dagsetningar eða verið texti, eins og í okkar tilfelli, vegna þess. PDF notar ekki skilgreinar:

Flytja inn gögn úr PDF í Excel með Power Query

Svo við skulum ekki skera horn, heldur gera allt aðeins flóknara, en rétt.

Skref 2: Vistaðu skjalið sem vefsíðu

Til að hlaða síðan mótteknum gögnum inn í Excel (með Power Query) þarf að vista skjalið okkar í Word á vefsíðusniði – þetta snið er í þessu tilviki eins konar samnefnari á milli Word og Excel.

Til að gera þetta, farðu í valmyndina Skrá – Vista sem (Skrá - Vista sem) eða ýttu á takkann F12 á lyklaborðinu og í glugganum sem opnast velurðu skráargerðina Vefsíða í einni skrá (Vefsíða - Ein skrá):

Flytja inn gögn úr PDF í Excel með Power Query

Eftir vistun ættir þú að fá skrá með mhtml endingunni (ef þú sérð skráarendingar í Explorer).

Stig 3. Að hlaða upp skránni í Excel með Power Query

Þú getur opnað MHTML-skrána sem búið var til í Excel beint, en þá fáum við í fyrsta lagi allt innihald PDF-skjalsins í einu, ásamt texta og fullt af óþarfa töflum, og í öðru lagi munum við aftur tapa gögnum vegna rangra skiljur. Þess vegna munum við framkvæma innflutninginn í Excel í gegnum Power Query viðbótina. Þetta er algjörlega ókeypis viðbót þar sem þú getur hlaðið gögnum inn í Excel frá nánast hvaða uppruna sem er (skrár, möppur, gagnagrunnar, ERP kerfi) og síðan umbreytt mótteknum gögnum á allan mögulegan hátt og gefið þeim það form sem þú vilt.

Ef þú ert með Excel 2010-2013, þá geturðu halað niður Power Query frá opinberu Microsoft vefsíðunni - eftir uppsetningu muntu sjá flipa Orkufyrirspurn. Ef þú ert með Excel 2016 eða nýrri, þá þarftu ekki að hlaða niður neinu - öll virkni er nú þegar innbyggð í Excel sjálfgefið og er staðsett á flipanum Gögn (Dagsetning) í hóp Sækja og umbreyta (Fá og umbreyta).

Svo við förum annað hvort í flipann Gögn, eða á flipanum Orkufyrirspurn og velja lið Til að sækja gögn or Búðu til fyrirspurn - Úr skrá - Frá XML. Til að gera ekki aðeins XML skrár sýnilegar skaltu breyta síunum í fellilistanum neðst í hægra horni gluggans í Allar skrár (Allar skrár) og tilgreindu MHTML skrána okkar:

Flytja inn gögn úr PDF í Excel með Power Query

Vinsamlegast athugaðu að innflutningnum lýkur ekki með góðum árangri, vegna þess að. Power Query býst við XML frá okkur, en við erum í raun með HTML sniði. Þess vegna, í næsta glugga sem birtist, þarftu að hægrismella á skrána sem er óskiljanleg fyrir Power Query og tilgreina snið hennar:

Flytja inn gögn úr PDF í Excel með Power Query

Eftir það verður skráin rétt þekkt og við munum sjá lista yfir allar töflurnar sem hún inniheldur:

Flytja inn gögn úr PDF í Excel með Power Query

Hægt er að skoða innihald taflnanna með því að smella á vinstri músarhnappinn á hvíta bakgrunninum (ekki í orðinu Tafla!) í reitunum í Data dálknum.

Þegar æskileg tafla er skilgreind skaltu smella á græna orðið Tafla – og þú „fellur“ inn í innihald þess:

Flytja inn gögn úr PDF í Excel með Power Query

Það er eftir að gera nokkur einföld skref til að „kamba“ innihald þess, þ.e.

  1. eyða óþarfa dálkum (hægrismelltu á dálkhausinn - Fjarlægja)
  2. skiptu punktum út fyrir kommur (veldu dálka, hægrismelltu - Að skipta út gildum)
  3. fjarlægðu jafnmerki í hausnum (veldu dálka, hægrismelltu - Að skipta út gildum)
  4. fjarlægðu efstu línuna (Heim – Eyða línum – Eyða efstu línum)
  5. fjarlægðu auðar línur (Heima – Eyða línum – Eyða tómum línum)
  6. hækka fyrstu röðina í töfluhausinn (Heim – Notaðu fyrstu línu sem fyrirsagnir)
  7. sía út óþarfa gögn með síu

Þegar borðið er komið í eðlilegt form er hægt að losa það á blaðið með skipuninni loka og hlaða niður (Loka og hlaða) on The aðalæð flipa. Og við munum fá slíka fegurð sem við getum nú þegar unnið með:

Flytja inn gögn úr PDF í Excel með Power Query

  • Að breyta dálki í töflu með Power Query
  • Skiptir klístruðum texta í dálka

Skildu eftir skilaboð