Archive

Archive for the ‘xml’ Category

How to convert from doc and rtf to fo ?

February 5, 2007 3 comments

หลังจากที่ได้เสียเวลาไปกับการหาวิธีที่จะ convert เอกสาร Microsoft Word ( *.doc) ไปเป็นเอกสาร Apache FOP เกือบสองอาทิตย์เล่นเอาผมเหนือยไปเลยสุดท้ายก็ต้องซื้อโปรแกรมจากต่างประเทศเพราะว่าเสียเวลามามากแล้ว ใช้ทุกวิธีเท่าที่ผมจะคิดได้ จาก doc  >  xml > fo ไม่ได้เพราะหาโปรแกรม convert จาก doc > xml แล้วรูปแบบเอกสารยังเหมือนเดิมเมื่อ convert ไป fo  แต่ก็ไปเจอโปรแกรมหลายๆตัวที่น่าสนใจเช่น aurigadoc ซึ่งเป็นโปรแกรมที่มากด้วยความสามารถตัวหนึ่งคือสามารถ convert เอกสาร xml ไปเป็นเอกสารอีกหลายรูปแบบ เช่น HTML(single and multi page), DHTML, PDF, PostScript, Formatting Object(FO), RTF, Java Help and HTML Help(.chm) ครับ แต่สุดท้ายผมก็หมดความอดทนที่จะหาวิธีการก็จำใจต้องกลับมาใช้โปรแกรมที่เจอครั้งแรกคือ RTF TO XML และก็จ่ายเงินซื้อไป $40 แต่เงินที่เสียไปและกับเงินที่จะได้มามันผมคิดว่าคุ้มเกินคุ้มไม่น่าเสียหาเลย แต่ก็ได้โปรแกรมดีๆอย่าง aurigadoc มา(Open Source)

สรุปวิธีการ แปลงไฟล์เอกสาร Microsoft Word (*.doc)  ไปเป็น Apache FOP ดังนี้

1. แปลงจาก *.doc เป็น  *.rtf ก่อนก็ง่ายๆครับ Save As เป็นไฟล์RTF เพราะ Microsoft Word ทำได้อยู่แล้ว
2. แปลงจาก *.rtf  เป็น *.fo โดยใช้โปรแกรม RTF TO XML หรือโปรแกรม RTF TO FO ก็ได้บริษัทเดียวกันครับ

อันนี้แถมครับแปลง XML เป็น HTML(single and multi page), DHTML, PDF, PostScript, Formatting Object(FO), RTF, Java Help and HTML Help(.chm)

อาศัยโปรแกรม aurigadoc ครับวิธีการใช้งานก็มีบอกในเว็บไซต์ครับลองไปหาอ่านดูเอกสารเค้าดีครับผมขออนุญาติคัดลอกบางส่วนมาเท่าที่จำเป็นก็แล้วกันครับ

Installation On Windows

To install aurigadoc on windows follow the given steps:-

  1. Untar the aurigadoc distribution to a directory.
    This will create a folder aurigadoc
  2. Set the AURIGADOC_HOME environment variable to the absolute path of the aurigadoc directory created above.
  3. Add aurigadoc/bin directory to the PATH environment variable.
  4. Open aurigadoc/bin/aurigadoc.properties in a text editor and set the aurigadoc.home property to the absolute path of the aurigadoc directory created above.

    Note: Use double slashes in the path like this
    aurigadoc.home=c:\\software\\aurigadoc

  5. If you need to compile HTML Help Files automatically, install HTML Help Workshop from Microsoft’s site and set the value of chm_compiler.path to the absolute path of the HTML Help Compiler(hhc.exe).

    Note: Use double slashes in the path like this
    chm_compiler.path=c:\\Program Files\\HTML Help Workshop\\hhc.exe

Using From Command Line

 

EXAMPLES:

  • html conversion:
    aurigadoc.sh -html -XML foo.xml -OUT foo.html
  • html conversion using a custom xsl:
    aurigadoc.sh -html -XML foo.xml -OUT foo.html -PARAM xsl=path-to-xsl
  • java help conversion with indexing and view option:
    aurigadoc.sh -jhelp -XML foo.xml -OUT foo-jhelp-files -PARAM index_files=y -PARAM launch_viewer=y
  • chm conversion with a custom xsl for generating the html help content file.
    aurigadoc.sh -chm -XML foo.xml -OUT foo-chm-files -PARAM hhc_xsl=path-to-xsl

Usage: aurigadoc.sh(or aurigadoc.bat) COMMAND OPTIONS PARAMETERS
COMMAND:

  • -h: Display this help and exit successfully.
  • -v: Display version information and exit successfully.
  • -pdf: Convert input file to pdf.
  • -ps: Convert input file to ps(postscript).
  • -fo: Convert input file to fo.
  • -awt: View pdf output of input file in awt viewer.
  • -html: Convert input file to output html file.
  • -mht: Convert input file to single html file and compile it into a MIME multipart/related message format.
  • -mhtml: Convert input file to multiple html files in specified output directory.
  • -dhtml: Convert input file to multiple html files with a toc tree in specified output directory.
  • -chm: Convert input file to multiple html files with the html help content file(.hhc) and html help project file (.hhp).
    If HTML Help Compiler is installed on the system and the compiler path is specified in aurigadoc.properties a compiled chm file is also generated.
  • -jhelp: Convert input file to multiple html files with supporting files to make a java help.
    If indexing option is set to y an index is created.
    If view options is set to yes then the output is launched in a java help viewer.
  • -ohj: Convert input file to multiple html files with supporting files needed by Oracle Help For Java (OHJ).
    If indexing option is set to y an index is created.
    If view options is set to yes then the output is launched in a java help viewer.
    This options requires OHJ jars to be installed in AurigaDoc lib directory. OHJ can be downloaded from http://otn.oracle.com/software/tech/java/help/index.html.
  • -jhview: View the helpset specified by helpset name and the helpset dir in a java help viewer.
  • -man: Convert input file to unix man source file.

OPTIONS:

  • -XML <file-name>: The input xml file.
  • -OUT <path>: The path of output file or directory.
  • -HSNAME helpset-name: The helpset name without the extension. Required for -jhview option.
  • -HSDIR <path>: The dir path where the helpset is located. Required for -jhview option.
Advertisements
Categories: xml