EBbits :: 查看主题 "【文本校对】txtformat应用教程"

txtformat
感谢追梦的风筝@dospy

简介：
十二种文件格式转换,四种内码转换,文件合并,文件分割,乱码修改,格式整理,文件更名,目录合并,广告删除,HTML 代码
删除,自动排版,文本搜索替换,正则表达式搜索替换,块搜索替换,通配符搜索替换.全面支持 Unicode,Unicode Big
Endian,UTF-8 格式文件，功能可扩展，支持批处理。文件体积小，纯绿色软件，不用安装直接运行。
地址：
http://pan.baidu.com/share/link?shareid=645911&uk=2986888837
用法
1 首先选择你的 txt/html 文件所在目录，该目录中的文件将显示在列表中
2 单击列表中的一个文件名来打开此文件
3 批处理就是一次性依次处理整个目录中的所有文件。
小技巧：关于去除广告
可以在你的 txt 文件所在的目录中创建一个名为 remove.txt 的文件，在其中写入你想要移除的广告内容，一行一条。
这样，txtFormat 会将 remove.txt 中的内容逐条、全部从你的 txt 文件中删除。
图1

图2

图3

软件界面说明：
1.基本操作功能区域自不必提。
2.格式整理及设置：
如图②，整理文本格式，空行，分段，缩进的。
3.TXT分割及合成：
相比于一楼的TXT合成器与TXT**来说，功能和操作略显逊色了一些，所以我很少用。
4.查找乱码，查找下一处乱码，修正乱码：
实体书的文本乱码一般比较多（例如：翱跏莱涨槟醒剑　比似胩荆肃）。那个乱码修复一般没什么效果，有时还会越
修复越糟糕，所以如果大家碰到乱码还是对照实体书或者去网上找其他的文本对照吧。
注：有很多不是乱码的文字有时也会被误当做乱码查找出来。
5.文件格式转换区域：使用很简单，点击合适的按钮就可以选择文件转换了，处理速度也非常快。
6.正则表达式应用区：主要使用区域。

先说说一些主要小说网站的书源文本问题：

1.起点中文网：电脑上www网的VIP章节为gif图片格式，手机上wap网的VIP章节为文本，如果是看正版书的推荐使用wap
文本（电脑也可以上wap网站的，百度一下wap有很多）。但是需要注意的是起点针对wap文本做了一些处理，已发现的一
是会把“三点”变成“…（为一半引号）”；二是会删除所有的“！”，所以需要自己添加了。起点中文网的小说文字版
更新最快的一般都是百度贴吧，但是百度贴吧的文字并不是wap文本，而是图片OCR扫校的，因为起点wap文字版更新时间
比图片版晚一天，使用OCR扫校很容易产生错误，再加上百度的河蟹屏蔽程度在网上首屈一指。所以取贴吧的文字做精校
要一边对照图片一边来。

2.纵横中文网：一般只去除了段首缩进，用txtformat的格式整理就可以处理了。

3.17K中文网：里面广告挺多，郁闷。比如：
“夲书兔费发步于щщщ、丨┓К、℃⊙М，第一时间呵看，请支持正板阅渎”。

4.文心阁：常常加入“ШШШ。щ╳ɡ。ｃ℃ ”、“文心阁论坛”、“文心手打”、“【文】”、“【心】”、“【阁】”等

5.一些其他常见错误：实体书OCR扫校文本经常会把叹号错写成数字1，把问号错写成数字7；还有一些文本会把间隔符
“·”错写成半角的“?”，这个要注意，必须先查找这个再格式整理，否则半角问号就会变成全角问号，此时就找不到
了，另外还需要注意的是小数点通过格式整理会变成句号，所以使用txtformat查找数字的时候要注意这点。

最后被梅比斯·维亚米利欧编辑于5月1天前

#44 梅比斯·维亚米利欧 (妖精军师) 5月2天前 | 只看该作者

2楼

  帖子：24
  上传：5.51 GB
  下载：1.48 GB
  分享率：3.710

处理步骤

1.用txtformat打开文本，点击格式整理设置，行首缩进改为无缩进，其他设置不变，如图②。然后保存并格式整理。
目的：去除文中的无文字有空格组成的空行，如下图所标注的第二种空行：

2.再次点击格式整理设置，行首缩进改成正常的2个全角空格，再次格式整理。这样文中就不会出现空行了。
3.查找乱码，然后对照实体书或者去网上找其他的文本修正。
4.在右侧依次选择软件内置好的正则表达式查找文本的问题，还原屏蔽字，处理数字字母的问题等，下拉选项很明确，
无需多做说明了。
注：同查找乱码一样，此查找也经常查到正常的字，比如“窸窸窣窣、瞭”等。

引用

（1）格式整理：

这个也是应用了正则，主要就是段首缩进和段间隔行，例如增加段间隔行就是相当于正则“\n”替换成“\n\n”，当然
这些不须记了，会用就ok了，具体操作和设置见我的做书教程帖。

（借这里再说说规范的字母数字特殊符格式：现在咱们看的文本都是简体字的（港澳台为繁体字），简体字的文字编码
是GB_2312，相信大家发现论坛和word中都有“楷体_2312”，这就是说明此楷体不支持繁体字，比如“忘塵居士”的
“塵”；而把编码拓展到GBK就是包含繁体字的所有汉字了。简体字文本和繁体字文本除了字以外还有其他不同，简体字
中的字母和数字都是半角的，标点是全角的；繁体字中字母、数字和标点都是全角的。且一些符号在简体繁体里是不同
的，比如引号在简体里是【‘’“”】，在繁体里是【『』「」】，使用格式整理，这些都可以批量处理搞定）

（2）软件上方的查找乱码和修复乱码：

这个对于直接整理文本用途很大，可以挑出乱码，比如“闼匙怕?腔?┑纳狡，”这种。

（乱码的成因有很多，有的是OCR扫校造成的，有的是编码不一造成的，比如一个unicode编码的文本，中间有一段是只
有在utf-8编码文本中才能显示的文本就会乱码，修复乱码按键本质上就是把选中的乱码文字换编码，直到能够正常显示，这里还要说明，不一定所有的乱码都会正常还原回原文字的，如果还原不了只能找正版vip章节、图片、或者纸质实体书校对了）

查找乱码通常还会挑出正文本中非章节和段首缩进的空格，很实用。

但也有正常句子被挑出来的，跳过即可，不会太多。

（3）查找广告及其他问题：

这个把网文常见的错误和问题都集中起来了，比如“起点”、“纵横”、“手打”、“月票”、“红票”、“收藏”……
什么的都集中起来了，查找很方便，是必须用到的。

（PS：此应用的正则很长，不需要理解，这个软件更新很快，每次作者都会添加一些新的查找广告类型。）

（4）查找半角标点符号：

其实只要是经过了正确的格式整理的文本半角标点符号就不多了，那么为什么还会有呢？因为汉字的标点符号是全角的，
但是英文的标点却是半角的，使用此选项查到的几乎都是英文里的符号，比如 -_@^ ，当然也有本身就是半角的符号，
比如 % 。

（PS：此正则也不需要理解，其实说白了就是半角符号的集合。）

（5）查找硬回车：

这个有使用技巧的，看这里：[教程]【经验分享③】长短目录转换中关于批量为章节添加或去除卷名的方法。

（PS：此正则依然不需要理解。）

（6）查找数字串：

顾名思义，正则表达式为 [0-9１２３４５６７８９０.]\d*（注：后面单写的数字是全角的，不过经过格式整理的文本
已经把全角数字全部转换成版交流，所以这个式子可以改写成 [0-9.]\d* ）。

（PS：校对文本查找数字时可能会碰到数字很多的文章，有一种捷径的，准备两份文本，一本用于修改错误，一本用于
批量去除可以确定未错误的数字串，比如把 [0-9１２３４５６７８９０.]\d*[年月日] 替换为空，军旅文把 [0-9１２３４５６７８９０.]\d*[军师旅团营连排班] 替换为空，根据具体情况而定，这样就会去除很多干扰，提高效率，节省时间。）

（7）查找字母串：

这个很强大，除了拉丁字母，连汉语拼音、希腊字母、各种特殊符、甚至平假名、片假名都能查到，非常强大！软件中的
正则表达式为 ([a-zA-ZāáǎàōóǒòēéěèīíǐìūúǔùǖǘǚǜüＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ
ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩαβ
γδεζηθικλμνξοπρστυφχψωАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭ
ЮЯабвгдежзийклмнопрстуфхцчшщъыьэюяё])+ 无需理解。

（PS：可能以前有人手动查找26个英文字母的，但是那个的查找量远远不够的，比如起点wap文本会有拼音，拼音并不
是键盘上的26个字母！所以txtformat的查找字母串功能无法替代！）

（8）查找字母数字串：

就是把上面的两项整合，无需多言。

（9）查找章节名：

这个之前我在硬回车处理专帖里说过，在这里再简单提一下。应用的正则是 (第)([(一二两三四五六七八九十○零百千0-9１２３４５６７８９０]{1,12})([章节節回集]) 这个东西是比较活的，不要死记。

比如说想查找“第XX卷”这种，可以把表达式改成 (第)([(一二两三四五六七八九十○零百千0-9１２３４５６７８９０]{1,12})([卷])；
想查找“章XX”这种，可以把表达式改成 (章)([(一二两三四五六七八九十○零百千0-9１２３４５６７８９０]{1,12])

那么如果想要查找“第XX章 XXXX”这种呢？很简单，写成 (第)([(一二两三四五六七八九十○零百千0-9１２３４５６７８９０]{1,12})([章]) .*$ 这样就能连章节的内容也匹配上了。（注：.*连用表示除空格以外的所有内容，$是终止符，另外要注意中间的空格是全角半角，当然我们能用正则把半角和全角都匹配上，但是我们终究是想把所有的章节名都规范统一一下，所以空格就用本身的，这样批处理后，所有不和谐的都一目了然了）

那么如果想匹配“第XX卷 XXX 第XX章 XXXX”这种呢？写成 (第)([(一二两三四五六七八九十○零百千0-9１２３４５６７８９０]{1,12})([卷]) .* (第)([(一二两三四五六七八九十○零百千0-9１２３４５６７８９０]{1,12})([章]) .*$ 就好了，很简单吧？

至于其他的选项直接用就好，没什么需要解释的，也不需要变形。

5.完成以上步骤，在txtformat上操作的文本校对初步工作就完成了，下一步就要开始转入emeditor了。

最后被梅比斯·维亚米利欧编辑于5月2天前

#45 梅比斯·维亚米利欧 (妖精军师) 5月2天前 | 只看该作者

3楼

  帖子：24
  上传：5.51 GB
  下载：1.48 GB
  分享率：3.710

常见的硬回车错误：

1：段落直接被腰斩，从中间换行并开始下一段了；

例

引用

　　许泰急急走回案前俯看地图，疑道：“他们向黄河
　　逃窜，莫非要渡河南下？”

2.段尾无标点（仅仅是缺标点，非第一种错误换行问题），或者段尾以逗号、顿号、单双前引号等非结束性标点结尾。

二.硬回车和错误分段换行问题的查找和修正：

1.准备工作：先使用txtformat格式整理，然后把段首的两个全角空格替换为空，再次格式整理。（目的是去除空行，规范格式，为下一步操作做准备）

2.去除章节标题：比如“第一卷烽火连三月第一章九世善人”这种，因章节标题也是不用标点直接换行的，也属于硬回车查找范畴，如果章节少尚可，多的话查找就麻烦了，所以批量删除！当然，此时操作的文本用于查找，另需要多备份一个文本用于对照修改的。

就以“第XX卷 XXXX 第XX章 XXXX”这种为例：

引用

一.使用txtformat批量去除章节的正则表达式：(第)([(一二三四五六七八九十○零百千0-9]{1,12})([卷]) .* (第)([(一二三四五六七八九十○零百千0-9]{1,12})([章]) .*$

二.使用emeditor批量去除章节的正则表达式：第[一二三四五六七八九十百千零〇]+卷 .* 第[一二三四五六七八九十百千零〇]+章 .*$

三.使用textpro批量去除章节的正则表达式：第\n卷 .* 第\n+章 .*$

——PS：如果章节名不是卷章形式也可以根据实际形式修改正则。另关于章节的汉字与阿拉伯计数形式之间的转换或者中间的空格缩进形式可以用emeditor的太阳系联盟脚本整理，很容易，这里不做过多说明。

3.再次重复第一部操作，进行格式整理。

4.开始使用txtformat查找硬回车：

5.发现错误的地方时，就在备份的文本里查找到该处并修改。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。