[译] 标准化的包布局(Standard Package Layout)

本文提出了一套Go项目包布局的建议,旨在通过遵循四个基本原则——根包用于领域类型、依赖关系组织子包、共享mock子包及main包整合依赖——来实现代码解耦、易于测试和一致的项目结构。

一般来说是使用 Vendoring 作为包管理工具。在 Go 社区已经可以看到一些重要的问题,但是有一个问题在社区中很少被提及,即应用的包布局。

我曾经参与编写过的每一个 Go 应用对这个问题似乎都有不同的答案, 我该如何组织我的代码? 。一些应用会把所有的东西都放到一个包里,而其它应用则会选择按照类型或模块来组织代码。如果没有一个适用于整个团队的策略,你将发现代码会散布在你应用不同包里面。对于 Go 应用程序包布局的设计我们需要一个更好的标准。

我提议有一个更好的方式。通过遵循一些简单的规则我们就可以解耦我们的代码,使之更易于测试并且可以使我们的项目有一致的结构,在深入探讨这个方式之前,让我们来看下目前人们组织项目一些最常见的方式。


更新:我收到了很多关于这种方式非常棒的反馈,其中最多的是想要看到一个使用这种方式构建的应用。于是我已经开始重新写一系列文章记录使用这种包布局方式来构建应用,叫做 Building WTF Dial.

常见的有缺陷的方式

现在似乎有几种通用的 Go 应用组织方式,它们都有各自的缺陷。

方法 #1: 单个包

把你所有的代码都扔进一个包,对于一个小的应用来说这样就可以很好的工作。它消除了产生循环依赖问题的可能,因为在你的应用代码中并没有任何依赖。

我曾经看到过使用这种方式构建超过 10K 行代码的应用 SLOC。但是一旦代码量超过这个数量,定位和独立你的代码将会变得非常困难。

方法 #2: Rails 风格布局

另一种组织你代码的方式是根据它的功能类型。比如说,把所有你的 处理器,控制器,模型代码都分别放在独立的包中。我之前看到很多前 Rails 开发者(包括我自己)都使用这种方式来组织代码。

但是使用这种方式有两个问题。首先你的命名将会变得糟糕透顶,你最终会得到类似 controller.UserController 这样的命名,在这种命名中你重复了包名和类型名。对于命名,我是一个有执念的人。我相信当你在去除无用代码时名称是你最好的文档。好的名称也是高质量代码的代表,当其他人读代码时总是最先注意到这个。

更大的问题在于循环依赖。你不同的功能类型也许需要互相引用对方。只有当你维护单向依赖关系时,这个应用才能够工作,但是在很多时候维护单向依赖并不简单。

方法 #3:根据模块组织代码

这个方式类似于前面的 Rails 风格布局,但是我们是使用模块来组织代码而不是功能。比如说,你或许会有一个 user 包和一个 account 包。

我们发现使用这种方式也会遇到之前同样的问题。我们最后也会遇到像 users.User. 这样可怕的命名。如果我们的 accounts.Controller 需要和 users.Controller 进行交互,那么我们同样会遇到相同的循环依赖问题,反之亦然。

一个更好的方式

我在项目使用的包组织策略涉及到以下4个简单的原则:

  1. Root 包是用于域类型的
  2. 通过依赖关系来组织子包
  3. 使用一个共享的 mock 子包
  4. Main 包将依赖关系联系到一起

这些规则帮助隔离我们的包并且在整个应用中定义了一个清晰的领域语言。让我们来看看这些规则在实践中是如何使用的。

#1. Root 包是用于域类型的

你的应用有一种用于描述数据和进程是如何交互的逻辑层面的高级语言。这就是你的域。如果你有一个电子商务应用,那你的域就会涉及到客户,账户,信用卡支付,以及存货等内容。如果你的应用是 Facebook,你的域就会是用户,点赞以及用户间的关系。这些是不依赖于你基础技术的东西。

我把我的域类型放在 root 保存。这个包只包含了简单的数据类型,比如说包含用户信息的 User 结构或者是获取和保存用户数据的 UserService 接口。

这个 root 包会像以下这样:

package myapp

type User struct {
	ID      int
	Name    string
	Address Address
}

type UserService interface {
	User(id int) (*User, error)
	Users() ([]*User, error)
	CreateUser(u *User) error
	DeleteUser(id int) error
}
复制代码

这使你的 root 包变的非常简单。你也可以在这个包里放包含执行操作的类型,但是它们应该只依赖于其它的域类型。比如说,你可以在这个包加一个定期轮询 UserService 的类型。但是,它不应该调用外部服务或者将数据保存到数据库。这些是实现细节。

root 包不应该依赖于你应用中的其它任何包

#2. 通过依赖关系来组织子包

如果你的 root 包并不允许有外部依赖,那么我们就必须把这些依赖放到子包里。在这种包布局的方式中,子包就相当于你域和实现之间的适配器。

比如说,你的 UserService 可能是由 PostgreSQL 数据库提供支持。你可以在应用中引入一个叫做 postgres 的子包用来提供 postgres.UserService 的实现。

package postgres

import (
	"database/sql"

	"github.com/benbjohnson/myapp"
	_ "github.com/lib/pq"
)

// UserService represents a PostgreSQL implementation of myapp.UserService.
type UserService struct {
	DB *sql.DB
}

// User returns a user for a given id.
func (s *UserService) User(id int) (*myapp.User, error) {
	var u myapp.User
	row := db.QueryRow(`SELECT id, name FROM users WHERE id = $1`, id)
	if row.Scan(&u.ID, &u.Name); err != nil {
		return nil, err
	}
	return &u, nil
}

// implement remaining myapp.UserService interface...
复制代码

这样就隔离了我们对 PostgreSQL 的依赖关系,从而简化了测试,并为我们将来迁移到其它数据库提供了一种简单的方法。如果你打算支持像 BoltDB 这种数据库的实现,就可以把它看作是一个可插拔体系结构。

这也为你实现层级提供了一种方式。比如说你想要在 Postgresql 前面加一个内存缓存 LRU cache。你可以添加一个 UserCache 类型来包装你的 Postgresql 实现。

package myapp

// UserCache wraps a UserService to provide an in-memory cache.
type UserCache struct {
        cache   map[int]*User
        service UserService
}

// NewUserCache returns a new read-through cache for service.
func NewUserCache(service UserService) *UserCache {
        return &UserCache{
                cache: make(map[int]*User),
                service: service,
        }
}

// User returns a user for a given id.
// Returns the cached instance if available.
func (c *UserCache) User(id int) (*User, error) {
	// Check the local cache first.
        if u := c.cache[id]]; u != nil {
                return u, nil
        }

	// Otherwise fetch from the underlying service.
        u, err := c.service.User(id)
        if err != nil {
        	return nil, err
        } else if u != nil {
        	c.cache[id] = u
        }
        return u, err
}
复制代码

我们也可以在标准库中看到使用这种方式组织代码。io. Reader 是一个用于读取字节的域类型,它的实现是通过组织依赖关系 tar.Readergzip.Readermultipart.Reader 来实现的。在标准库中也可以看到层级方式,经常可以看到 os.Filebufio.Readergzip.Readertar.Reader 这样一个个层级封装。

依赖之间的依赖

依赖关系并不是孤立的。你可以把 User 数据保存在 Postgresql 中,而把金融交易数据保存在像 Stripe 这样的第三方服务。在这种情况下我们用一个逻辑上的域类型来封装对 Stripe 的依赖,让我们把它叫做 TransactionService

通过把我们的 TransactionService 添加到 UserService ,我们解耦了我们的两个依赖。

type UserService struct {
        DB *sql.DB
        TransactionService myapp.TransactionService
}
复制代码

现在我们的依赖只通过共有的领域语言交流。这意味着我们可以把 Postgresql 切换为 MySQL 或者把 Strip 切换为另一个支付的内部处理器而不用担心影响到其它的依赖。

不要只对第三方的依赖添加这个限制

这听起来虽然有点奇怪,但是我也使用这种方式来隔离对标准库的依赖关系。例如 net/http 包只是另一种依赖。我们可以通过在应用中包含一个 http 子包来隔离对它的依赖。

有一个名称与它所包装依赖相同的包看起来似乎很奇怪,但是这只是内部实现。除非你允许你应用的其它部分使用 net/http ,否则在你的应用中就不会有命名冲突。复制 http 名称的好处在于它要求你把所有 HTTP 相关代码都隔离到 http 包中。

package http

import (
        "net/http"
        
        "github.com/benbjohnson/myapp"
)

type Handler struct {
        UserService myapp.UserService
}

func (h *Handler) ServeHTTP(w http.ResponseWriter, r *http.Request) {
        // handle request
}
复制代码

现在,你的 http.Handler 就像是一个在域和 HTTP 协议之前的适配器。

#3. 使用一个共享的 mock 子包

因为我们的依赖通过域接口已经和其它的依赖隔离了,所以我们可以使用这些连接点来注入模拟实现。

这里有几个像 GoMock 的模拟库来帮你生成模拟数据,但是我个人更喜欢自己写。我发现许多的模拟工具都过于复杂了。

我使用的模拟非常简单。比如说,一个对 UserService 的模拟就像下面这样:

package mock

import "github.com/benbjohnson/myapp"

// UserService represents a mock implementation of myapp.UserService.
type UserService struct {
        UserFn      func(id int) (*myapp.User, error)
        UserInvoked bool

        UsersFn     func() ([]*myapp.User, error)
        UsersInvoked bool

        // additional function implementations...
}

// User invokes the mock implementation and marks the function as invoked.
func (s *UserService) User(id int) (*myapp.User, error) {
        s.UserInvoked = true
        return s.UserFn(id)
}

// additional functions: Users(), CreateUser(), DeleteUser()
复制代码

这个模拟让我可以注入函数到任何使用 myapp.UserService 的接口来验证参数,返回预期的数据或者注入失败。

假设我们想测试我们上面构建的 http.Handler

package http_test

import (
	"testing"
	"net/http"
	"net/http/httptest"

	"github.com/benbjohnson/myapp/mock"
)

func TestHandler(t *testing.T) {
	// Inject our mock into our handler.
	var us mock.UserService
	var h Handler
	h.UserService = &us

	// Mock our User() call.
	us.UserFn = func(id int) (*myapp.User, error) {
		if id != 100 {
			t.Fatalf("unexpected id: %d", id)
		}
		return &myapp.User{ID: 100, Name: "susy"}, nil
	}

	// Invoke the handler.
	w := httptest.NewRecorder()
	r, _ := http.NewRequest("GET", "/users/100", nil)
	h.ServeHTTP(w, r)
	
	// Validate mock.
	if !us.UserInvoked {
		t.Fatal("expected User() to be invoked")
	}
}
复制代码

我们的模拟完全隔离了我们的单元测试,让我们只测试 HTTP 协议的处理。

#4. Main 包将依赖关系联系到一起

当所有这些依赖包独立维护时,你可能想知道如何把它们聚合到一起。这就是 main 包的工作。

Main 包布局

一个应用可能会产生多个二进制文件, 所以我们使用 Go 的惯例把我们的 main 包作为 cmd 包的子目录。 比如,我们的项目中可能有一个 myapp 服务二进制文件,还有一个用于在终端管理服务 的 myappctl 客户端二进制文件。我们的包将像这样布局:

myapp/
    cmd/
        myapp/
            main.go
        myappctl/
            main.go
复制代码
在编译时注入依赖

"依赖注入"这个词已经成了一个不好的说法,它让人联想到 Spring 冗长的XML文件。然而,这个术语所代表的真正含义只是要把依赖关系传递给我们的对象,而不是要求对象构建或者找到这个依赖关系本身。

main 包中我们可以选择哪些依赖注入到哪些对象中。因为 main 包只是简单的连接了各部分,所以 main 中的代码往往是比较小和琐碎的。

package main

import (
	"log"
	"os"
	
	"github.com/benbjohnson/myapp"
	"github.com/benbjohnson/myapp/postgres"
	"github.com/benbjohnson/myapp/http"
)

func main() {
	// Connect to database.
	db, err := postgres.Open(os.Getenv("DB"))
	if err != nil {
		log.Fatal(err)
	}
	defer db.Close()

	// Create services.
	us := &postgres.UserService{DB: db}

	// Attach to HTTP handler.
	var h http.Handler
	h.UserService = us
	
	// start http server...
}
复制代码

注意到你的 main 包也是一个适配器很重要。他把所有终端连接到你的域。

结论

应用设计是一个难题。尽管做出了这么多的设计决策,如果没有一套坚实的原则来指导,那你的问题只会变的更糟。我们已经列举了 Go 应用布局设计的几种方式,并且我们也看到了很多它们的缺陷。

我相信从依赖关系的角度来看待设计会使代码组织的更简单,更加容易理解。首先我们设计我们的领域语言,然后我们隔离我们的依赖关系,之后介绍了使用 mock 来隔离我们的测试,最后我们把所有东西都在 main 包中绑了起来。

可以在下一个你设计的应用中考虑下这些原则。如果有您有任何问题或者想讨论这个设计,请在 Twitter 上 @benbjohnson与我联系,或者在Gopher slack 查找 benbjohnson 来找到我。


掘金翻译计划 是一个翻译优质互联网技术文章的社区,文章来源为 掘金 上的英文分享文章。内容覆盖 AndroidiOS前端后端区块链产品设计人工智能等领域,想要查看更多优质译文请持续关注 掘金翻译计划官方微博知乎专栏

// 在调试OCR时,崩溃了这里:error_code ORT_INVALID_ARGUMENT (2) OrtErrorCode D:\wzl\project\wzl_qt_work\third_party\onnxruntime-win-x64-1.22.0\include\onnxruntime_cxx_inline.h auto outs = cls_session_->Run(Ort::RunOptions{ nullptr }, &inName, &tensor, 1, &outName, 1); namespace detail { inline void ThrowStatus(const Status& st) { std::string error_message = st.GetErrorMessage(); OrtErrorCode error_code = st.GetErrorCode(); ORT_CXX_API_THROW(std::move(error_message), error_code); } } // namespace detail 堆栈: 3 Ort::detail::ThrowStatus onnxruntime_cxx_inline.h 39 0x7ff7d0958e31 4 Ort::ThrowOnError onnxruntime_cxx_inline.h 46 0x7ff7d0958d72 5 Ort::detail::SessionImpl<OrtSession>::Run onnxruntime_cxx_inline.h 1433 0x7ff7d0958c37 6 Ort::detail::SessionImpl<OrtSession>::Run onnxruntime_cxx_inline.h 1424 0x7ff7d0958b05 7 OcrService::needRotate OcrService.cpp 219 0x7ff7d0946e7b 8 OcrService::performOcr OcrService.cpp 58 0x7ff7d0944f34 9 Test::Test Test.cpp 45 0x7ff7d093fef4 10 main main.cpp 101 0x7ff7d093278f 11 qtEntryPoint qtentrypoint_win.cpp 45 0x7ff7d097d49a 12 WinMain qtentrypoint_win.cpp 64 0x7ff7d097d34e 控制台打印信息: det output shape: 1 1 640 640 probMap min/max: 0 1 contours found: 39 // D:\wzl\project\wzl_qt_work\src\cpp\ocr\OcrService.cpp #include "OcrService.h" #include <stdexcept> #include <filesystem> OcrService::OcrService(QString& model_dir_str) : env_(ORT_LOGGING_LEVEL_WARNING, "OcrService") { try { session_options_.SetIntraOpNumThreads(1); session_options_.SetGraphOptimizationLevel(GraphOptimizationLevel::ORT_ENABLE_EXTENDED); const std::filesystem::path model_dir(model_dir_str.toStdWString()); const auto det_path = model_dir / "det/det.onnx"; const auto cls_path = model_dir / "cls/cls.onnx"; const auto rec_path = model_dir / "rec/rec.onnx"; // 使用智能指针管理 Session 生命周期 det_session_ = std::make_unique<Ort::Session>(env_, det_path.c_str(), session_options_); cls_session_ = std::make_unique<Ort::Session>(env_, cls_path.c_str(), session_options_); rec_session_ = std::make_unique<Ort::Session>(env_, rec_path.c_str(), session_options_); is_initialized_ = true; } catch (const Ort::Exception& e) { // 加载失败时抛出异常,方便上层捕获和处理 throw std::runtime_error("Failed to initialize OCR service: " + std::string(e.what())); } } // =============================================== // 外部统一入口 // =============================================== QVector<QString> OcrService::performOcr(const cv::Mat& image) { QVector<QString> results; if (!is_initialized_ || image.empty()) return results; // 1. 检测文本框 QList<TextBox> boxes = detectTextBoxes(image); // 2. 逐框识别 for (const TextBox& box : boxes) { // 裁剪并透视矫正 cv::Mat M, warped; std::vector<cv::Point2f> dstPts = { { 0.f, 0.f }, { float(box.pts[1].x() - box.pts[0].x()), 0.f }, { float(box.pts[1].x() - box.pts[0].x()), float(box.pts[2].y() - box.pts[1].y()) }, { 0.f, float(box.pts[2].y() - box.pts[1].y()) } }; cv::warpPerspective(image, warped, cv::getPerspectiveTransform(reinterpret_cast<const cv::Point2f*>(box.pts.data()), reinterpret_cast<const cv::Point2f*>(dstPts.data())), cv::Size(int(dstPts[1].x), int(dstPts[2].y)), cv::INTER_LINEAR, cv::BORDER_REPLICATE); // 3. 方向判断 if (needRotate(warped)) cv::rotate(warped, warped, cv::ROTATE_180); // 4. 识别 results.append(recognizeText(warped)); } return results; } // =============================================== // 1. DBNet 后处理 // =============================================== static QVector<std::array<int64_t, 4>> makeShape4(int n, int c, int h, int w) { return { { static_cast<int64_t>(n), static_cast<int64_t>(c), static_cast<int64_t>(h), static_cast<int64_t>(w) } }; } QList<TextBox> OcrService::detectTextBoxes(const cv::Mat& image, float det_thresh /* =0.1 */, float box_thresh /* =0.3 */, float unclip_ratio /* =2.0 */) { QList<TextBox> finalBoxes; // ---------- 1. 前处理:resize(640x640) + RGB + float32 ---------- const int detH = 640, detW = 640; cv::Mat rgb, resized; cv::cvtColor(image, rgb, cv::COLOR_BGR2RGB); cv::resize(rgb, resized, cv::Size(detW, detH)); resized.convertTo(resized, CV_32FC3, 1.0 / 255.0f); // 0‑1 归一化 // ---------- () 按 mean/std 归一化 + HWC→CHW ---------- static const float mean_vals[3] = { 0.485f, 0.456f, 0.406f }; static const float std_vals[3] = { 0.229f, 0.224f, 0.225f }; QVector<float> inputData(3 * detH * detW); for (int y = 0; y < detH; ++y) for (int x = 0; x < detW; ++x) { cv::Vec3f pix = resized.at<cv::Vec3f>(y, x); // RGB int idx = y * detW + x; inputData[0 * detH * detW + idx] = (pix[0] - mean_vals[0]) / std_vals[0]; // R inputData[1 * detH * detW + idx] = (pix[1] - mean_vals[1]) / std_vals[1]; // G inputData[2 * detH * detW + idx] = (pix[2] - mean_vals[2]) / std_vals[2]; // B } // ---------- 2. 构建 ONNX Runtime 输入 ---------- Ort::MemoryInfo memInfo = Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeCPU); auto inputTensor = Ort::Value::CreateTensor<float>( memInfo, inputData.data(), inputData.size(), makeShape4(1, 3, detH, detW)[0].data(), 4); // ---------- 3. 推理 ---------- Ort::AllocatorWithDefaultOptions allocator; const char* inName = det_session_->GetInputNameAllocated(0, allocator).get(); const char* outName = det_session_->GetOutputNameAllocated(0, allocator).get(); auto outs = det_session_->Run(Ort::RunOptions{ nullptr }, &inName, &inputTensor, 1, &outName, 1); // ---------- 4. 输出处理:阈值化→膨胀→找轮廓 ---------- Ort::Value& pred = outs[0]; auto shape = pred.GetTensorTypeAndShapeInfo().GetShape(); // 期望 [1,1,H,W] qDebug() << "det output shape:" << shape[0] << shape[1] << shape[2] << shape[3]; const int outH = static_cast<int>(shape[2]); const int outW = static_cast<int>(shape[3]); QVector<float> prob(outH * outW); std::memcpy(prob.data(), pred.GetTensorMutableData<float>(), prob.size() * sizeof(float)); cv::Mat probMap(outH, outW, CV_32F, prob.data()); #if 1 // 调试代码,如果发现 cv::threshold() 前 probMap 的最大值 maxVal = 2.97e-05,说明 模型输出几乎是全零, // 所以经过 cv::threshold(probMap, binary, det_thresh, 255, ...) 后 binary 几乎全是黑图(值为0), // cv::findContours() 找不到任何轮廓,contours 自然为空。 // det 模型输出的 probMap 全接近 0,这通常是 预处理不对或模型有问题。 double minVal, maxVal; cv::minMaxLoc(probMap, &minVal, &maxVal); qDebug() << "probMap min/max:" << minVal << maxVal; #endif cv::Mat binary; cv::threshold(probMap, binary, det_thresh, 255, cv::THRESH_BINARY); binary.convertTo(binary, CV_8U); cv::Mat dilated; cv::dilate(binary, dilated, cv::getStructuringElement(cv::MORPH_RECT, { 3, 3 }), // 小核膨胀一次 cv::Point(-1, -1), 1); std::vector<std::vector<cv::Point>> contours; cv::findContours(dilated, contours, cv::RETR_LIST, cv::CHAIN_APPROX_SIMPLE); qDebug() << "contours found:" << contours.size(); // ---------- 5. 轮廓转为 TextBox ---------- for (const auto& contour : contours) { if (contour.size() < 4) continue; cv::Mat mask = cv::Mat::zeros(probMap.size(), CV_8U); cv::drawContours(mask, std::vector<std::vector<cv::Point>>{ contour }, 0, cv::Scalar(255), -1); float score = static_cast<float>(cv::mean(probMap, mask)[0]); if (score < box_thresh) continue; cv::RotatedRect rect = cv::minAreaRect(contour); // 「unclip」扩张 float area = rect.size.area(); float perimeter = 2.f * (rect.size.width + rect.size.height); float distance = area * unclip_ratio / std::max(perimeter, 1.f); cv::Mat offset; cv::Mat(contour).convertTo(offset, CV_32F); std::vector<cv::Point2f> unclipPts; cv::convexHull(offset + (offset * (distance / cv::norm(offset))), unclipPts); cv::RotatedRect unclipRect = cv::minAreaRect(unclipPts); // 坐标缩放回原图 float scaleX = static_cast<float>(image.cols) / detW; float scaleY = static_cast<float>(image.rows) / detH; cv::Point2f pts[4]; unclipRect.points(pts); TextBox box; for (int i = 0; i < 4; ++i) box.pts.append(QPointF(pts[i].x * scaleX, pts[i].y * scaleY)); box.score = score; finalBoxes.append(std::move(box)); } // ---------- 6. 从上到下排序 ---------- std::sort(finalBoxes.begin(), finalBoxes.end(), [](const TextBox& a, const TextBox& b) { return a.pts[0].y() < b.pts[0].y(); }); return finalBoxes; } // =============================================== // 2. 文字方向分类 // =============================================== bool OcrService::needRotate(const cv::Mat& roi) { const int clsH = 48, clsW = 192; cv::Mat rgb, resized; cv::cvtColor(roi, rgb, cv::COLOR_BGR2RGB); cv::resize(rgb, resized, cv::Size(clsW, clsH)); resized.convertTo(resized, CV_32FC3, 1.0 / 255); QVector<float> data(clsH * clsW * 3); std::memcpy(data.data(), resized.data, data.size() * sizeof(float)); Ort::MemoryInfo memInfo = Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeCPU); auto tensor = Ort::Value::CreateTensor<float>(memInfo, data.data(), data.size(), makeShape4(1, 3, clsH, clsW)[0].data(), 4); const char* inName = cls_session_->GetInputNameAllocated(0, Ort::AllocatorWithDefaultOptions()).get(); const char* outName = cls_session_->GetOutputNameAllocated(0, Ort::AllocatorWithDefaultOptions()).get(); auto outs = cls_session_->Run(Ort::RunOptions{ nullptr }, &inName, &tensor, 1, &outName, 1); float* outPtr = outs[0].GetTensorMutableData<float>(); // PP-OCR v5 CLS 输出 shape=[1,2],索引 1 代表 180° return outPtr[1] > outPtr[0]; } // =============================================== // 3. 识别模块 // =============================================== QString OcrService::recognizeText(const cv::Mat& roi) { // -- 0. 载入一次字典 -- if (dict_.isEmpty()) { QFile f(":/models/ocr/onnx_ocr/ppocrv5/ppocrv5_dict.txt"); if (f.open(QFile::ReadOnly | QFile::Text)) while (!f.atEnd()) dict_.append(QString::fromUtf8(f.readLine().trimmed())); } const int recH = 48, recW = 320; cv::Mat rgb, resized; cv::cvtColor(roi, rgb, cv::COLOR_BGR2RGB); cv::resize(rgb, resized, cv::Size(recW, recH)); resized.convertTo(resized, CV_32FC3, 1.0 / 255); QVector<float> data(recH * recW * 3); std::memcpy(data.data(), resized.data, data.size() * sizeof(float)); Ort::MemoryInfo memInfo = Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeCPU); auto tensor = Ort::Value::CreateTensor<float>(memInfo, data.data(), data.size(), makeShape4(1, 3, recH, recW)[0].data(), 4); const char* inName = rec_session_->GetInputNameAllocated(0, Ort::AllocatorWithDefaultOptions()).get(); const char* outName = rec_session_->GetOutputNameAllocated(0, Ort::AllocatorWithDefaultOptions()).get(); auto outs = rec_session_->Run(Ort::RunOptions{ nullptr }, &inName, &tensor, 1, &outName, 1); // -- 后处理 CTC 解码 (argmax) -- Ort::Value& output = outs[0]; auto shape = output.GetTensorTypeAndShapeInfo().GetShape(); // [1, T, C] int T = int(shape[1]), C = int(shape[2]); float* ptr = output.GetTensorMutableData<float>(); QString result; int lastIdx = -1; for (int t = 0; t < T; ++t) { int maxIdx = 0; float maxVal = ptr[t * C]; for (int c = 1; c < C; ++c) if (ptr[t * C + c] > maxVal) { maxVal = ptr[t * C + c]; maxIdx = c; } // CTC:去重 / 去 blank(0) if (maxIdx != lastIdx && maxIdx > 0 && maxIdx < dict_.size()) result.append(dict_[maxIdx]); lastIdx = maxIdx; } return result; } // D:\wzl\project\wzl_qt_work\src\cpp\ocr\OcrService.h #pragma once #include <memory> #include <opencv2/opencv.hpp> #include <onnxruntime_cxx_api.h> #include <QString> #include <QVector> // 文本框结构体,四点顺时针 struct TextBox { QVector<QPointF> pts; float score = 0.0f; }; class OcrService { public: explicit OcrService(QString& model_dir); QVector<QString> performOcr(const cv::Mat& image); private: // ==== 模块化接口 ==== QList<TextBox> detectTextBoxes(const cv::Mat& image, float det_thresh = 0.3f, float box_thresh = 0.6f, float unclip_ratio = 2.0f); bool needRotate(const cv::Mat& roi); QString recognizeText(const cv::Mat& roi); // ==== ONNX Runtime ==== Ort::Env env_; Ort::SessionOptions session_options_; std::unique_ptr<Ort::Session> det_session_; std::unique_ptr<Ort::Session> cls_session_; std::unique_ptr<Ort::Session> rec_session_; bool is_initialized_ = false; // ==== 字典缓存 ==== QStringList dict_; }; // D:\wzl\project\wzl_qt_work\src\cpp\test\Test.cpp #include "Test.h" #include "WindowManager.h" extern WindowManager* g_windowManager; Test::Test() { QTextStream qout(stdout); QTextStream qerr(stderr); // =======================【请修改这里】======================= // 设置你的 ONNX 模型所在的文件夹路径 QString model_directory = "D:/wzl/project/wzl_qt_work/assets/models/ocr/onnx_ocr/ppocrv5/"; // 设置你要测试的图片完整路径 QString image_path = "D:/mhxy.jpg"; // <--- 必须修改为一张有效图片路径! // ========================================================== std::unique_ptr<OcrService> ocr_service; // --- 步骤 1: 初始化 OCR 服务 --- // 使用 try-catch 结构来安全地处理初始化过程中可能抛出的异常 try { qout << "[INFO] Initializing OCR service from: " << model_directory << "\n"; ocr_service = std::make_unique<OcrService>(model_directory); qout << "[SUCCESS] OCR service initialized successfully." << "\n"; } catch (const std::runtime_error& e) { // 如果构造函数抛出异常 (如模型文件找不到), 在这里捕获并打印错误信息 std::cerr << "[ERROR] OCR service initialization failed: " << e.what() << "\n"; return; // 初始化失败, 程序退出 } // --- 步骤 2: 加载测试图片 --- qout << "\n[INFO] Loading image from: " << image_path << "\n"; cv::Mat image = cv::imread(image_path.toStdString()); if (image.empty()) { qerr << "[ERROR] Could not load image. Please check the path: " << image_path << "\n"; return; } qout << "[SUCCESS] Image loaded." << "\n"; // --- 步骤 3: 执行 OCR 并获取结果 --- qout << "\n[INFO] Performing OCR on the image..." << "\n"; QVector<QString> ocr_results = ocr_service->performOcr(image); // --- 步骤 4: 打印识别结果 --- qout << "\n========== OCR Results ==========" << "\n"; if (ocr_results.empty()) { qout << "No text was detected in the image." << "\n"; } else { int line_num = 1; for (const auto& line : ocr_results) { qout << "Line " << line_num++ << ": " << line << Qt::endl; } } qout << "===============================" << "\n"; } #### 这是我windows Qt 6.9 Quick CMake 项目的目录结构: "D:\wzl\project\wzl_qt_work\CMakeLists.txt" "D:\wzl\project\wzl_qt_work\src\resources.qrc" "D:\wzl\project\wzl_qt_work\src\qml\" "D:\wzl\project\wzl_qt_work\src\qml\Main.qml" "D:\wzl\project\wzl_qt_work\src\qml\WzlText.qml" "D:\wzl\project\wzl_qt_work\src\qml\SettingsWindow.qml" "D:\wzl\project\wzl_qt_work\src\cpp\" "D:\wzl\project\wzl_qt_work\src\cpp\pch.h" "D:\wzl\project\wzl_qt_work\src\cpp\CMakeLists.txt" "D:\wzl\project\wzl_qt_work\src\cpp\main.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\WindowManager.h" "D:\wzl\project\wzl_qt_work\src\cpp\WindowManager.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\BackendController.h" "D:\wzl\project\wzl_qt_work\src\cpp\BackendController.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\DataModel.h" "D:\wzl\project\wzl_qt_work\src\cpp\DataModel.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\system_info\wzl_regedit.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\documentProcessing\pdf\wzl_pdf.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\documentProcessing\wzl_file.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\ocr\wzl_ocr.cpp" "D:\wzl\project\wzl_qt_work\src\cpp\ocr\OcrService.h" "D:\wzl\project\wzl_qt_work\src\cpp\ocr\OcrService.cpp" "D:\wzl\project\wzl_qt_work\out\build\debug\python\ocr\ocr_test.py" "D:\wzl\project\wzl_qt_work\assets\images\" "D:\wzl\project\wzl_qt_work\assets\images\icons\main.ico" "D:\wzl\project\wzl_qt_work\assets\models\ocr\onnx_ocr\ppocrv5\ppocrv5_dict.txt" "D:\wzl\project\wzl_qt_work\assets\models\ocr\onnx_ocr\ppocrv5\cls\cls.onnx" "D:\wzl\project\wzl_qt_work\assets\models\ocr\onnx_ocr\ppocrv5\det\det.onnx" "D:\wzl\project\wzl_qt_work\assets\models\ocr\onnx_ocr\ppocrv5\rec\rec.onnx" "D:\wzl\project\wzl_qt_work\third_party\onnxruntime-win-x64-1.22.0\include\" "D:\wzl\project\wzl_qt_work\third_party\onnxruntime-win-x64-1.22.0\lib\" "D:\vcpkg\packages\opencv4_x64-windows\include\" "D:\vcpkg\packages\opencv4_x64-windows\lib" # D:\wzl\project\wzl_qt_work\CMakeLists.txt cmake_minimum_required(VERSION 3.16) project(wzl_qt_work VERSION 0.1 LANGUAGES CXX) set(CMAKE_CXX_STANDARD 17) set(CMAKE_CXX_STANDARD_REQUIRED ON) # === 启用预编头和Qt特性 === set(CMAKE_PCH_INSTANTIATE_TEMPLATES ON) # 启用 `AUTOMOC/AUTORCC/AUTOUIC` 自动处理Qt特性 set(CMAKE_AUTOMOC ON) set(CMAKE_AUTORCC ON) set(CMAKE_AUTOUIC ON) # 指定Qt安装路径(根据实际情况调整) if(MSVC) # 当使用 Visual Studio 时,使用 MSVC 版本的 Qt # 检查是否使用 Microsoft Visual Studio 的编(`MSVC`) set(Qt6_DIR "E:/Qt/6.10.0/msvc2022_64/lib/cmake/Qt6") else() # 其他环境(例如在 Qt Creator 中使用 MinGW 工具链) # set(Qt6_DIR "E:/Qt/6.10.0/llvm-mingw_64/lib/cmake/Qt6") set(Qt6_DIR "E:/Qt/6.10.0/msvc2022_64/lib/cmake/Qt6") endif() # === Qt 模块 === find_package(Qt6 REQUIRED COMPONENTS Quick Core Qml Network Gui Widgets QuickControls2 QuickLayouts) qt_standard_project_setup(REQUIRES 6.8) # windows 下,用 Visual Studio 2022 打开 Qt Quick CMake 项目,编报错: # error 指令: "Qt requires a C++17 compiler, and a suitable value for __cplusplus. On MSVC, you must pass the /Zc:__cplusplus option to the compiler." # error: "Qt requires a C++17 compiler, and a suitable value for __cplusplus. On MSVC, you must pass the /Zc:__cplusplus option to the compiler." # windows 下,用Visual Studio 2022 打开 Qt Quick CMake 项目,编报错: # E:\Qt\6.10.0\llvm-mingw_64\include\QtCore\qcompilerdetection.h(1327): error C2338: static_assert failed: 'On MSVC you must pass the /permissive- option to the compiler.' # C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.44.35207\include\type_traits(323): error C2139: “QString”: 未定义的类不允许作为编器内部类型特征“__is_convertible_to”的参数 if(MSVC) add_compile_options( # 报告 C++ 标准 /Zc:__cplusplus # 启用严格标准符合模式 /permissive- # 强制源码使用 UTF-8 编码,解决中文路径问题 /utf-8 ) # 启用 ASLR,专门针对 Windows 平台和 MSVC 编器的重要安全设置,传递给 MSVC 链接器 (link.exe) 的选项, # - **地址空间布局随机化 (ASLR - Address Space Layout Randomization)** # - 每次程序运行时,操作系统会将程序加载到**随机的内存地址** # - 防止攻击者预测关键函数/数据的内存位置 add_link_options(/DYNAMICBASE) endif() # === 预编头 === # 将 `define_url.h` 添加到 `PRECOMPILE_HEADERS` 变量中,确保 CMake 能正确识别其为预编依赖 # 显式添加 define_url.h 到源文件列表(确保预编依赖正确) set(PRECOMPILE_HEADERS ${CMAKE_CURRENT_SOURCE_DIR}/src/cpp/pch.h ${CMAKE_CURRENT_SOURCE_DIR}/src/cpp/define_url.h ) # === 添加可执行目标 === # Qt Creator 会解析 CMake 目标中的文件列表 # 所有添加到可执行目标 (`qt_add_executable`) 的文件都会显示在项目树中 qt_add_executable(appwzl_qt_work src/cpp/main.cpp # 添加 shortcut_key.h 仅用于在 IDE 中显示;这样会将文件添加到 Qt Creator 的项目树中,但不会尝试编它(因为它不是源文件) src/cpp/shortcut_key.h # 将头文件加入可执行文件依赖 ${PRECOMPILE_HEADERS} src/cpp/BackendController.cpp src/cpp/BackendController.h src/cpp/WindowManager.cpp src/cpp/WindowManager.h src/cpp/DataModel.cpp src/cpp/DataModel.h src/cpp/wzl_dll.cpp src/cpp/test/Test.h src/cpp/test/Test.cpp src/cpp/test/company.cpp src/cpp/ocr/wzl_ocr.cpp src/cpp/ocr/OcrService.h src/cpp/ocr/OcrService.cpp src/cpp/system_info/wzl_regedit.cpp src/cpp/documentProcessing/wzl_file.cpp src/cpp/documentProcessing/pdf/wzl_pdf.cpp qt_faq.md README.md ) # === Qt 资源文件 === qt_add_resources(appwzl_qt_work "app_resources" PREFIX "/" FILES src/resources.qrc assets/images/icons/main.ico ) # === 预编头设置 === #target_precompile_headers(appwzl_qt_work PRIVATE # "$<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}/src/cpp/pch.h>" #) # 配置预编头(更新为使用列表) target_precompile_headers(appwzl_qt_work PRIVATE ${PRECOMPILE_HEADERS}) # === 含头文件目录 === target_include_directories(appwzl_qt_work PRIVATE ${CMAKE_CURRENT_SOURCE_DIR}/src/cpp ) # === 添加 QML 模块 === qt_add_qml_module(appwzl_qt_work URI "wzl_qt_work" VERSION "1.0" RESOURCE_PREFIX "/" QML_FILES src/qml/Main.qml src/qml/SettingsWindow.qml src/qml/wzl_text/WzlText.qml ) # 设置目标属性(括 Windows 和 macOS 平台) set_target_properties(appwzl_qt_work PROPERTIES MACOSX_BUNDLE_BUNDLE_VERSION ${PROJECT_VERSION} MACOSX_BUNDLE_SHORT_VERSION_STRING "${PROJECT_VERSION_MAJOR}.${PROJECT_VERSION_MINOR}" MACOSX_BUNDLE TRUE # 打开:会显示控制台;注释:隐藏控制台 WIN32_EXECUTABLE TRUE ) # === 链接 Qt 模块 === target_link_libraries(appwzl_qt_work PRIVATE Qt6::Quick Qt6::Core Qt6::Qml Qt6::Network Qt6::Gui Qt6::Widgets Qt6::QuickControls2 Qt6::QuickLayouts ) # === 新增 OpenCV 支持 === find_package(OpenCV REQUIRED) target_include_directories(appwzl_qt_work PRIVATE ${OpenCV_INCLUDE_DIRS}) target_link_libraries(appwzl_qt_work PRIVATE ${OpenCV_LIBS}) # === 新增 ONNX Runtime 支持 === set(ONNXRUNTIME_DIR "${CMAKE_CURRENT_SOURCE_DIR}/third_party/onnxruntime-win-x64-1.22.0") target_include_directories(appwzl_qt_work PRIVATE ${ONNXRUNTIME_DIR}/include) target_link_directories(appwzl_qt_work PRIVATE ${ONNXRUNTIME_DIR}/lib) target_link_libraries(appwzl_qt_work PRIVATE onnxruntime) # === 安装规则 === include(GNUInstallDirs) install(TARGETS appwzl_qt_work BUNDLE DESTINATION . LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR} RUNTIME DESTINATION ${CMAKE_INSTALL_BINDIR} )
最新发布
06-17
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值