性能分析 | Hical

Heaptrack：找出 C++ 程序中的无效内存分配

Heaptrack：找出 C++ 程序中的无效内存分配你的火焰图上 malloc/free 占了 8% CPU。你知道分配太频繁了，但——是哪个函数在疯狂 new？每次 new 了多少字节？有没有更好的办法？故事：每秒 17000 次 malloc，但只有 41 次是浪费的对我的 C++20/26 Web 框架（Hical）做 Heaptrack 分析时发现：136K QPS 下每秒 17457 次堆分配，但临时分配（分配后很快释放）只有 41 次/秒——说明 PMR 内存池策略生效了。但第一版代码没有 PMR 时，临时分配高达 13 万次/秒。Heaptrack 精确告诉了我哪些 std::string 和 std::vector 是罪魁祸首，逐个消灭后内存分配开销从 8% 降到 < 0.1%。这篇教你用 Heaptrack 做同样的事——精确定位哪个函数在做无效分配，然后干掉它。一、Heaptrack 是什么 Heaptrack 是一个堆内存分配追踪器，记录程序运行期间的每一次 malloc/new/free/delete，告诉你：总共分配了多少次？多少字节？哪个函数分配最多？（完整调用栈）峰值内存使用在哪个时间点？有没有泄漏（分配了但从未释放）？临时分配有多少？（分配后很快释放——这是优化首要目标）对比 Valgrind Massif Heaptrack Valgrind –tool=massif 性能开销 2~5x 减速 20~50x 减速数据粒度每次分配的完整调用栈定期快照 GUI heaptrack_gui（丰富） ms_print（文本）适用场景日常分析（推荐）极精确内存画像一句话：Heaptrack 是 Valgrind Massif 的现代替代品，快 10 倍，信息更全。 ...

Linux 性能分析与优化实战指南：perf / 火焰图 / Heaptrack 全流程

Linux 性能分析与优化实战指南基于 Hical 项目的 Ubuntu 24.04 VM 环境（VirtualBox，8 CPU / 16GB RAM）。前置条件：已完成 Hical-Linux开发环境和 VM编译运行Hical-Benchmark流程的环境搭建。目录零、工具安装一、perf stat：硬件计数器分析二、perf record + 火焰图：CPU 热点定位三、Heaptrack：内存分配分析四、缓存层次与 cache line 五、实战：Hical 性能分析全流程六、速查卡零、工具安装 0.1 一键安装所有性能工具 1 2 3 4 5 6 7 8 9 10 11 # perf（必须匹配内核版本） sudo apt install -y linux-tools-$(uname -r) linux-tools-generic # heaptrack（内存分配分析） sudo apt install -y heaptrack heaptrack-gui # FlameGraph（火焰图生成脚本） git clone --depth 1 https://github.com/brendangregg/FlameGraph.git ~/FlameGraph # 辅助工具 sudo apt install -y valgrind strace sysstat hwloc 0.2 内核参数调整（perf / heaptrack 权限） 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 # ── perf 权限 ── # 查看当前值（默认通常是 4，限制很严） cat /proc/sys/kernel/perf_event_paranoid # 临时放开（重启失效） sudo sysctl -w kernel.perf_event_paranoid=-1 sudo sysctl -w kernel.kptr_restrict=0 # ── ptrace 权限（heaptrack --pid 运行时附着需要） ── # 查看当前值（默认 1，禁止非父进程 ptrace） cat /proc/sys/kernel/yama/ptrace_scope # 临时放开（重启失效） sudo sysctl -w kernel.yama.ptrace_scope=0 # ── 永久生效（写入配置文件） ── cat << 'EOF' | sudo tee /etc/sysctl.d/99-perf.conf kernel.perf_event_paranoid = -1 kernel.kptr_restrict = 0 kernel.yama.ptrace_scope = 0 EOF sudo sysctl --system 各级别含义： ...

perf + 火焰图：5 分钟定位 C++ 程序的 CPU 瓶颈

perf + 火焰图：5 分钟定位 C++ 程序的 CPU 瓶颈你的服务器 CPU 跑满了，QPS 却上不去。top 告诉你"忙"，但不告诉你忙在哪。怎么办？故事：从 27K 到 136K QPS 我开发了一个 C++20/26 Web 框架（Hical），第一次压测只有 27K QPS，而同场景下 Drogon 和 Cinatra 都在 160K+。CPU 使用率 100%，top 没用，gdb 打断点太慢。最终靠 perf record + 火焰图，5 分钟定位到瓶颈不在我的框架代码（仅占 2% CPU），而在 Boost.Asio 的调度层——跨线程 epoll_ctl 和 per-request timer 合计吃了 27% CPU。优化后 QPS 从 27K → 136K。这篇文章把我整套分析流程分享出来。不需要你用过 Hical，任何 C++ 服务器程序都适用。一、工具安装（2 分钟搞定） 1 2 3 4 5 6 7 8 9 # perf（必须匹配内核版本） sudo apt install -y linux-tools-$(uname -r) linux-tools-generic # FlameGraph 脚本（Brendan Gregg 出品） git clone --depth 1 https://github.com/brendangregg/FlameGraph.git ~/FlameGraph # 放开 perf 权限（否则只能看到自己的进程） sudo sysctl -w kernel.perf_event_paranoid=-1 sudo sysctl -w kernel.kptr_restrict=0 验证： ...

缓存行对 C++ 性能的影响有多大？实测告诉你

缓存行对 C++ 性能的影响有多大？实测告诉你面试题：“遍历 vector 比遍历 list 快多少倍？"——答案不是 2 倍，是 10~100 倍。原因只有一个字：缓存。故事：为什么 vector 存 20 个 HTTP 头比 unordered_map 还快开发 Hical Web 框架时，我面临一个选择：HTTP 请求头用什么容器存？直觉说 unordered_map<string, string> 查找 O(1)，肯定比 vector<pair<string, string>> 的 O(n) 快。但实测结果打脸——vector 线性扫描 20 个头部，比 unordered_map 哈希查找还快 40%。原因就是 cache line。这篇文章讲清楚这件事。一、CPU 缓存：被忽视的性能悬崖 1.1 速度鸿沟你的程序跑在 CPU 上，但数据存在内存里。两者之间有一道巨大的速度鸿沟： 1 2 3 4 5 6 7 8 9 10 11 ┌──────────┐ │ CPU 寄存器│ ~0.3 ns (1 cycle) ├──────────┤ │ L1 Cache │ ~1 ns (3-4 cycles) 32-48 KB / 核 ├──────────┤ │ L2 Cache │ ~4 ns (10-12 cycles) 256 KB-1 MB / 核 ├──────────┤ │ L3 Cache │ ~12 ns (30-40 cycles) 8-32 MB / 共享 ├──────────┤ │ 主内存 │ ~60-100 ns (150-300 cycles) └──────────┘ 关键数字：L1 和主内存的延迟差 100 倍。 ...

C++ 性能分析全景指南：从工具链到方法论

C++ 性能分析全景指南：从工具链到方法论不要凭直觉猜瓶颈——人的直觉在性能问题上错误率极高。先量测，再优化。写在前面性能优化是 C++ 程序员的核心竞争力之一。但"性能优化"这四个字太大了——从微架构级的 cache line 对齐，到宏观的算法复杂度选择，中间跨越了多个抽象层次。这篇文章不是某个工具的使用教程，而是试图建立一套完整的性能分析知识框架：遇到性能问题时，你该用什么工具、看什么指标、按什么思路排查。全文分为九个部分：核心思维 CPU Profiling 内存分析编译优化分析 Benchmark 编写并发与锁分析 Sanitizer 全家桶优化决策方法论工具选择与学习路线一、核心思维 1.1 性能问题的三种类型所有性能问题，本质上只有三类：类型表现典型原因 CPU-bound CPU 利用率高，但吞吐上不去算法复杂度高、分支预测失败、指令级并行度低 Memory-bound CPU 利用率不高（在等数据），IPC 低缓存未命中、TLB miss、false sharing、频繁堆分配 I/O-bound CPU 几乎空闲，程序却很慢磁盘读写、网络等待、锁竞争（广义 I/O）判断当前程序属于哪一类，是性能分析的第一步。用错了工具，你会在错误的方向上浪费大量时间。 1.2 Amdahl 定律的启示优化一个占总耗时 5% 的函数，即使你把它优化到 0，整体也只快 5%。但优化一个占 60% 的函数，哪怕只快 20%，整体就快 12%。永远先找大头。这就是为什么 profiling 必须走在优化前面。 1.3 量测的四条铁律在接近生产环境的条件下量测——Debug 模式的热点分布和 Release 完全不同量测时关闭无关进程——CPU 频率调节（turbo boost / power saving）会干扰结果多次量测取统计值——单次运行的噪声太大，至少跑 3 次取中位数量测前后只改一个变量——否则你不知道是哪个改动起了作用二、CPU Profiling CPU 剖析是性能分析的基础。根据实现方式不同，分为采样式和插桩式两大类。 ...

火焰图对比分析：自研 HTTP 栈 vs Beast HTTP 栈

火焰图对比分析：自研 HTTP 栈 vs Beast HTTP 栈 Hical v2.6.0 完成了从 Beast HTTP 到自研零拷贝 HTTP 栈的迁移。本文通过两份火焰图的逐项对比，用数据量化"去 Beast"到底省了什么、省了多少，以及当前性能瓶颈到底在哪里。目录火焰图对比分析：自研 HTTP 栈 vs Beast HTTP 栈目录 1. 测试环境与采集方式 2. 总体热度分布对比 flame.svg（自研路径）— 总计 ~299 亿 samples flame1.svg（Beast 路径）— 总计 ~411 亿 samples 3. HTTP 解析：picohttpparser vs Beast parser 4. Header 存储：栈数组 vs 链表堆分配 5. 响应序列化：FixedBuffer vs Beast serializer 自研路径 Beast 路径 6. 发送路径：sendto vs sendmsg 7. 协程与调度开销 8. 内核瓶颈：loopback softirq 的天花板 epoll_ctl 已不是瓶颈 9. strace 佐证：系统调用频率 10. 结论与下一步量化收益：去 Beast 到底省了多少当前性能分布总结下一步优化方向最终结论 1. 测试环境与采集方式项目配置环境 Ubuntu VM (Docker 内)，GCC 14，-O2 -g 压测工具 wrk，4 线程，keep-alive 采集 perf record -F 99 -g -p <pid> → FlameGraph 生成 SVG 辅助 strace -c -f -p <pid> 统计系统调用频率对比目标 flame.svg（自研路径 v2.6.0）vs flame1.svg（Beast 路径）两份火焰图采集条件一致，唯一区别是 HTTP 处理栈的实现路径。 ...