win10net80070057-(0x80070035 win10)

来源:191路由网 2022-11-26 12:33:37

win10net80070057 (0x80070035 win10) 一:背景1. 讲故事

去年阿里聚石塔上的所有isv短信通道全部对接阿里通信,我们就做了对接改造,使用阿里提供的.net sdk。

网址:https://help.aliyun.com/document_detail/114480.html

同事当时使用的是ons-.net v1.1.3版本,程序上线后若干天就会有一次程序崩溃现象,当时也没特别在意,以为是自己代码或者环境出了什么问题,索性就加了一个检测程序,如果检测到sdk程序退出就自动重启,就这样先糊弄着,直到有一天服务器告警,那个程序CPU居然飙到100%,服务器可是16核128G的哦。。。

二:分析问题1. 抓dump文件

情况比较紧急,马上给程序发送Ctrl+C命令让程序退出,结果又退出不了,奇葩。。。为了分析问题抓了一个dump下来,然后强制kill掉程序。

2. 查看线程池以及各个线程正在做什么?

0:000> !tpCPU utilization: 100%Worker Thread: Total: 0 Running: 0 Idle: 0 MaxLimit: 32767 MinLimit: 16Work Request in Queue: 0--------------------------------------Number of Timers: 1--------------------------------------Completion Port Thread:Total: 1 Free: 1 MaxFree: 32 CurrentLimit: 1 MaxLimit: 1000 MinLimit: 16

从 CPU utilization: 100% 上看,果然cpu100%了,发现 Worker Thread 没有Running 线程,可能是因为执行了Ctrl+C都销毁了,接下来用 ~*e !clrstack 把所有的托管线程栈打出来。

0:000> ~*e !clrstackOS Thread Id: 0x1818 (0)Unable to walk the managed stack. The current thread is likely not a managed thread. You can run !threads to get a list of managed threads inthe processFailed to start stack walk: 80070057

从输出结果看,没有任何托管线程,唯一的那个线程0还不是还托管线程,然后改成 ~*e !dumpstack把非托管线程栈找出来。

0:000> ~*e !dumpstackOS Thread Id: 0x1818 (0)Current frame: ntdll!ZwRemoveIoCompletion+0x14Child-SP RetAddr Caller, Callee000000637323ef40 00007ff8327bac2f KERNELBASE!GetQueuedCompletionStatus+0x3f, calling ntdll!ZwRemoveIoCompletion000000637323efa0 00007ff81b9c8a00 ONSClient4CPP!metaq_juce::URL::launchInDefaultBrowser+0x273d0, calling kernel32!GetQueuedCompletionStatus000000637323f090 00007ff81ba3eb0a ONSClient4CPP!ons::Message::getMsgBody+0x5a8a, calling ONSClient4CPP!metaq_juce::URL::launchInDefaultBrowser+0x1f100000000637323f140 00007ff81ba3f084 ONSClient4CPP!ons::Message::getMsgBody+0x6004, calling ONSClient4CPP!ons::Message::getMsgBody+0x5800000000637323f280 00007ff81ba233b4 ONSClient4CPP!ons::ONSFactoryProperty::setSendMsgTimeout+0xa6b4, calling ONSClient4CPP!ons::ONSFactoryProperty::setSendMsgTimeout+0xa5d0000000637323f2b0 00007ff81ba11b43 ONSClient4CPP!ons::ONSFactoryAPI::~ONSFactoryAPI+0x153000000637323f310 00007ff81ba12d64 ONSClient4CPP!ons::SendResultONS::operator=+0xc44, calling ONSClient4CPP!ons::ONSFactoryAPI::~ONSFactoryAPI+0x10000000637323f460 00007ff81ba83eb4 ONSClient4CPP!ons::Message::getStoreTimestamp+0xf484, calling ONSClient4CPP!ons::Message::getStoreTimestamp+0xf1c4000000637323f630 00007ff8356f7d94 ntdll!RtlExitUserProcess+0xb4, calling ntdll!LdrShutdownProcess000000637323f690 00007ff832777c23 KERNELBASE!CtrlRoutine+0xa3000000637323f780 00007ff834df8364 kernel32!BaseThreadInitThunk+0x14, calling kernel32!WriteConsoleOutputW+0x530

从非托管调用栈来看,其中KERNELBASE!CtrlRoutine 表明主线程接受到了Ctrl+C命令, 从栈顶发现貌似不能退出的原因是主线程被 ONSClient4CPP 接管,而且这个C++正在做远程连接再等待网络IO返回,但这种会把16核cpu打满应该不太可能,这个问题貌似到这里就卡住了。

三: 重启程序发现问题依旧1. 抓dump文件

很开心的是程序重新启动后,过了两分钟CPU又在飙升,这次学乖了,等CPU到了60,70%的时候抓dump文件。

2. 继续排查

0:000> .timeDebug session time: Fri Apr 17 17:36:50.000 2020 (UTC + 8:00)System Uptime: 355 days 5:33:48.092Process Uptime: 0 days 0:02:11.000 Kernel time: 0 days 0:03:31.000 User time: 0 days 0:13:22.0000:000> !tpCPU utilization: 59%Worker Thread: Total: 3 Running: 0 Idle: 3 MaxLimit: 32767 MinLimit: 16Work Request in Queue: 0--------------------------------------Number of Timers: 1--------------------------------------Completion Port Thread:Total: 2 Free: 2 MaxFree: 32 CurrentLimit: 2 MaxLimit: 1000 MinLimit: 16

从上面代码可以看到,进程启动了2分11秒,这次cpu利用率是59%,抓的有点早,不过没关系,先看一下Threads情况。

0:000> !threadsThreadCount: 25UnstartedThread: 0BackgroundThread: 8PendingThread: 0DeadThread: 16Hosted Runtime: no Lock ID OSID ThreadOBJ State GC Mode GC Alloc Context Domain Count Apt Exception 0 1 cdc 0000022bb9f53220 2a020 Preemptive 0000022BBBFACCE8:0000022BBBFADFD0 0000022bb9f27dc0 1 MTA 2 2 3dc 0000022bb9f7f9f0 2b220 Preemptive 0000000000000000:0000000000000000 0000022bb9f27dc0 0 MTA (Finalizer) 3 4 296c 0000022bb9fe97b0 102a220 Preemptive 0000000000000000:0000000000000000 0000022bb9f27dc0 0 MTA (Threadpool Worker) XXXX 5 0 0000022bb9ffc5a0 1039820 Preemptive 0000000000000000:0000000000000000 0000022bb9f27dc0 0 Ukn (Threadpool Worker) XXXX 6 0 0000022bd43938c0 1039820 Preemptive 0000000000000000:0000000000000000 0000022bb9f27dc0 0 Ukn (Threadpool Worker) ............................................................................. 163 24 29e8 0000022bd4898650 1029220 Preemptive 0000022BBC102108:0000022BBC103FD0 0000022bb9f27dc0 0 MTA (Threadpool Worker) 164 25 2984 0000022bd489d470 1029220 Preemptive 0000022BBC0EA2D0:0000022BBC0EBFD0 0000022bb9f27dc0 0 MTA (Threadpool Worker)

好家伙,才2分11秒,托管线程ThreadCount: 25就死了DeadThread: 16个,而且从threads列表中看,windbg给的最大编号是164,说明当前有 (164+1) - 25 =142 个非托管线程,应该就是阿里的ONSClient4CPP开启的,为什么开启这么多线程,这就是一个很值得关注的问题了,接下来还是用 ~*e !dumpstack 把所有线程的托管和非托管线程栈打出来,由于信息太多,我就截几张图。

个人猜测,纯技术讨论:

图1:

从堆栈上看,有105个线程卡在 ntdll!ZwRemoveIoCompletion+0x14 这里,而且从 ONSClient4CPP!metaq_juce::URL::launchInDefaultBrowser+0x23072 中看,貌似阿里开了一个浏览器内核,用内核来发送数据,估计这里并发阈值开的还挺大的,咨询了下同事是前面有一家大客户发了很多的短信,估计是大量的回持积压,这个C# sdk进行了疯狂读取,这个跟CPU暴涨应该有脱不了的关系。

图2:

从检索上看有28个线程貌似正在临界区等待锁,CPU高的一个经典案例就是当很多线程在临界区等待的时候,当某一个正在临界区中的线程离开后,这28个线程的调度竞抢也是CPU高的一个原因。

个人水平有限,进一步挖非托管堆目前还没这个技术(┬_┬) 。。。

四: 解决方案

这种SDK的问题还能有什么解决方案,能想到的就是去官网找下可有最新版:

可以看到最新版的 ons-.net v1.1.4 中提到的优化点:优化消息拉取流程,避免特殊情况下拉取异常造成的消息堆积。

果然用了最新版的sdk就可以了,。


路由
点击展开全文

相关阅读

电脑开机蓝屏-(电脑开机蓝屏怎么解决)

电脑开机蓝屏(电脑开机蓝屏怎么解决)电脑上蓝屏的缘故许多,显示出去的蓝屏状况代码等也会不一样。有很多网民不知道电脑上蓝屏是怎么回事,该如何解决。实际上我们可以依据状况大约分为六种普遍的缘故,下面我就给大伙儿剖析下普遍的电脑上蓝屏的缘故和处理方法。一、驱动/软件的兼容性问题。...

2022-11-26

win10net80070057-(0x80070035 win10)

win10net80070057(0x80070035win10)一:背景1.讲故事去年阿里聚石塔上的所有isv短信通道全部对接阿里通信,我们就做了对接改造,使用阿里提供的.netsdk。网址:同事当时使用的是ons-.netv1.1.3版本,程序上线后若干天就会有一次程序崩溃现象,当时也没特别在意,以为是自己代码或者环境出了什么问题,索性就加了一个检测...

2022-11-26

笔记本不开机主板设置u盘启动-(笔记本不开机主板设置u盘启动)

笔记本不开机主板设置u盘启动(笔记本不开机主板设置u盘启动)近日学习电脑装机,在此过程中学习了一些有关设置的方法,因为自己的英文水平欠缺,好记性不如烂笔头,费点时间记录于此,也便于其他爱好电脑折腾的小白参考吧!BIOS,中文解释就是“基本输入输出...

2022-11-26

下载系统放在u盘里-()

下载系统放在u盘里()怎么把系统装在u启动u盘启动盘上?步骤一:制作U盘启动盘1.一个正常使用的u盘,容量建议8G以上;2.需要安装的系统镜像文件1个1、首先从官网首页下载u盘启动盘制作工具,并安装到电脑当中;如图所示:2、安装完成之后打开软件,并将u盘插入电脑当中,软件会自动识别到u盘的信息以及名称;如图所示:3、无需更...

2022-11-26

win10安装画面-(win10安装画面这不需要多长时间)

win10安装画面(win10安装画面这不需要多长时间)不管你的电脑配置怎么样,使用时间久了,都有可能会出现卡顿的情况。当然,配置确实不怎么好的电脑,安装win10更加容易出现性能下降,比如说光标响应慢半拍,简直想摔电脑~其实,我们在安装win10...

2022-11-26

191路由网 - 192.168.1.1,192.168.0.1无线路由器设置教程

版权声明:本站的文章和图片来自互联网收集,仅做分享之用如有侵权请联系站长,我们将在24小时内删除